【PDF】移动机器人模糊 Q - 学习沿墙导航 - 资源下载

编辑：

645135144

2019-07-11

1 基于模糊神经网络的 Q- 学习 Q- 学习的主要目标是通过与环境的交互获得表征策略的状态动作对的 Q- 值函数.Q- 学习中状态动作对的 Q 值按照下式进行更新: Q(st , at )←Q(st , at ) + α δTD . (1) 其中:st 为当前状态;

at 为当前状态下选择执行的动作;

α 为学习率;

δTD 为时间差分(temporal difference, TD).一步时间差分 δTD 计算式为 δTD = rt +

1 + γ max a Q(st +

1 , a) - Q(st , at ). (2) 其中:γ 为折扣因子, rt +

1 为学习 agent 在状态 st 执行动作 at 后转移到状态 st +

1 时所获得的立即奖赏.经典的 Q- 学习是以查找表来描述离散空间状态动作对的值函数.对于连续空间下的 Q 学习, 直接的方法是将连续空间进行离散化处理.而对于离散的粒度选择, 往往没有任何先验知识可用.离散粒度过大将会导致系统性能下降, 甚至学习不成功;

过小也会使学习速度下降.为克服离散化所产生的弊端, 研究者普遍采用具有泛化功能的神经网络或模糊推理系统来逼近 Q 值函数. 模糊神经网络是模糊推理系统和神经网络相结合的产物, 它既拥有模糊推理系统便于知识的表达和便于在系统中嵌入已有知识的优点, 也拥有神经网络的自学习自组织的特点, 因此在函数逼近中得到广泛应用.因此我们采用模糊神经网络来逼近 Q 值函数. 1.

1 网络结构用于对 Q 值函数进行直接逼近的模糊神经网络结构如图

1 所示.第一层为输入层,它将由状态 s 和动作 a 构成的向量 x = (s1 , …, sm, a)T 直接传送到下一层.状态空间 s 为m维, 记向量 x 维数为 n, 则n=m+1.第二层为模糊化层, 其中每个节点代表一个语言变量.该层的作用是计算各个分量在不同语言变量中的隶属度.各个语言变量的隶属度函数采用高斯函数.输入向量第 i 个分量的第 j 个语言变量的隶属度函数为 MFij (xi) = exp (xi - μij )2 σ

2 ( ) ij , i =1, …, n and j =1, …, J. (3) 其中:μij 和σij 分别为该隶属度函数的中心和宽度;

J 为该分量的语言变量的个数. w1 渍1 … … 准1 s1 s2 sm a … … … … … 准k 渍k wk Q ( s,a) Layer%5 Layer%4 Layer%3 Layer%2 Layer%1 图1网络结构 Fig.

1 The architecture of network

4 8 电机与控制学报第14 卷第三层为 T- norm 运算层, 该层计算每个规则的发射强度.第k条规则的发射强度为 k (x) = exp ∑ n i =

1 (xi - μki )2 σ

2 ( ) ki , i = 1, 2, …, p and k = 1, 2, …, K. (4) 第四层为归一化层, 对每一条规则的发射强度进行归一化处理.第k条规则的归一化后的发射强度为 φi = i ∑ K k =

1 φk . (5) 第五层为解模糊层即输出层, 采用重心法进行解模糊, 输出为输入状态动作对的 Q 值, 即Q(s, a) = ∑ K k =

1 wk k . (6) wk 是第 k 条规则的后件. 1.

2 结构与参数学习模糊规则可以根据样本的 ε 完整性 [ 12] 来建立, 但ε完整性不能充分体现每个分量对系统性能有不同影响.在文献[ 13] 中, RBF 网络隐层节点根据当前样本与隐层节点中心最小距离和误差进行自适应添加.在这些方法中没有考虑系统性能对输入向量中的不同........

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

PDF《移动机器人模糊 Q - 学习沿墙导航》