编辑: 645135144 | 2019-07-11 |
1 基于模糊神经网络的 Q- 学习 Q- 学习的主要目标是通过与环境的交互获得 表征策略的状态动作对的 Q- 值函数.Q- 学习中状 态动作对的 Q 值按照下式进行更新: Q(st , at )←Q(st , at ) + α δTD . (1) 其中:st 为当前状态;
at 为当前状态下选择执行的动 作;
α 为学习率;
δTD 为时间差分(temporal difference, TD).一步时间差分 δTD 计算式为 δTD = rt +
1 + γ max a Q(st +
1 , a) - Q(st , at ). (2) 其中:γ 为折扣因子, rt +
1 为学习 agent 在状态 st 执行 动作 at 后转移到状态 st +
1 时所获得的立即奖赏.经 典的 Q- 学习是以查找表来描述离散空间状态动作 对的值函数.对于连续空间下的 Q 学习, 直接的方 法是将连续空间进行离散化处理.而对于离散的粒 度选择, 往往没有任何先验知识可用.离散粒度过 大将会导致系统性能下降, 甚至学习不成功;
过小也 会使学习速度下降.为克服离散化所产生的弊端, 研究者普遍采用具有泛化功能的神经网络或模糊推 理系统来逼近 Q 值函数. 模糊神经网络是模糊推理系统和神经网络相结 合的产物, 它既拥有模糊推理系统便于知识的表达和 便于在系统中嵌入已有知识的优点, 也拥有神经网络 的自学习自组织的特点, 因此在函数逼近中得到广泛 应用.因此我们采用模糊神经网络来逼近 Q 值函数. 1.
1 网络结构 用于对 Q 值函数进行直接逼近的模糊神经网 络结构如图
1 所示.第一层为输入层,它将由状态 s 和动作 a 构成的向量 x = (s1 , …, sm, a)T 直接传送 到下一层.状态空间 s 为m维, 记向量 x 维数为 n, 则n=m+1.第二层为模糊化层, 其中每个节点代 表一个语言变量.该层的作用是计算各个分量在不 同语言变量中的隶属度.各个语言变量的隶属度函 数采用高斯函数.输入向量第 i 个分量的第 j 个语 言变量的隶属度函数为 MFij (xi) = exp (xi - μij )2 σ
2 ( ) ij , i =1, …, n and j =1, …, J. (3) 其中:μij 和σij 分别为该隶属度函数的中心和宽度;
J 为该分量的语言变量的个数. w1 渍1 … … 准1 s1 s2 sm a … … … … … 准k 渍k wk Q ( s,a) Layer%5 Layer%4 Layer%3 Layer%2 Layer%1 图1网络结构 Fig.
1 The architecture of network
4 8 电机与控制学报第14 卷 第三层为 T- norm 运算层, 该层计算每个规则的 发射强度.第k条规则的发射强度为 k (x) = exp ∑ n i =
1 (xi - μki )2 σ
2 ( ) ki , i = 1, 2, …, p and k = 1, 2, …, K. (4) 第四层为归一化层, 对每一条规则的发射强度 进行归一化处理.第k条规则的归一化后的发射强 度为 φi = i ∑ K k =
1 φk . (5) 第五层为解模糊层即输出层, 采用重心法进行 解模糊, 输出为输入状态动作对的 Q 值, 即Q(s, a) = ∑ K k =
1 wk k . (6) wk 是第 k 条规则的后件. 1.
2 结构与参数学习 模糊规则可以根据样本的 ε 完整性 [ 12] 来建立, 但ε完整性不能充分体现每个分量对系统性能有不 同影响.在文献[ 13] 中, RBF 网络隐层节点根据当 前样本与隐层节点中心最小距离和误差进行自适应 添加.在这些方法中没有考虑系统性能对输入向量 中的不同........