编辑: 645135144 | 2019-07-11 |
14 No.
6 June
2010 移动机器人模糊 Q - 学习沿墙导航 徐明亮 1,
2 , 柴志雷
2 , 须文波
2 (1. 无锡城市职业技术学校 电子信息系,江苏 无锡 214063;
2. 江南大学 信息工程学院,江苏 无锡 214122) 摘要: 针对在基于行为的移动机器人沿墙导航控制器的设计中缺乏足够的先验知识的问题, 采用Q-学习方法让机器人通过学习来自动构建导航控制器.将模糊神经网络和 Q - 学习相结合, 用模糊神经网络直接逼近连续状态和动作空间中的 Q 值函数.利用对 Q 值函数的优化获得控制 输出.模糊神经网络中的节点根据状态动作对的各个分量和时间差分的新颖性进行自适应地添加 和构造, 这样不仅能克服节点选择的困难还能使网络保持适度的规模.网络中的参数采用扩展卡 尔曼滤波方法进行自适应调整.基于 Khepera
2 机器人的沿墙导航实验验证了该方法的有效性和 优越性. 关键词:Q - 学习;
模糊神经网络;
沿墙导航;
移动机器人 中图分类号:TP 391.
41 文献标志码: A 文章编号: 1007- 449X(2010)06- 0083-
06 Wall- following control of a mobile robot with fuzzy Q- learning XU Ming- liang1,
2 , CHAI Zhi- lei2 , XU Wen- bo2 (1. Department of Electronic Information Engineering,Wuxi City College of Vocational Techonology,Wuxi 214063,China;
2. Institute of Information Engineering,Jiangnan University,Wuxi 214122,China) Abstract:The Q- learning was introduced into navigation control of the wall- following task of mobile robots where there was no enough priori knowledge available. The Q- value function was approached directly u- sing Fuzzy Neural Network (FNN). The optimization method was used to search the greedy action with maximum Q- value. The nodes of FNN were created incrementally and adaptively according to every ele- ment of the current pair of state- action and Temporal Difference (TD),which overcame the difficulties of the choice of nodes and ensured an economic size of the network. Moreover the parameters of the FNN were updated using Extended Kalman Filter (EKF). The results of the wall- following task of Khepera
2 mobile robot demonstrate the superiority and validity of the proposed method. Key words:Q- learning;
fuzzy neural network;
wall- following navigation;
mobile robots 收稿日期:
2009 -
11 -
24 基金项目: 国家自然科学基金(60703106) 作者简介: 徐明亮(1973―), 男, 博士, 讲师, 研究方向为机器学习、 智能控制;
柴志雷(1975―), 男, 博士, 副教授, 研究方向为嵌入式系统、 智能控制;
须文波(1946―), 男, 教授, 博士生导师, 研究方向为嵌入式系统、 计算机控制技术.
0 引言导航是移动机器人的一项重要的功能, 是移动 机器人完成其他智能行为的基础.沿墙导航控制是 指机器人在和墙保持一定距离的情况下沿墙运动, 从更一般意义上来说实际上是机器人与物体保持一 定距离并沿物体轮廓运动 [ 1] .因此沿墙导航实际 上既可以使机器人实现障碍物的避碰 [ 2] , 也可以实 现在未知环境的导航 [ 3] . 移动机器人的反应式导航是一种直接在机器人 的感知和行为之间建立映射关系的导航方法.它具 有灵活和执行快速的特点而成为移动机器人在未知 和快速变化环境中导航的重要方法.已有许多学者 提出了不同的反应式导航方法, 比如文献[ 4] 采用 引力势场法进行导航.文献[ 5] 采用基于模糊规则 的反应式导航控制器.这些方法通常基于具体的环 境模型, 需要较多的先验知识, 同时对变化的环境不 具有自适应能力. 强化学习能够在没有先验知识的情况下通过与 环境的交互获得由状态到动作的策略, 因此基于强 化学习的机器人导航受到众多研究者的广泛关注. 文献[ 6] 中采用 Q- 学习来对模糊规则进行调整, 但 模糊规则则是根据机器人的系统特性手工建立.文献[ 7] 也采用类似技术, 其特点是用 RBF 网络逼近 选定的若干个离散动作的 Q- 值, 网络权值利用 Q- 学 习来调整.而RBF 网络隐层节点的中心和宽度却 要由样本来确定.文献[ 8] 采用 CMAC 神经网络实 现了 Q- 值函数的逼近, 该方法涉及到输入参数的离 散化, 离散化的粒度也将影响系统的性能.文献 [ 9] 利用 FNN 来逼近 Q - 值函数和策略函数, 而这 些函数都是建立在若干个选定的离散动作的基础之 上, 使得系统过于复杂.文献[ 10] 是用模糊推理系 统来逼近 Q- 值函数, 每一条规则对应一个由若干个 选定的离散动作所构成的向量, 每一个规则的输出 动作由规则内部的离散动作通过竞争的方法产生, 控制器的输出动作由各个规则的输出动作根据当前 状态在各个规则所导出的状态值进行加权.在这些 方法中, 导航控制器输出取决于预先选定的离散动 作.这些离散动作的选择影响导航控制器的性能, 而如何选择这些种子动作也没有任何先验知识可 用.另外这些方法中的 Q- 学习从本质上来说是基 于actor- critic 方法的 [ 11] . 为避免种子动作的选择, 我们用模糊神经网络 直接对强化学习中的 Q- 值函数进行逼近, 即网络的 输入为状态动作对, 而非相关文献中的状态, 利用函 数优化技术产生控制器输出动作.同时在学习过程 中引入网络节点自适应构建和参数自适应调整方 法, 减少人工干预.