编辑: 丶蓶一 2019-12-06
第17卷第

1 期2000年 2月 控静理论 与应用 C ONT ROL T HE CRY A ND AP P L I CAT I ONS V 0l

1 7.

No.

1 F e b .

2 0 O O 文章编号:1

0 0 0―8

1 5

2 (

2 0

0 0 )

0 1一O0O4―

0 5 非线性系统学 习控 制理 论的发展与展 望逆蓝查逆壁刘永清1

7 1 { 华南理工丈学自动控制工程系- 广州.

5 1

0 6

4 0 ) 、 l

1 1 摘要:论述 了学 习控 制的基 本理 论问题 . 给 出了学习与学习控制 系统的 基本定义 , 着 重讨论了学习控制方法产 生 的历 史背景 、 目前非 线性系统学习控制的研究状 况.提出了一些 有待继 续研 究的问题 苎苎;

芒;

发展与展望镀: 文献标识码:AIDe v e l o p m e n t a n d Ex pe c t a t i o n f o r L e a r n i ng Co n t r o l Th e o r y o f No . m e a t S y s t e m s X匝Zhendong. XI E S h e n g l i a n d L I U Yo n g q i n g ( Ⅱ T r Ⅱ o f A u ~ m t i c 【 E n g i n e e r i n g ,S o u t h0 maU n i v e r s i t y o f T e c l a n o k ~ y '

0如gd啪.510640.P R C h i n a ~ Ab s h :I n t h i s p a p e r ,t h e p f e m f o r t h e b a s i c f h 目Ⅺyoflearmngcontrolisdiscussed.Af r g i ~n g t h e~I S i C d e f i n i t i o n o fl e a mmg a n dl e a r n i n g c o n W o

1 .w ema i n l y d ~ s c u s st h e b a c k g r o u n d o fl e a ~ n g c o n l ml a n dt h e r e s e ~ h s t a t u sf o rl e a mi n g c o n wo l o f n t m l i n e a r s y s t e ms .a n d p u tf o r wa r d S O l l ~ p r ~ ms n e e d t o b e r e s e ~ h e d Ke y w盯凼:n o l ~ a r s y s t e ms ;

l e a r ni ng c o n t r o l ;

d m, e l o p mc mt a n d p o c 皿0Ill非线性系统学习控制的研究背景( R e s e b b a c k . g r o u n d f o r

1 e a r n i n g c o n t r o l t h e o r y o f n o n l i n e a r s y s - t e r n s )

1 .

1 引言( h m . d ∞) 对于高速运动机 械手的控制,Uchiyama提出一个思 想ll:不断重复一 十轨线的 控制尝 试,井以此修 正控 制律 , 能 达到较好 的控制 效果 日乖 学者 A 等 人根 据 这种 岳.想于

1 9

8 4年针对 机器人 系统 的控 箭研究 , 提出了选 代学 控制这一新颖方法 . 这种控制方法 只是利 用控 制系统先前 的 控制经验 , 根 据测量系统的实际输 出信 号和期 望信号来寻求 一 个理想的输八 . 使 被控 对象产 生期 望的运 动而寻找 的 过程 就是学习的过程 . 在学 习的 过程 中.H需 要测 量 系统 输出信号和期望信 号, 不象适应 控制 那样 , 对 系统 要进 行复杂的参数估 计l

1 j , 也 不象 一 般控 制方 法那 样.不能简 化被 控对象的动 力学描述 . 特别是在一类具有较 强的非线性耦 台 和较高的位置重复精 度的 动力学 系统 ( 如工 业机 器人 、 数控 机床等 ) 中.学习控制有着很 好的应 用,如TSugie:.M. K a t i c , H P a 的工作 . 迭 代学 习控 制方 法提 出后 . 受到 拄 制界的广 泛关注 , 人 们不仅 针对各种机器人 系统 的跟踪 控钮 提出 了相应的有效算法 - , 而且 这 个方法 也被 应用 到非线 性系统的鲁棒控制上【

1 0 - , 最近 , 在离散 系统 [ I .

1 3 '

. 、 分布参数系统及广义系 统上 电有 相应 的 应用l . 迭 代学 习 拄箭 已成了 智 能控 制 的 一个重要组 成部分 , 并 逐步 发展 为控制理论 中的一 个新的发展方 向. I .

2 学 习与 学 习控 制 系统的 定义( D e f mi f i o n o f l e a r m n g a n d l e , ~n i n g c o n a '

o

1 ) 目前对学 习控制 尚无 公认的统一的定义 . 遗 主要是 因为 人们对什么是 学习 尚有许 多争 议.最一般 的学 习定义 是由Wi e n e r 于1965年给 出的 . 它所描述 的学习 涵义 甚至包 括 了物 种 随时 间的 变异,他的 定义为:具有 生存 能力的动物 , 是 那些 在它的 一生 中能披 它所 经 历的环境所改造的 动物 . 一个 能繁殖 的动 物,至少能 够产 生 和它 自己太略相似 的动物 , 虽然这种动物 不会相似到 随着 时 间的推移而不再发生变化 的程度 如果这 种变化是可 自我遗 传的 , 则就有 了一种能受 自然选 择影 响的原料 , 如 果这 种变 化以某 种行 为形式 显现 出来 , 则 只要 谖行 为不是 有害 的,则这种变化就会一代一 代的继 续下去 这种从 代到一代 的变 化形式 就叫种族学习或系统 发育 学习 . 而 特定 个体中发生 的 行为变化或行为学 习, 则称为个体发 育学 习Gl o r i o s o于1975年给 出的学 习定义 为 :一个能进 行学习的 系统 , 若在f=

0 时, 环境状态有一个 给定的变化 , 则系 统在 时刻 T时的性能 指标一 定高于 t:0时刻 的性 能指标 , 而 且此指标 应达 到某 个预定 的水平 . T s y p k i n 于1971年给 出了 自学习 的定 义: 自学 习就是 不具 有外 来 校正 的学习. 或 即不 具惩 罚和奖励 的学 习.这里没有 给 出关于 系统 的反 应 正确 与否 的任 何附 加信息Ss~idis于1977年给 出 学习系统的定 义: 一个系统 , 如果 * 基金项 目: 国家 自然科学基金( ~8

7 4

0 1

3 ) , 广东省 自然科学基金(

9 8 O

5 0

6 ) 和广州 市基 础科学基金 (

9 9 J ~6

9 1 ) 资助项目 收稿 日期 :

1 嘲一】 O一2o{收修改稿 日期 :

1 9

9 9―7―

2 】 维普资讯 http://www.cqvip.com I

1 期 非线性 系统学 习控 制理论的 发展 与展望 S 能对一个过程或其环境 的未知特征所 固有 的信 息进行学 习, 并将得 到的经验用于进 一步估计 、 分类 、 决 策或控 制,从而使 系统 的品 质得 到改善 , 那 幺我们 就称此 系统 为学 习系统 F u 于1970年给 出了学 习控制 的定 义: 设计 一个 控制 器, 它能 在 系统运行 中估计未 知性 信 息并 基于这 个估 计 的信息 确定 最 优控 制,过样它就可以逐 步地改进系统的性能.Smids于1977年给 出了学 习控 制 系统 的定 义:一个学 习 系统 . 若其 学 得的信息被 用来控 制一个具有未 知特 征的 过程 , 我 们就称 它 为学 习控制 系统 自6 0年代开始 , 从 学习到学 习控 制的研 究经 历了lo多 年的发展 , 已逐渐形 成 了某些 认识 较 为统一 的本 质的 特点 . 据此 , 邓志东等 给 出学 习控 制 系统 和 自学 习控 制 系统 的 定义 : 一个开放性 系统 , 如果 能够 通过 对环境 与 系统 自身 的 学习获得经验 , 并在 运 用此 经验 于 系统的 控制 之后 , 能够 基 于人机交互 的性能评 价器( 有 人监督 ) , 使 系统 的某 个预先要 求的性能指标得到改 善,则称此 系统 为学 习控 制系统 ( [ e a r n ― i n g C o n t r o l S y s t e m) ;

否则, 如果 性能评 价器 在无 人参 与( 无人监督或再励) 的情 况下 完全 自动 实现 , 则 称此 系统 为 自学 习 控制系统( S e l f - L e a r n i n g C o n l r o l S y s t e m) 在文献[

2 1 ]中, 对学习控 制 用数学语 言蔺单 描述 为: 在 有限 的时 间域 [

0 , T ]内,给出被 控对 象期 望的响应 ( t ) , t ∈ L

0 , T ] , 寻求某种给定的(),∈:0,T:,使其响应(t),t∈,0,T一,在某 种意 义上 比y o ( ) 有所改善 , 其中 ^为 寻求 次数, 这 一寻求 过程称为学 习控制过程 . 如果 ^ 一时.()一(),则称 为学 习控制 过程收敛.

2 研究现状及存在 的问题( S t a t u s a n d p r o b l e ms ) 迭代学 习控 制系统虽有 了较大的 发展 . 但 也还相 麻 盹存 在一些问题 , 在此 , 我 们将 较全 面地 总结 国内外有 关研 究贤料,同时也提 出这些研究 中所存在 的不足

2 ,

1 研究现状 ( S t a ~ ) ・ 国外的发 展 对于 非线性 系统 , C , r e g等^ (

1 9

9 2 ) L … K u c等^(1992)、C,ary(

1 9

9 5) . A l a n等人(1993)、Pasquale(1994)J、Sugie等人( t

9 9

1 )

0 进行 了各 种讨论 , _ 鄂对 其给 定算法的收敛性进行了论述,而Bien(1989)Amann(1996)j、Hw a n g (

1 9

9 1 ) l 等分 删对 离散系统进 行 了研 翁:,并给出了一些 高阶 的学 习算 法;

针 对不 确定 系统 D a n w e i 等人 (

1 9

9 5 ) l i o ] C h i e n (

1 9

9 6 ) 、 S t m (

1 9

9 7 ) l

2 8

0 及Lee(1995)[--9]也给 出了相 应 的讨 论;

关于在 机器人系统 的跟踪控制上 , D u s k (

1 9

9 5 ) .

6 J 、 D a n i e l (

1 9

9 5

1 3 o ] 及Sadao等 人(

1 9

8 8 ) 一分别获得 了一些相应 的结果 ;

此外 , P a r k ( t

9 9

6 ) ~ J 对不确 定机器人 螽统 进行了学习控制与适应控制的结合研究,而Jang等 人(1995)和Ama n n (

1 9

9 6 )

3 2分别对 反馈控制进行 了对论 . - 国 内动态 林辉 王林 针对 一类非线性 系统采 用闭 环 P型学习率讨论 了其收 敛性 ;

曾南 、 应行 仁【 圳对于一 卜未 知 的非线 性连续 系统或离散系统 . 改进 了开环迭代 学习 的收 敛条件 . 并 提出闭 环迭代 学 习算 法, 其 结果说 明 了闭环 弹法在收敛条件 、 速度 和抗 干扰能 力上都 优 于开环 算法 . 他 们认 为, 在实 际操作 中总 会遇上 干扰 , 有输 入振 动, 输 出扰动 等,如果 要求 每次重复都 精确 回到相 同的位 置是不 可能的 , 它的偏差 也可 以示为一 种扰 动, 开环控 制 抑制 干扰 能力 较差 , 而 闭环 迭代学 习控 制在操作过程 中既用到 过去的经 验,叉根据 现行观察进 行调整 ;

孙 明轩 , 万伯 任 针对 受扰非 线性 系统 讨论 了阶H型开闭 环迭 代学 习控 制,结果表 明了高阶 算 法在输 出跟 踪和干扰 抑制 方面 的有效 性;

皮道映 , 孙优贤针对离散非线性 系统 提出 了开闭环 P型选代学 习控 制律 , 他 们认 为, 开环 迭代学 习控 制律 的性 能要 比闭环 的差,主要 原 因在于开环迭代........

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题