编辑: ZCYTheFirst 2017-09-23

3 第1章引言 据对象的数据集合对最终学习任务的完成状况有重要影响,用来指导学习算法设 计的学习判据有时也用来评估学习算法的效果,但一般机器学习算法性能的标准 评估会不同于学习判据,正如人学习的学习效果即时评估方式与最终的评估方式 一般也不同. 对于机器学习来说, 通常也会有特定的测试指标, 如正确率, 学习速 度等. 可以用一个具体的机器学习任务来说明.给定一个手写体数字字符数据集 合,希望机器能够通过这些给定的手写体数字字符,学到正确识别手写数字字符 的知识. 显然, 学习材料是手写体数字字符数据集, 学习算法是字符识别算法, 学 习判据可以是识别正确率, 也可以是其他有助于提高识别正确率的指标. 数据集合、学习判据、学习算法对于任何学习任务都是需要讨论的对象.数 据集合的不同表示,影响学习判据与学习算法的设计.学习判据与学习算法的设 计密切相关, 下面分别讨论. 1.2.1 数据集合与对象特性表示 对于一个学习任务来说,我们希望学到特定对象集合的特定知识.无论何种 学习任务,学到的知识通常是与这个世界上的对象相关.通过学到的知识,可以 对这个世界上的对象有更好的描述,甚至可以预测其具有某种性质、关系或者行 为. 为此, 学习算法需要这些对象的特性信息, 这些信息可以客观观测, 即关于特 定对象的特性信息集合,该集合一般称为对象特性表示,是学习任务作为学习材 料的数据集合的组成部分.理论上,用来描述对象的数据集合的表示包括对象特 性输入表示、 对象特性输出表示. 显然,对象特性输入表示是我们能够得到的对象的观测描述,对象特性输出 表示是我们学习得到的对象的特性描述.需要指出的是,对象的特性输入表示或 者说对象的输入特征一定要与学习任务相关.根据丑小鸭定理(Ugly Duckling Theorem)[5] ,不存在独立于问题而普遍适用的特征表示,特征的有效与否是问 题依赖的.丑小鸭定理是由 Satosi Watanabe 于1969 年提出的,其内容可表述 为 如果选定的特征不合理,那么世界上所有事物之间的相似程度都一样,丑小 鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大 .该定理表明在没有给 定任何假设的情况下,不存在普适的特征表示;

相似性的度量是特征依赖的,是 主观的、 有偏置的, 不存在客观的相似性度量标准. 因此, 对于任何机器学习任务 来说,得到与学习任务匹配的特征表示是学习任务成功的首要条件.对于机器学 习来说, 一般假设对象特征已经给定, 特别是对象特性输入表示. 对于对象特性输入表示,通常有三种表示方式.一种是向量表示,对于每个 对象, 可以相对独立地观察其特有的一些特征.这些特征组成该对象的一个描述,

4 机器学习:从公理到算法 并代表该对象.第二种表示是网络表示,对于每个对象,由其与其他对象的关系 来描述, 简单说来, 观察得到的是对象之间的彼此关系.第三种是混合表示, 对于 每个对象, 其向量表示和网络表示同时存在. 不论对于人还是机器,能够提供学习或者训练的对象总是有限的.不妨假设 有N个对象, 对象集合为 O = {o1, o2,oN }, 其中 ok 表示第 k 个对象. 其对应 的对象特性输入表示用 X = {x1, x2,xN } 来表示,其中 xk 表示对象 ok 的特 性输入表示. 当每个对象有向量表示时, xk 可以表示为 xk = [x1k, x2k,xpk]T . 因此, 对象特性输入表示 X 可以用矩阵 [xτk]p*N 来表示, 其中 p 表示对象输入特 征的维数,xτk 表示 ok 的第 τ 个输入特征值,这些特征值可以是名词性属性值, 也可以是连续性属性值. 如果对象特性输入表示 X 存在网络表示,即X可以用矩阵 [Nkl]N*N 来表 示, 其中 Nkl 表示对象 ok 与对象 ol 的网络关系.如果是相似性关系, 则对象特性 输入表示 X 为相似性矩阵 S(X) = [skl]N*N ,其中 skl 表示对象 ok 与对象 ol 的 相似性.通常,skl 越大表明对象 ok 与对象 ol 的相似性越大.因此,对象 ok 可以 由行向量 [sk1, sk2,skN ] 表示.如果是相异性关系, 则对象特性输入表示 X 为 相异性矩阵 D(X) = [Dkl]N*N ,其中 Dkl 表示对象 ok 与对象 o1 的相异性.类似 的,Dkl 越大表明对象 ok 与对象 ol 的相异性越大.因此,对象 ok 可以由行向量 [Dk1, Dk2,DkN ] 表示.如果是相邻关系,对象特性输入表示 X 为邻接性矩阵 A(X) = [akl]N*N ,其中 akl 表示对象 ok 与对象 ol 是否相邻,通常其取值为

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题