编辑: ZCYTheFirst | 2017-09-23 |
―― 毛泽东,1951 年题词 大数据时代, 人类收集、 存储、 传输、 管理数据的能力日益提高, 各行各业已 经积累了大量的数据资源,如著名的 Nature 杂志于
2008 年9月出版了一期大数 据专刊 [1] , 列举了生物信息、 交通运输、 金融、 互联网等领域的大数据应用.如何 有效分析数据并得到有用信息甚至知识成为人们关注的焦点.人们寄希望于智能 数据分析来完成该项任务.机器学习是智能数据分析技术的核心理论.Science 杂 志于
2015 年7月组织了一个人工智能专题 [2] ,其中有关机器学习的内容依然占 据了重要的部分.本章将讨论机器学习的基本目的、基本框架、思想发展以及未 来走向. 1.1 机器学习的目的: 从数据到知识 人类最重要的一项能力是能够从过去的经验中学习, 并形成知识.千百年来, 人类不断从学习中积累知识, 为人类文明打下了坚实的基础. 学习 是人与生俱 来的基本能力,是人类智能(human intelligence)形成的必要条件.自2000 年以 来,随着互联网技术的普及,积累的数据已经超过了人类个体处理的极限,以往 人类自己亲自处理数据形成知识的模式已经到了必须改变的地步,人类必须借助 于计算机才能处理大数据,更直白地说,我们希望计算机可以像人一样从数据中 学到知识. 由此,如何利用计算机从大数据中学到知识成为人工智能研究的热点. 机 器学习 (machine learning) 是从数据中提取知识的关键技术. 其初衷是让计算机 具备与人类相似的学习能力.迄今为止,人们尚不知道如何使计算机具有与人类 相媲美的学习能力.然而, 每年都有大量新的针对特定任务的机器学习算法涌现, 帮助人们发现完成这些特定任务的新知识(有时也许仅仅是隐性新知识) . 对机器
2 机器学习:从公理到算法 学习的研究不仅已经为人们提供了许多前所未有的应用服务(如信息搜索、机器 翻译、语音识别、无人驾驶等) ,改善了人们的生活,而且也帮助人们开辟了许多 新的学科领域, 如计算金融学、 计算广告学、 计算生物学、 计算社会学、 计算历史 学等, 为人类理解这个世界提供了新的工具和视角. 可以想见, 作为从数据中提取 知识的工具, 机器学习在未来还会帮助人们进一步开拓新的应用和新的学科. 机器学习存在很多不同的定义,常用的有三个.第一个常用的机器学习定义 是 计算机系统能够利用经验提高自身的性能 , 更加形式化的论述可见文献 [3]. 机器学习名著 《统计学习理论的本质》 给出了机器学习的第二个常见定义, 学习 就是一个基于经验数据的函数估计问题 [4] .在 《统计学习基础》 这本书的序言里 给出了第三个常见的机器学习定义, 提取重要模式、趋势,并理解数据,即从数 据中学习 [11] .这三个常见定义各有侧重:第一个聚焦学习效果,第二个的亮点 是给出了可操作的学习定义,第三个突出了学习任务的分类.但其共同点是强调 了经验或者数据的重要性,即学习需要经验或者数据.注意到提高自身性能需要 知识, 函数、 模式、 趋势显然自身是知识, 因此, 这三个常见的定义也都强调了从 经验中提取知识,这意味着这三种定义都认可机器学习提供了从数据中提取知识 的方法.众所周知,大数据时代的特点是 信息泛滥成灾但知识依然匮乏 .可以 预料, 能自动从数据中学到知识的机器学习必将在大数据时代扮演重要的角色. 那么如何构建一个机器学习任务的基本框架呢? 1.2 机器学习的基本框架 考虑到我们希望用机器学习来代替人学习知识, 因此, 在研究机器学习以前, 先回顾一下人类如何学习知识是有益的.对于人来说,要完成一个具体的学习任 务,需要学习材料、学习方法以及学习效果评估方法.如学习英语,需要英语课 本、英语磁带或者录音等学习材料,明确学习方法是背诵和练习,告知学习效果 评估方法是英语评测考试.检测一个人英语学得好不好,就看其利用学习方法从 学习材料得到的英语知识是否能通过评测考试.机器学习要完成一个学习任务, 也需要解决这三方面的问题, 并通过预定的测试. 对应于人类使用的学习材料,机器学习完成一个学习任务需要的学习材料, 一般用描述对象的数据集合来表示,有时也用经验来表示.对应于人类完成学习 任务的学习方法,机器学习完成一个学习任务需要的学习方法,一般用学习算法 来表示.对应于人类完成一个学习任务的学习效果现场评估方法(如老师需要时 时观察课堂气氛和学生的注意力情况) ,机器学习完成一个学习任务也需要对学 习效果进行即时评估,一般用学习判据来表示.对于机器学习来说,用来描述数