编辑: 芳甲窍交 | 2016-05-16 |
11 期 总第
11 期 主办单位:北京大学汇丰金融研究院 院长:海闻 执行院长:巴曙松 秘书长:本力 编辑 :都闻心(执行) 叶静 曹明明 鞠 方趾 朱伟豪 北京大学汇丰金融研究院简介 北京大学汇丰金融研究院(The HSBC Financial Research Institute at Peking University,缩写 HFRI)成立于
2008 年12 月,研究院接受汇 丰银行慈善基金会资助,致力于加强国内外著名高校、金融研究机构、以及 知名金融学者之间的交流,构建开放的学术、政策交流平台,旨在提高中国 金融理论与政策的研究水平,促进学术繁荣与发展,加强与政府决策部门的 联系与合作,为政府决策提供参考意见,为国际金融体制改革和中国金融业 的发展做出贡献.
北京大学汇丰金融研究院院长为北京大学校务委员会副主任、北京大学汇丰 商学院院长海闻教授,执行院长为中国银行业协会首席经济学家,香港交易 所集团董事总经理、首席中国经济学家巴曙松教授. -2- 数据背后的人、业务、技术和科学 主持:巴曙松(北京大学汇丰金融研究院执行院长,中国银行 业协会首席经济学家,香港交易所集团董事总经理、首 席中国经济学家) 嘉宾:胡本立(国际数据管理协会中国区创始人、主席) 数据本身很简单,它是我们每天生活中听到的、感知到的,无处 不在的东西,与我们的工作很近,甚至是我们每个人生命过程的一部 分.实际上从人一出生,就开始本能的学习对周围环境数据的处理. 数据难在它的过程,尤其是人介入的部分,包括它带来的一系列的机 会和问题.人和数据这个题目要讨论清楚还有很长的路要走,甚至要 等到人工智能讨论清楚以后,但是近年来大数据、机器学习、各种虚 拟概念和应用包括区块链、各种币的到来,使反思和理解人与数据成 为回避不了的现实问题. 把混乱的概念梳理清楚, 考虑加入人的因素, 虽然不能完全解决问题,但对于认知科学领域里面的人,以及处理模 型、数据会有很大帮助.
一、 反思数据究竟是什么――一个比什么是 大数据 更根本的 问题 图1展示了数据与机器之间循环的生命周期图. 图中主要的观点 -3- 是,数据是自然界产生,没有人干预的或者干预很少.另外大量的数 据是人产生的,这当中对数据的理解、解释,通过语言的表达是很复 杂的过程.对人的输入来讲,数据是物理信号(是生理刺激) ,人通 过语音、图像、文字、表情输出数据,对他自己或别人,也是信号. 图1对于大家理解和讨论数据的归属权、 隐私等目标和需要都有帮助, 但是要把人的整个过程尤其是认知过程和表达过程讲清楚, 数据归属 权和认知就不是一个简单的技术问题. 图1图2描述了对人来讲与数据有关的三个 世界 : 实体客观世界, 概念世界和概念的表示世界. 在哪个 世界 里讨论的问题不应与另 一世界的混淆(比喻例外) ,但它们间(通过人)有复杂的映射和联 系.人与数据的互动建立了这三个不同 世界 间的桥梁,包括 虚 与 实 ;
主观 与 客观 等重要基本概念.有不少分类把 表-4- 示世界 认为是虚拟的,实际上它也是物理的,虚拟的还是在人的脑 中. 表示世界 与 客观世界 的不同是前者是由人产生的,而后 者不是.举例来说,人通过学习知道狗的发音、狗的概念,我们通常 认为 狗 就是数据,实际上人工智能开始的时候不论中文英文,都 不单单是个符号,而是图像化的东西,抽象后成为 狗 的概念.而 男孩和女孩、老人脑中对狗的概念又和他(她)以前的经历以及不断 收集的信息有关,两种概念不完全一致.通过这个例子可以理解为什 么我们的沟通这么困难,数据会不一样,都跟过程有关,不可能完全 一样. 图2图3描述了对同一对象,不同人会有不同理解和解读(不对称) 这一现实.成年以后,通过学习、经历等因素,再来看两个同样世界 中的事物,如一堆标签和一篇文章,从物理上来看,这些都是视觉上 的信号,看过之后结合自身的知识经验,再回到概念层,两个人的表 -5- 达可能一样也可能不一致. 数据管理中一个很大的问题就是怎么达成 共识,尤其是一个团队要达成共识的话是怎样一个过程,这个过程是 效率很低或是很难根本做不成,理解了这个过程,不管是在数据层次 还是概念层次,对我们达成共识都会有帮助. 图3在传统数据处理的深层次困难如打通数据孤岛、 数据共享问题方 面,不是一个简单过程.比如数据集(data set)共享,这也是目前 大部分共享的层次,但有些时候要比简单共享数据集复杂的多.以杨 振宁对电磁学和纤维丛概念术语之间的关联为例, 与我们所说的数据 共享的距离就很远了.对于一些直接测量的物理数据,人与人之间的 沟通相对比较容易,但是要到更抽象的层次,就跟每个人的经验视角 有关,这就需要一套新的人跟数据打交道处理的方法论工具,能够帮 助大家发现他们的共同之处和分歧. -6-