编辑: kr9梯 | 2019-07-06 |
2020 计划的 数据驱动型创新 课题, 均聚焦于从海量和复杂的数据中获取知识的能力,深入 研究基于大数据价值链的创新机制,倡导大数据驱动的 科学发现模式.大数据的影响已触及自然科学、社会科 学、人文科学和工程科学的各个研究领域,不同领域的 大数据研究中心陆续成立[6] .我国部署了一系列大数据科 技项目,组建了不同研究方向的大数据实验室,中国科 学院推出了 科学大数据工程 计划. 科学大数据具有数据密集型范式的特点,它具有 数据的不可重复性、数据的高度不确定性、数据的高 维特性、数据分析的高度计算复杂性等特征[7] .利用大 量数据的相关性可取代因果关系和理论与模型,基于 数据间的相关性能够获得新知识、新发现[8] .比如,早在1609 年,第谷 ??布拉赫的助手约翰尼斯 ??开普勒从布 拉赫对天体运动的系数观察记录中发现了行星运动定 律,并发表了伟大的著作《新天文学》;
又如,欧洲大 型强子对撞机帮助物理学家检验关于不同粒子物理和高 能物理理论的猜想,并且确定了希格斯玻色子的存在;
再如,大数据使基因组学的科学发现成为可能;
还如, 时空大数据在全球环境研究变化中正发挥重大作用[9] . 越来越多的科学发现证明,大科学装置是人类认识 自然世界的重要手段.对地观测卫星、大型望远镜、大 型强子对撞机、高通量科学仪器、传感器网络等一系列 大装置的成功运行,使得科学大数据与大装置和大科学 间的关系越发密切.近年来,我国的大装置诸如
500 m 口 径球面射电望远镜、系列空间科学卫星等的问世,为通 过科学大数据认知大自然提供了强大的基础.为满足庞 大且日益快速增长的科学大数据的应用需求,迫切需要 建立一些能够共享数据、算法、模型的开放系统,以此 实现对已有数据的科学分析和集成应用.一个典型的例 子是,2017 年10 月,欧洲航天局 哨兵 -5P 卫星发射 后,每天获取近
2 000 万条空气污染物及气体的观测数 据,其数据获取量是前期任务的
10 倍以上.按照目前的 处理速度,一台计算机需要
1 200 年才能处理完
300 万景 全球卫星影像.而基于云计算设施,可在
45 天内完成相 同处理任务,足见重大基础设施的重要性[10] . 图12016―2025年的全球数据量增长情况 [3]
170 165
160 155
150 145
140 135
130 125
120 115
110 105
100 95
90 85
80 75
70 65
60 55
50 45
40 35
30 25
20 15
10 5
0 2006
2007
2008 2009
2010 2011
2012
2013
2014
2015
2016
2017 2018
2019 2020
2021
2022 2023
2024 2025 0.16 0.28 0.48 0.8 1.0 1.8 4.4
16 44
163 ZB (
1 000 EB ) 2016年全球数据总量为
16 ZB,预算到
2025 年数 据量将增长
10 倍,达到
163 ZB. (年)
770 2018 年.第33 卷.第8期真正实现科学大数据的大价值尚面临着一系列技术 挑战.在数据规模、数据增速、数据类型、数据质量、 数据价值等方面给科学大数据处理技术与方法提出了新 的科学技术问题和方向. 以上主要体现在
5 个方面:① 数据存储管理方面. 科学大数据本身固有的特征亟待面向海量、非结构化或 半结构化数据高效存储管理的数据库.② 数据分析方法 方面.数据产生和数据分析过程的分离使得数据噪声增 多,问题驱动的研究方式逐渐被数据驱动的研究方式所 代替.③ 模型和算法方面.随着半结构化、非结构化数 据比重的逐渐增多,针对该类数据的特征学习方法逐渐 超越并取代传统的数据模型和算法.④ 计算体系结构方 面.新型存储器件和计算器件不断涌现,使得通用处理 器和单一体系结构的单机逐渐过渡为专用处理器、多核 和分布式大规模异构集群.⑤ 计算和服务方面.以互联 网为媒介的云计算模式和分布式高性能数据中心逐渐成 为大数据处理的新型模式[2] . 中国科学院正在开展科学大数据研究的一些实践. 如正在进行的中国科学院战略性先导科技专项(A类) 地球大数据科学工程 ,地球大数据是一种典型的科 学大数据,是具有空间属性的地球科学大数据.该专项 力求突破超大规模跨域分布式资源技术瓶颈问题,有效 推动地球大数据技术创新、聚合多时空数据管理与关联 融合以及问题导向数据挖掘与分析,以达到只要有终端 和互联网,任何人在任何地点都可以享受到地球大数据 提供的多样服务,实现重大科学发........