编辑: xwl西瓜xym | 2016-04-11 |
一、提名意见 提名意见: 我单位认真审阅了该项目提名书及附件材料,确认全部材料真实有效,相关内容符合国家科 技奖的提名要求.
该项目主要围绕国家重大战略技术需求,在国家
863 计划、国家自然科学基金和产学研合作 等项目资助下,发明了面向多源异构海量数据多样性集成管理需求的聚合优化计算引擎、基于对 象代理的多源异构海量数据动态柔性集成机制、基于人机交互的多源异构海量数据复合错误清洗 方法和在线-离线相结合的多源异构海量数据融合处理查询分析技术等, 解决了多源异构海量数据 集成中的结果可用和处理高效两大根本问题,实现了重大技术创新与突破;
自主研制了多源异构 海量数据集成平台的核心技术,主要技术指标达到或超过国际同类产品先进水平,有力推动了我 国信息产业的自主研发能力进步,带动了相关产业链的发展.在东软集团股份有限公司、上海宝 信软件股份有限公司、 国家海洋信息中心和广东昆仑信息科技有限公司等
10 余家企事业单位进行 了应用,取得突出的经济效益和社会效益,近三年累计新增销售额 8.35 亿元,新增利润 1.33 亿元.该项目共获得授权发明专利
61 项,登记软件著作权
71 项,发表学术论文
72 篇,学术成果得 到了高度评价,产生了积极的学术影响.对照国家技术发明奖授奖条件, 提名该项目为国家技术发明奖 二 等奖.
二、项目简介 多源异构海量数据集成通过对海量远程源端的异构数据进行采集、集成与清 洗,支持高效的查询与分析服务,是大数据采集领域的核心关键技术.源端不仅 模式易变、模态多样、错误共生,而且高度自治、质量参差不齐、访问模式各异, 为数据集成、错误清洗与查询分析等带来巨大挑战.开展多源异构海量数据集成 平台技术研发,实现源头创新,已成为掌握大数据采集核心技术、发展自主可控 的战略新兴信息产业的必然选择. 本项目在国家
863 计划、国家自然科学基金和产学研合作等项目的持续支持 下,面向多源异构海量数据的多样性集成需求,在聚合计算引擎、动态数据集成、 复合错误清洗、融合查询分析等四方面实现了重大技术创新与突破,自主研制了 多源异构海量数据集成管理与分析的核心技术,主要技术指标达到或超过国际同 类产品先进水平.主要技术发明点如下: (1) 发明了基于消息的任务交互模型和基于障栅的迭代处理机制,突破了 MapReduce 任务独立的理想并行计算模型的性能制约,实现了数据依赖多样性查 询和作业模式多样性查询的聚合优化处理;
发明了规模感知的弹性分布式文件系 统,实现了规模多样性文件的统一存储. (2) 发明了基于对象代理的多源异构海量数据集成机制, 提出了基于语义知识 的海量异构模式集成方法,突破数据源模式多变、结构灵活、源端伸缩带来的挑 战,实现了多源异构海量数据的动态集成. (3) 发明了基于人机交互和分布式的多模态数据清洗算法, 提出了共生错误最 优化清洗流程,突破模态多样、错误共生、数据高熵的桎梏,实现了多源异构海 量数据的快速有效清洗,准确率达 90%以上,破解了复合错误修正的难题. (4) 针对查询分析中的鲜效权衡问题(结果时鲜与查询效率间的矛盾) ,发明 了基于多目标优化的在线-离线协同调度策略和基于鲜效协同保障的多源结果渐进 融合方法,有效解决了源端差异导致的性能劣化问题;