编辑: ok2015 | 2019-07-15 |
3)来自于物:各类数字设备所采集的数据. 如摄像头所不断产生的数字信号;
医疗物联网中 不断产生的人的各项特征值;
天文望远镜所产生 的大量数据等. 2.2 大数据分析目标 目前大数据分析应用于科学、医药、商业等各 个领域,差异巨大.但归纳起来,大数据分析目标 可归为以下几个: (1)通过大量分析获得知识 人们进行数据分析由来已久,最初与最重要的 目的就是获得知识、利用知识.由于大数据包含大 量未经处理的、真实样本信息,它能够有效地摒弃
2 维基百科 http://en.wikipedia.org/wiki/Big_data 论文在线发布号 No.10 冯登国等:大数据安全与隐私保护
3 个体差异,帮助人们透过现象、更准确的把握事物 背后的共性规律.基于发掘出来的知识,人们可以 更准确地对将要发生的自然或社会现象进行预测. 典型的例子包括,通过Google检索信息挖掘可以得 到流感的传播情况
3 ;
根据Twitter信息可以预测股 票行情
4 (2)通过长期分析掌握个体规律 等. 个体活动在满足某些共性特征的同时,也具有 鲜明的个性化特征.正如 长尾理论 中那条细长 的尾巴那样,这些特征可能千差万别.企业通过长 时间、多维度的数据积累,可以对用户行为分析得 出规律,更准确的描绘其个体轮廓,为用户提供更 好的个性化产品和服务,以及更准确的广告推荐. 例如Google通过其大数据产品对用户的习惯和爱 好进行分析,帮助广告商评估广告活动效率,预估 在未来可能存在高达到数千亿美元的市场规模
5 (3)通过分析辨识真相 . 错误信息不如没有信息.由于网络中信息的传 播更加便利,所以网络虚假信息造成的危害也更 大.例如,2013 年4月24 日,美联社Twitter帐号 被盗,发布虚假消息称总统奥巴马遭受恐怖袭击受 伤.虽然虚假消息在几分钟内被禁止,但是仍然引 发了美国股市短暂跳水.目前,大数据分析被用于 信息去伪存真.例如,社交点评类网站Yelp利用大 数据对虚假评论进行过滤,为用户提供更为真实的 评论信息
6 ;
Yahoo7 和Thinkmail8 2.3 大数据技术框架 等利用大数据分析 技术来过滤垃圾邮件. 大数据处理涉及数据的采集、管理、分析与展 示等.图1是相关技术示意图,包括四个阶段.
3 http://www.google.org/flutrends/
4 http://tech2ipo.com/6322/
5 http://server.yesky.com/datacenter/172/34705172.shtml
6 http://adage.com/article/digital/fake-reviews-rise-yelp-crack- fraudsters /237486/
7 http://readwrite.com/2010/05/24/map-reduce-yahoo-mail#awesm= ~obIr1Wwi9X9dMN
8 http://cloud.yesky.com/20/34984520.shtml 结构化数据 半结构化数据 非结构化数据 数据源 数据采集与预 处理 数据分析 数据解释 数据存储 数据集成 数据清洗 MapReduce及其 他并发处理架构 查询与索引 语义分析和数据 挖掘 可视化 人机交互 数据传输、虚拟集群等其他支撑技术 理论上的处理阶段 关键技术 图1大数据技术架构
1 ) 数据采集与预处理(Data Acquisition &
Preparation) 大数据的数据源多样化,包括数据库、文本、 图片、视频、网页等各类结构化、非结构化及半结 构化数据.因此,大数据处理的第一步是从数据源 采集数据并进行预处理操作,为后继流程提供统一 的高质量的数据集. 由于大数据的来源不一,可能存在不同模式的 描述,甚至存在矛盾.因此,在数据集成过程中对 数据进行清洗,以消除相似、重复或不一致数据是 非常必要的.文献[4-7]中数据清洗和集成技术针对 大数据的特点,提出非结构化或半结构化数据的清 洗以及超大规模数据的集成. 数据存储与大数据应用密切相关.某些实时性 要求较高的应用,如状态监控,更适合采用流处理 模式,直接在清洗和集成后的数据源上进行分析. 而大多数其他应用则需要存储,以支持后继更深度 的数据分析流程.为了提高数据吞吐量,降低存储 成本,通常采用分布式架构来存储大数据.这方面 有代表性的研究包括:文件系统 GFS[8]、HDFS[9] 和Haystack[10]等;