编辑: 施信荣 | 2017-09-22 |
edu.cn 2013年9月第一版 厦门大学计算机科学系 2013年新版 林子雨 厦门大学计算机科学系 E-mail: [email protected] 主页:http://www.cs.xmu.edu.cn/linziyu 第1章 大数据概述 (2013年新版) 厦门大学计算机科学系研究生课程 《大数据技术基础》 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 提纲 ? 大数据概念 ? 大数据的产生和应用 ? 大数据作用 ? 大数据与大规模数据、海量数据的区别 ? 典型的大数据应用实例 ? 从数据库到大数据 ? 大数据与云计算 ? 大数据与物联网 ? 对大数据的错误认识 ? 大数据技术 ? 大数据存储和管理技术 ? 大数据生态系统 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 大数据 ? 大数据 是时下最火热的IT行业词汇 ? 早在1980年,著名未来学家阿尔文・ 托夫勒便在《第三次 浪潮》一书中,将大数据热情地赞颂为 第三次浪潮的华 彩乐章 . ? 大约从2009年开始, 大数据 才成为互联网信息技术行 业的流行词汇 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 大数据无处不在 ?科学研究 C基因组 CLHC 加速器 C地球与空间探测 ?企业应用 CEmail、文档、文件 C应用日志 C交易记录 ?Web 1.0数据 C文本 C图像 C视频 ?Web 2.0数据 C查询日志/点击流 CTwitter/ Blog / SNS CWiki 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 大数据的四个特征 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 Volume―数量大 根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两 年就增长一倍(大数据摩尔定律).这意味着人类在最近两年产生的数据量 相当于之前产生的全部数据量,预计到2020年,全球将总共拥有35ZB的数 据量,相较于2010年,数据量将增长近30倍. 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 数据的度量 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 进入大数据时代 ? 2011年,中国互联网行业持有数据总量达到 1.9EB(1EB字节相当于10亿GB) ? 2011年,全球被创建和复制的数据总量为1.8ZB (1.8万亿GB) ? 2013年,我们生成这样规模的信息量只需10分钟 ? 2015年,全球被创建和复制的数据总量将增长到 8.2EB以上 ? 2020年,全球电子设备存储的数据将暴增30倍, 达到35ZB 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 Velocity―速度快 ? 从数据的生成到消耗,时间窗口非常小,可用于生成决策 的时间非常少 ? 1秒定律:这一点也是和传统的数据挖掘技术有着本质的 不同. 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 Variety―多样化 ? 大数据是由结构化和非结 构化数据组成的 C 10%的结构化数据,存储 在数据库中 C 90%的非结构化数据,它 们与人类信息密切相关 ? 非结构化数据类型多样 C 邮件、视频、微博 C 位置信息、链接信息 C 手机呼叫、网页点击 C D长微博 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 Value―价值化 ? 价值密度低,商业价值高.以视频为例,连续不间断监控过程中,可 能有用的数据仅仅有一两秒,但是具有很高的商业价值 C 科学研究 C 企业应用 C 社会网络 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 《大数据时代》作者舍恩伯格提出的三个特征 ? 舍恩伯格的《大数据时代》受到了广泛的赞誉,他本人也 因此书被视为大数据领域中的领军人物. ? 在舍恩伯格看来,大数据一共具有三个特征: C (1)全样而非抽样;