编辑: 施信荣 | 2017-09-22 |
2、数据类型:过去的 池塘 中,数据的种类单一,往往仅仅有一 种或少数几种,这些数据又以结构化数据为主.而在 大海 中,数 据的种类繁多,数以千计,而这些数据又包含着结构化、半结构化以 及非结构化的数据,并且半结构化和非结构化数据所占份额越来越大 . ?
3、模式(Schema)和数据的关系:传统的数据库都是先有模式,然后 才会产生数据.这就好比是先选好合适的 池塘 ,然后才会向其中 投放适合在该 池塘 环境生长的 鱼 .而大数据时代很多情况下 难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着 数据量的增长处于不断的演变之中.这就好比先有少量的鱼类,随着 时间推移,鱼的种类和数量都在不断的增长.鱼的变化会使大海的成 分和环境处于不断的变化之中. 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 1.6 从数据库到大数据 ?
4、处理对象:在 池塘 中捕鱼, 鱼 仅仅是其捕捞对象.而在 大海 中, 鱼 除了是捕捞对象之外,还可以通过某些 鱼 的 存在来判断其他种类的 鱼 是否存在.也就是说传统数据库中数据 仅作为处理对象.而在大数据时代,要将数据作为一种资源来辅助解 决其他诸多领域的问题. ?
5、处理工具:捕捞 池塘 中的 鱼 ,一种渔网或少数几种基本 就可以应对,也就是所谓的One Size Fits All.但是在 大海 中, 不可能存在一种渔网能够捕获所有的鱼类,也就是说No Size Fits All . 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 科学研究四种范式 ? 图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以 来,在科学研究上,先后历经了实验、理论和计算三种范式.当数据 量不断增长和累积到今天,传统的三种范式在科学研究,特别是一些 新的研究领域已经无法很好的发挥作用,需要有一种全新的第四种范 式来指导新形势下的科学研究.基于这种考虑,Jim Gray 提出了一种 新的数据探索型研究方式,被他自己称之为科学研究的 第四种范式 (The Fourth Paradigm). 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 大数据与云计算 data Storage as a Service Infrastructure as a Service Platform as a Service Software as a Service SaaS PaaS IaaS dSaaS Google Apps, Microsoft Software+Services IBM IT factory, Google App Engine, Force.com Amazon EC2, IBM Blue Cloud, Sun Grid Nirvanix SDN, Amazon S3, Cleversafe dsNet Server Storage Server Storage Visualization Infrastructure Platform Application 从一个集中的系统部署软件,使之在一台 本地计算机上(或从云中远程地)运行的一个 模型.由于是计量服务,SaaS 允许出租 一个应用程序,并计时收费 IaaS 将基础设施(计算资源和存储)作为服务出租 PaaS 类似于 IaaS,但是它包括操作系统和围 绕特定应用的必需的服务 SaaS 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 1.7 大数据与云计算 ? 从整体上看,大数据与云计算是相辅相成的 ? 从技术上看,大数据根植于云计算 C 云计算关键技术中的海量数据存储技术、海量数据管理技术、 MapReduce编程模型,都是大数据技术的基础. 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 大数据技术与云计算有相同,也有差异 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 大数据技术与云计算相结合会带来什么 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 1.8 大数据与物联网 ? 物联网就是 物物相连的互联网 .物联网通过智能感知、识别技术 与普适计算、泛在网络的融合应用,被称为继计算机、互联网之后世 界信息产业发展的第三次浪潮 ? 物联网架构可分为三层,包括感知层、网络层和应用层 ? 物联网,移动互联网再加上传统互联网,每天都在产生海量数据,而 大数据又通过云计算的形式,将这些数据筛选处理分析,提取出有用 的信息,这就是大数据分析. 《大数据技术基础》 厦门大学计算机科学系 林子雨 [email protected] 2013年9月第一版 1.9 对大数据的错误认识 ? 根据IDC2011年市场研究报告,主要有三个典型的错误说法: C 关系型数据库不能扩展到非常大的数据量,因此不被认为是大数 据的技术;