编辑: kr9梯 | 2019-07-04 |
4 故事是这样的,在英语课本中伴随我们成长的小明,中学毕业后考上了大学名校, day day up 地苦修7年计算机、IT以及大数据知识后,终于成长为大数据咨询师.
记得那是明媚的春天,小明愉快地遨游在大数据一望无际的知识海洋里,春风 十里不如大数据.忽然电话铃响了,电话那头传来Boss低沉的声音: 小明,请到 我办公室来一趟. 十里的春风,忽然变幻成浓郁的雾霾.小明走三步停一步,终于走到Boss面前. 国务院2015年8月31日已经印发了《促进大数据发展行动纲要》,你为啥到现 在都没有向我报告?给你三天时间,给我说说,什么是大数据?大数据可以干啥? 未来的技术方向是啥? 小明熬了三天三夜,终于将业界关于大数据的科普知识整理出了一份报告,趁 着早上Boss还没有来上班,悄悄地将报告放在Boss办公桌上. 1.1? 什么是大数据 大数据,英文为Big Data.这个如今耳熟能详的名字,是《自然》(Nature)杂志 于2008年9月4日的专辑 Big Data 中首次提出的. Google在其推动世界范围内的信息整合过程中,极大地推动了大数据技术的创 新和发展. 然而,到底什么是大数据?它的概念和外延包括哪些?由于大数据是最近新衍 生出来的概念,它的内涵和外延也在不断地拓展和变化着,目前还没有一个业界广 泛采纳的明确定义. 2011年6月,麦肯锡全球研究院(MGI)在它的报告《大数据:创新、竞争和生产 力的下一个前沿领域》中这样描述:大数据是指无法用传统数据库软件工具对其内 容进行抓取、管理和处理的大体量数据集合( Big data refers to datasets whose size 第1章大数据概述
5 is beyond the ability of typical database software tools to capture,store,manage,and analyze). 几乎同时,IDC(International Data Corporation)在它编制的年度数字宇宙研究报 告《从混沌中提取价值》(Extracting Value from Chaos)中给大数据下了一个定义: 大数据技术是新一代的技术与架构,它被设计用于在成本可承受(economically)的 条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别 (variety)的数据中提取价值(value)(Big data technologies describe a new generation of technologies and architectures,designed to economically extract value from very large volumes of a wide variety of data,by enabling high-velocity capture,discovery,and/or analysis). IDC的定义描述了大数据时代的四大特征,即俗称的4V,而这4V(volumes、 velocity、variety、value)也被广泛地认可为大数据的最基本内涵. (1) 海量化(volumes) 数据体量巨大是大数据的首要特征,也是大家最容易发现的特征.全球数据正 以前所未有的速度增长着,每天都有数以百万兆字节的数据在互联网上产生.据估 计,全球可统计的数据存储量在2011年约为1.8ZB,2015年将超过8ZB.数据的爆炸 式增长引发了数据存储和处理的危机. (2) 多样化(variety) 数据类型的日趋繁多是大数据的另一个特征.传统的数据可以用二维表的形 式存储在数据库中,我们称之为结构化数据.但随着互联网多媒体应用的兴起,图片、声音和视频等非结构化数据成为了数据的主要组成部分,统计显示,目前全世 界非结构化数据已占数据总量的90%左右.如何有效地处理非结构化数据,并挖掘出 其中蕴含的商业价值和经济社会价值,是大数据技术要解决的问题. (3) 快速化(velocity) 快速处理是大数据必须满足的要求.经济全球化形势下,企业面临的竞争环境 越来越严酷.在此情况下,如何及时把握市场动态,深入洞察行业、市场、消费者 的需求,并快速、合理地制定经营策略,就成为企业生死存亡的关键.而对大数据 的快速处理分析,是实现这一目标的前提. (4) 价值化(value) 大数据蕴含的整体价值是巨大的,但是由于干扰信息多,导致其价值密度低, 第一部分 大数据架构师入门