编辑: GXB156399820 | 2019-12-21 |
2 3 什么是大数据? ? IBM的4V定义: o Volume 海量 o Velocity 快速 o Variety 多样 o Value 价值 ? 我的看法: 祝建华:一个文科教授眼中的 大数据.
《大数据中国》, 2013, V1, 10-12. http://www.china- cloud.com/dashujuzhongguo/diyiqi/201 3/0517/19882.html
3 4 大数据的热门书 郑毅著 真相与误解 当下流行的观点 我的看法 数据量(即个案的记录数)越来越大 对,毫无疑问 数据量越大越好 对,但边际效 益递减 数据信息(即个案的特征)越来越丰富 往往相反 处理大数据的技术已经成熟 言过其实
5 6 i. 为什么数据量越来越大? 传统数据来源: ? 政府统计机构 ? 经济、金融 ? 天文、地理 ? 交通、运输 ? 传统媒体 ? 等等 新型数据来源: ? 互联网 ? 移动网 ? 智能家居 ? 物联网 ? 生物工程/DNA ? 等等 以电视收视率数据为例(武汉或任一大城市) 50-70年代 80-00年代 10年代+ 采集手段 日记填写 人员记录仪 DTV 样本家庭数 1,000 1,000 3,000,000 时间单位 15分钟 15秒钟 10毫秒 数据量(条/天) 96,000 日记的60倍 日记的2.7亿倍;
人员仪的450万倍
7 ii. 为什么数据量越多越好? 14.1% 10.0% 7.1% 5.0% 4.1% 3.5% 3.2% 2.6% 2.2% 2.0% 1.8% 0% 2% 4% 6% 8% 10% 12% 14% 16%
50 550 1,050 1,550 2,050 2,550 3,050 抽样误差 (%) 样本量 (n)
8 还以电视收视率数据为例 样本(家庭数) 人员仪 (1,000) DTV总体 (3百万) DTV样本 (100,000) DTV样本 (10,000) 抽样误差 3.2% 0% 0.3% 0.4% 原始时间单位 15秒钟 10毫秒 10毫秒 10毫秒 数据量(条/天) 576万 人员仪的 450万倍 人员仪的 15万倍 人员仪的 1.5万倍 抽样时间单位 -- 1秒 1秒 1秒 数据量(条/天) -- 人员仪的 45,000倍 人员仪的 1,500倍 人员仪的 150倍910 中数据 最优化 Tom Anderson (2013) Forget big data, think mid data. http://blog.odintext.com/?p=300 小数据 中数据 大数据 回报率 定性 定量 价值 数据量、成本、时间 样本量 最佳切入点 iii. 为什么大数据的信息反而不丰富? ID X1 X2 … Xj Y1 Y2 … Yk
1 n ID X1 X2
1 … … … … … n … … … … … ∞ … … 理想的大数据:海量个案海量变量 现实中的大数据: 海量个案极少变量 ID X1 X2 … Xj Y1 Y2 … Yk
1 n 传统小数据: 个案不多但变量很多
11 难道说 大数据信 息更丰富 的人没 有见过真实的大数 据是什么模样的? iv. 为什么大数据的技术并不成熟? 存储/ 传输 (硬件) 提取 (软件) 大数据 技术 统计 (软件)
12 数据规模与硬件规模的竞赛 1MB 1GB 1TB 1PB 内存 硬盘 数据 (每天) 带宽
13 全球数据量与存储能力的剪刀差
0 1
10 100
1000 10000
2000 2002
2004 2006
2008 2010
2012 2014
2016 2018
2020 Mil PB 数据总量 存储总能力
14 15 适用于大数据的统计分析方法还在襁褓之中 现在用于分析大数据的所 有统计方法,都是100余年 前发明的、或在此基础上 而改进的.这些经典方法 以小数据的正态分布(或t 、F和卡方分布)为前提, 对大数据(往往是极度偏 差的幂律分布)并不合适 .这是大数据技术尚不成 熟的一个最重要标志. 《科学》2011年发表的论文 David Reshef, Yarik Reshef, et al. Detecting novel associations in large data sets using maximal information coefficient (MIC) 相当于1890年皮尔森发明的经 典相关系数. 大纲 ? 大数据的真相与误解 ? 数据新闻的前生与今世 ? 数据新闻的善用与误用
16 数据新闻的演化路径
17 1970
1980 1990
2000 2010 科技化程度精确新闻 电脑辅助 新闻 数据库 新闻 数据驱动 新闻 可视化新 闻1. 各台阶不是替代而是增量关系. 2. 数据新闻早于互联网和大数据. 3. 后两者给数据新闻带来新动力.
18 精确新闻 Precision Journalism Philip Meyer (1973): Precision Journalism: A Reporter'
s Introduction to Social Science Methods (精 确新闻学:记者的社会科 学方法入门) o 抽样原理 o 调查方法 o 数据统计 o … 报道调查数据时必须提供的技术细节 ? 调查赞助者(如果有,必须报告) ? 调查日期和地点 ? 调查对象(如成年居民、常住居民、选民、等等) ? 抽样方法(随机还是便利,具体如何抽取) ? 样本人数(及其对应的抽样误差) ? 访问成功率(= 成功访问人数 合格被访人数 ,一般按美国民意研究 协会的具体公式计算和报告) ? 问题与答案的原话 ? 等等 透明、公开、防误导、免操控
19 20 电脑辅助报道与数据库新闻 电脑辅助报道 Computer- Assisted Reporting (CAR) ? 采用电脑软件帮助新闻采访 、编辑与写作 ? 美国全国电脑辅助报道研究 所(NICAR) ? 丹麦国际分析报道中心 (DICAR) 数据库新闻 Database Journalism (DBJ) ? 采用数据库挖掘新闻、整合 不同来源信息、建设结构化 新闻系统 ? 华盛顿邮报 Fixing DC'
s School ? Adrian Holovaty EveryBlock ($1.1m grant by Knight- Ridder) ? Chrinon Ltd. OpenCorporates
21 数据驱动新闻(DDJ) Data-driven journalism is a journalistic process based on analyzing and filtering large data sets for the purpose of creating a new story. Data- driven journalism deals with open data that is freely available online and analyzed with open source tools. Data- driven journalism strives to reach new levels of service for the public, helping consumers, managers, politicians to understand patterns and make decisions based on the findings. As such, data driven journalism might help to put journalists into a role relevant for society in a new way. (http://en.wikipedia.org/wiki/Data_driv en_journalism) 数据驱动新闻是一个通过分 析和过滤大型数据而制作新 闻故事的过程.数据驱动新 闻采用网上免费的开放数据 ,并用开源工具进行分析. 数据驱动新闻旨在为公众提 供新层次的服务,帮助消费 者、管理者、决策者理解(现象)模式并根据数据结果而作 出决策.数据驱动新闻因此 而将记者推到了一种与社会 相关的新角色. 可视化新闻分类 1. 作为新闻主体:可视化就是新闻,一张图告诉你 所有的故事 2. 作为新闻主题:可视化是故事的框架或流程,文 字围着转 3. 作为新闻导语:可视化引发出故事,先图后文 4. 作为新闻插图:可视化配合文字,提供背景,帮 助理解
22 23 新闻主体vs.新闻主题 可视化作为新闻主题: ? 大陆土壤重金属污染史 可视化作为新闻主体: ? 中东地区的敌友关系 ? 李克强记者会舆论反馈 数据新闻三大范式之比较 精确新闻 CAR-DBJ- DDJ 可视化新闻 表述手段 文字 分析 图像 关键词 准确、严谨、 透明 探秘、深入、 确凿 简化、形象、 互动 局限 应用面狭隘 (如与财经新 闻隔离) 依赖现存数据 库和记者定量 分析能力 片面追求形式、 喧宾夺主、游 离主题
24 大纲 ? 大数据的真相与误解 ? 数据新闻的前生与今世 ? 数据新闻的善用与误用
25 26 数据与新闻的关系 马金馨(数据新闻网联合创始人):
27 可视化与数据的关系 Jonathan Zhu (2014) ? Data visualization differs from the general graphic design in that it is of the data, by the data, and for the data. o Of the data: an integrated phase of the discovery rather than a post-analysis phase to decorate the findings o By the data: guided primarily by data results rather than esthetical considerations o For the data: to tell accurate, informative, and understandable quantitative stories 祝建华: ? 数据可视化与一般艺术 可视化的不同之处,是 数据可视化 o 发源于数据(of the data) o 听命于数据(by the data) o 服务于数据(for the data)
28 可视化新闻的常见误用或滥用 症状: ? 表达不准确、失真 ? 漏报或瞒报关键的方法 细节(详见精确新闻部 分) ? 为形式而形式、喧宾夺 主、游离主题、没有真 正的故事 ? 过分复杂、难以理解 成因: ? 数据本身的复杂性、抽 象性、多维性 ? 误将信息可视化等同于 艺术可视化,前者追求 准确而后者追求夸张和 戏剧性效果
29 数据可视化的九个主打形式 ? 直方图 (比较) ? 饼图 (比例、份额) ? 线图 (趋势) ? 散点图 (相关关系) ? 时间轴 (演化进程) ? 甜圈图 (多维比例) ? 雷达图 (多维比较) ? 地图 (地理位置) ? 热力图 (强度) ? 等等 Bar Pie Line Scatter Plot Time Line Doughnut Radar Map Heat Map
30 Y-轴必须含原点(即0值)
160 165
170 175 男性 女性 Y-轴无原点
0 25
50 75
100 125
150 175 男性 女性 Y-轴有原点 Y-轴缺原点:夸大比较对象之间的差别
31 Source: http://data.heapanalytics.com/how-to-lie-with-data-visualization/
32 不要用3D饼图以免数据失真 A B C D E A B C D E 谁大谁小? 谁大谁小? 数据可视化经典之作:拿破仑在1812 (经度、纬度、方向、时间、温度、人数的六维度展示)
33 Source: http://thumbnails.visually.netdna-cdn.com/napoleons-march-to-moscow-the-war-of-1812_50290b656ab82_w1500.png
34 多维数据与互动可视化 ? 数据的维度: o 1维:对1个指标(如产量 )的单独分析或展示 o 2维:对2个指标(如产量 与年份)的交叉分析或展 示o多维:对3+个指标(如........