编辑: 颜大大i2 | 2019-07-03 |
空列浪费 存储空间 ?因此,业界出现了一类面向半结构化数据存储和处理的高可扩展、 低写入/查询延迟的系统,例如,键值数据库、文档数据库和列族 数据库(如BigTable和HBase等) ?HBase已经成功应用于互联网服务领域和传统行业的众多在线式 数据分析处理系统中 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 [email protected] 4.1.3HBase与传统关系数据库的对比分析 ? HBase与传统的关系数据库的区别主要体现在以下几个方面: ? (1)数据类型:关系数据库采用关系模型,具有丰富的数据类型和 存储方式,HBase则采用了更加简单的数据模型,它把数据存储为未 经解释的字符串 ? (2)数据操作:关系数据库中包含了丰富的操作,其中会涉及复杂 的多表连接.HBase操作则不存在复杂的表与表之间的关系,只有简 单的插入、查询、删除、清空等,因为HBase在设计上就避免了复杂 的表和表之间的关系 ? (3)存储模式:关系数据库是基于行模式存储的.HBase是基于列 存储的,每个列族都由几个文件保存,不同列族的文件是分离的 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 [email protected] 4.1.3HBase与传统关系数据库的对比分析 ? HBase与传统的关系数据库的区别主要体现在以下几个方面: ? (4)数据索引:关系数据库通常可以针对不同列构建复杂的多个索 引,以提高数据访问性能.HBase只有一个索引――行键,通过巧妙 的设计,HBase中的所有访问方法,或者通过行键访问,或者通过行 键扫描,从而使得整个系统不会慢下来 ? (5)数据维护:在关系数据库中,更新操作会用最新的当前值去替 换记录中原来的旧值,旧值被覆盖后就不会存在.而在HBase中执行 更新操作时,并不会删除数据旧的版本,而是生成一个新的版本,旧 有的版本仍然保留 ? (6)可伸缩性:关系数据库很难实现横向扩展,纵向扩展的空间也 比较有限.相反,HBase和BigTable这些分布式数据库就是为了实现 灵活的水平扩展而开发的,能够轻易地通过在集群中增加或者减少硬 件数量来实现性能的伸缩 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 [email protected] 4.2 HBase访问接口 表4-2 HBase访问接口 类型 特点 场合 Native Java API 最常规和高效的访问方式 适合Hadoop MapReduce作业 并行批处理HBase表数据 HBase Shell HBase的命令行工具,最 简单的接口 适合HBase管理使用 Thrift Gateway 利用Thrift序列化技术, 支持C++、PHP、Python 等多种语言 适合其他异构系统在线访问 HBase表数据 REST Gateway 解除了语言限制 支持REST风格的Http API访问 HBase Pig 使用Pig Latin流式编程语 言来处理HBase中的数据 适合做数据统计 Hive 简单 当需要以类似SQL语言方式来 访问HBase的时候 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 [email protected] 4.3 HBase数据模型 ? 4.3.1 数据模型概述 ? 4.3.2 数据模型相关概念 ? 4.3.3 数据坐标 ? 4.3.4 概念视图 ? 4.3.5 物理视图 ? 4.3.6 面向列的存储 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 [email protected] 4.3.1数据模型概述 ? HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、 列族、列限定符和时间戳 ? 每个值是一个未经解释的字符串,没有数据类型 ? 用户在表中存储数据,每一行都有一个可排序的行键和任意多的列 ? 表在水平方向由一个或者多个列族组成,一个列族中可以包含任意多 个列,同一个列族里面的数据存储在一起 ? 列族支持动态扩展,可以很轻松地添加一个列族或列,无需预先定义 列的数量以及类型,所有列均以字符串形式存储,用户需要自行进行 数据类型转换 ? HBase中执行更新操作时,并不会删除数据旧的版本,而是生成一个 新的版本,旧有的版本仍然保留(这是和HDFS只允许追加不允许修 改的特性相关的) 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 [email protected] 4.3.2数据模型相关概念 ? 表:HBase采用表来组织数据,表由行 和列组成,列划分为若干个列族 ? 行:每个HBase表都由若干行组成,每 个行由行键(row key)来标识. ? 列族:一个HBase表被分组成许多 列族 (Column Family)的集合,它是 基本的访问控制单元 ? 列限定符:列族里的数据通过列限定符 (或列)来定位 ? 单元格:在HBase表中,通过行、列族 和列限定符确定一个 单元格 (cell ),单元格中存储的数据没有数据类型 ,总被视为字节数组byte[] ? 时间戳:每个单元格都保存着同一份数 据的多个版本,这些版本采用时间戳进 行索引 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 [email protected] 4.3.3数据坐标 ? HBase中需要根据行键、列族、列限定符和时间戳来确定一个单元格,因此 ,可以视为一个 四维坐标 ,即[行键, 列族, 列限定符, 时间戳] 键值[D201505003‖, DInfo‖, Demail‖, 1174184619081] [email protected]‖ [D201505003‖, DInfo‖, Demail‖, 1174184620720] [email protected]‖ 《大数据技术原理与应用》 厦门大学计算机科学系 林子雨 [email protected] 4.3.4概念视图 表4-4 HBase数据的概念视图 行键 时间戳列族contents 列族anchor com.cnn .www t5 anchor:cnnsi.com=‖CNN‖ t4 anchor:my.look.ca= CNN.com t3 contents:html= <