编辑: 飞鸟 | 2012-12-25 |
本章将介绍典型的网络 存储体系结构以及数据 中心的基本概念. ?第10章介绍了数据库管理系统的基本概念 ?数据库模型的发展 ?关系数据库的基本概念 ?利用关系代数写查询表达式 ?物联网数据管理的特点 ?本章重点介绍三种基本的网络存储体系结构,并以 Google数据中心为例,介绍大规模数据中心的相关技术, 最后简要开源分布式计算框架Hadoop. 内容回顾 11.1?物联网对海量信息存储的需求 11.2?网络存储体系结构 11.3?数据中心 信息存储的发展历程如何?物联网对海量信息存储的 需求促使了哪些技术的发展? 本章内容 数据存储的发展历史 甲骨文→纸质书籍→数字化存储 物联网对海量信息存储的需求 ?全球信息总量迅猛增长 C2007年产生的数据量为281EB?( 1EB=10亿GB?) C物联网中对象的数量将庞大到以百亿为单位 ?物联网中的对象积极参与业务流程的需求 C高强度计算需求 C数据的持续在线可获取特性 ?导致了网络化存储和大型数据中心的诞生 11.1?物联网对海量信息存储的需求 11.2?网络存储体系结构 11.3?数据中心 三种基本的网络存储体系结构:直接附加存储,网络 附加存储,存储区域网络,各有什么特点? 本章内容 直接附加存储 直接附加存储(Direct\Attached?Storage,?DAS) ?将存储系统通过缆线直接与服务器或工作站相连 ?一般包括多个硬盘驱动器,与主机总线适配器通过电缆或光纤 ?在存储设备和主机总线适配器之间不存在其他网络设备 ?实现了计算机内存储到存储子系统的跨越 网络附加存储 网络附加存储(Network?Attached?Storage,?NAS) ?文件级的计算机数据存储架构 ?计算机连接到一个仅为其它设备提供基于文件级数据存储服务 的网络 NAS与DAS的区别 DAS是一种对已有服务器的简单扩展,并没有真正实现网络互联.NAS 则是将网络作为存储实体,更容易实现文件级别的共享.NAS性能上比 DAS有所增强 存储区域网络 存储区域网络 (Storage?Area?Network,?SAN) ?通过网络方式连接存储设备和应用服务器的存储架构 ?由服务器、存储设备和SAN连接设备组成 SAN的特点 ?存储共享 ?支持服务器从SAN直接启动 三种网络存储结构的比较 三种网络存储结构的比较 DAS 管理容易,结构简单;
集中式体系结构,不能满足大规模数据访问的 需求;
存储资源利用率低,资源共享能力差,造成 信息孤岛 . NAS 网络的存储实体,容易实现文件级别共享;
性能严重依赖于网络流量, 用户数过多,读写过频繁时性能受限. SAN 存储管理简化,存储容量利用率提高;
无直接文件级别的访问能力, 但可在SAN基础上建立文件系统. 11.1?物联网对海量信息存储的需求 11.2?网络存储体系结构 11.3?数据中心 什么是数据中心?典型的数据中心有哪些?数据中心 的研究热点是什么? 本章内容 什么是数据中心? ?维基百科: 数据中心是一整套复杂的设施.它不仅仅包括计算机系统 和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通 信连接、环境控制设备、监控设备以及各种安全装置. ?Google: 多功能的建筑物,能容纳多个服务器以及通信设备.这些 设备被放置在一起是因为它们具有相同的对环境的要求以及物理安全上的 需求,并且这样放置便于维护. 数据中心的起源与发展 大型机 微型机 大规模数据中心 (Mega?Data?Center) 数据中心的起源与发展 大规模数据中心已经得到推广 数据中心标准 数据中心建设者面对的难题 ?如何规划一个新的数据中心? ?怎样对数据中心进行升级? 数据中心的标准对相关经验进行了总结 ANSI/TIA/EIA\942(简称TIA\942):数据中心标准 电信产业协会(TIA)提出 美国国家标准学会(ANSI)批准 数据中心标准:TIA\942 选址:需要考虑多方面因 素 ?建设和运营成本 ?应用需求 ?政策优惠 ?… 布局: ?按功能区域划分 功能区域组成 数据中心标准:TIA\942(续) TIA\942还对缆线系统,可靠性分级,能源系统和降温系统等做了规 定. 缆线系统 ?规格 ?如何放置缆线 能源系统 ?外部电力供应 ?电池组 ?发电机 机柜 机柜 机柜 有小孔的 地板 有小孔的 地板 冷通道 热通道 降温系统 ?降温设备 ?架空地板 ?冷通道与热通道 典型数据中心:Google?数据中心 简介 ?全球共建有近40个大规模数据中心 ?单个数据中心需要至少50兆瓦功率,约等于一个小型城市所有家庭的 用电量 ?独特的硬件设备:定制的以太网交换机、能源系统等 ?自行研发的软件技术:Google?File?System、MapReduce、 BigTable等Google?File?System? GFS的设计观念 ?组件失效不再被认为是意外,而是被看做正常的现象 ?GFS的文件非常巨大 ?对文件的操作具有特定的模式 ?应用程序和文件系统API的协同设计提高了整个系统的灵活性 Google?File?System? GFS的设计架构 一个GFS集群包含 一个主服务器和 多个块服务器, 并被多个客户端访 问. 文件分成固定大小的 块 .每个块在创建时都由主服务器分配一个固 定不变的64位句柄唯一标识. 块服务器把块作为Linux文件存储在本地磁盘上,并根据指定的块句柄 和字节范围对数据块进行读写操作. Google?File?System? GFS的设计架构(续) 主服务器维护所有文件系统的元数据,包括名字空间、访问控制信 息、文件到块的映射信息以及块当前的位置.此外,主服务器还控制其它 系统级的活动.主服务器周期性地与块服务器通信,以下达指令和收集状 态. GFS客户端代码被嵌入到每个应用中.它实现了文件系统API,实现主 服务器与块服务器的通信从而代表应用实现读写操作.客户端与服务器交 互从而实现元数据操作,但所有的数据操作都通过直接与块服务器交互而 完成. MapReduce MapReduce是一种针对超大规模数据集的编程模型和系统 用MapReduce开发出的程序可在大量商用计算机集群上并行执行、处理计 算机的失效以及调度计算机间的通信 MapReduce的基本思想 ?用户写的两个程序:Map和Reduce ?一个在计算机集群上执行多个程序实例的框架 MapReduce MapReduce程序的执行过程 BigTable BigTable是一种用来在海量数据规模下(例如包含以PB为单位的数据量和 数千台廉价计算机的应用)管理结构化数据的分布式存储系统. 应用 ?Google地球 ?网页索引 ?RSS阅读器 ?… BigTable 每个BigTable都是一个稀疏的、分布式的多维有序图,按行键值、列键 值和时间戳建立索引 典型数据中心:Hadoop 什么是Hadoop? ?Apache开源组织的一个分布式计算开源框架 ?用于在大型集群的廉价服务器设备上运行数据密集型分布式应用程序 ?在早期实际上是Google文件系统与MapReduce分布式计算框架及相关IT 基础服务的开源实现 Hadoop包括多个子项目 HDFS、 MapReduce、 HBase 、Chukwa、Pig、ZooKeeper等HDFS Hadoop Distributed?File?System 数据中心的研究热点 ? 2006年Google在数据中心项目上的花费为19亿美元,而2007年该项支出 增加到24亿美元. ? Google在俄勒冈州的数据中心有近100兆瓦的功率,满负荷运行时消耗的 电力基本上和纽卡斯尔(Newcastle)一个城市所有家庭的用电量加起来 一样多. 研究热点:如何在保证服务质量的前提下降低成本? 数据中心的成本构成 基础设施部分包括能源系统、 降温系统、各种防火设备、安保 设备等.降低这一部分成本往往 涉及到机械设备制造技术或政策 优惠等因素,与计算机学科的关 联程度相对较低. 我们分别从服务器,网络设备, 能源三个方面对造成高成本的原 因和目前的解决方法进行简要介 绍. 服务器成本 服务器 网络设备 能源 服务器的实际利用效率较低 ?分配到各服务器的应用不能完全利用某些组件 ?对应用需求的预测比较难,无法做到按需分配 ?为了提高系统的可靠性,一般都留有冗余设备 提高服务器利用率的关键在于及时应对需求的动 态变化 网络设备成本 服务器 网络设备 能源 主要来源 ?交换机、路由器、负载均衡设备 ?传统的数据中心使用树形结构,核心交换机和路 由器构成流量瓶颈,且造价昂贵 研究热点:新的数据中心网络结构 ?以交换机为中心的多层树形结构:例如Fat\Tree ?以服务器为中心的互联结构:例如DCell 能源成本 服务器 网络设备 能源 研究热点 ?降低服务器工作能耗 ?降低同等性能设备能耗 ?提高同等能耗设备性能 ?可调整负载的服务器 ?减少降温系统能耗 ?精细、精准的温度控制 ?集装箱式模块化数据中心 数据中心能耗构成 本章小结 内容回顾 本章介绍了三种基本的网络存储体系结构,并讨论了数据中心的基本概念, 以Google数据中心和Hadoop为例,简要介绍了数据中心的相关技术,最后指 出了数据中心的研究热点. 重点掌握 ?了解物联网对海量数据存储的迫切需求. ?重点掌握三种基本的网络存储体系结构(DAS,NAS,SAN)的基本概念以 及各自的优缺点. 本章小结 重点掌握(续) ?了解数据中心的概念,以Google数据中心为例,了解GFS,MapReduce, BigTable等技术的基本概念和特点.了解Hadoop分布式计算开源框架的特点. ?掌握保证性能前提下降低数据中心成本的方法(服务器成本,网络设备成 本,能源成本). Thank?you! ........