编辑: 鱼饵虫 | 2019-07-15 |
1 数据库和关系型数据库中读取数据,因此它 能够从多个来源请求数据以进行处理.例如,大量数据可能 位于 HDFS 上,但是 Pig 还能从一个关系型系统中读取一些数 据,并使用它们来处理 Hadoop 中的数据.
1 Apache HBase 数据库是一个可扩展的分布式数据库,为大型数据表提供了结构 化数据存储. Pig 的局限 尽管 Pig 平台是针对 ETL 类型使用环境而设计的,但它并非实 时应用场景的最佳选择.Pig 构建于 MapReduce 之上,主要是 支持批处理.Pig 同时也不是在超大型数据集中查找某个纪录 的最佳选择,它更适于处理整个数据集. Pig Latin 实际使用时有多简单? Pig Latin 为不希望使用更复杂的 Java* 代码来创建 MapReduce 应用程序的用户提供了一个理想之选.如果您此前曾使用过 数据操作,那么您在学习 Apache* Pig* 语言时将可以轻松上 手.与您在使用其它语言中遇到的情况不同,它不存在大量 需要应用于数据的操作.您可能需要对数据进行合并、筛选、保护、分组、排序等操作,但是 Pig 语言能在较高级别 支持所有这些操作,因此您在开始编写 Pig 脚本之前并不需 要了解过多内容.一名全新的用户能够在
30 分钟内编写出 第一个脚本,并开始使用程序.然而,Pig 平台也是一个高 度复杂的工具,您可在获得更多经验后进行更多工作. Pig 平台的后续发展 Pig 是一个非常活跃的项目.至少有来自五家不同公司的开发 人员正致力于为其发展做出贡献.我们希望在这一项目中发展 的领域包括: ? 充分利用 Hadoop YARN.Hadoop YARN 是一个用于作业规 划和集群资源管理的全新框架,可支持开发人员为 Hadoop 框架构建 MapReduce 应用程序之外的工具.YARN 将包含于 Hadoop 2.0 版本中,为促进 Pig 平台的发展提供重要机会. ? 扩展与其他脚本编写语言的集成.您将不再受制于 Pig 语言 提供的操作符,而能使用用户定义的函数,并基于 Python 和Ruby 语言,以及 Java 语言来编写 Pig Latin 脚本.进一步扩展 语言集将让 Pig 变得更为灵活,并能够支持用户利用其选择 的语言进行编写. ? 改善用户体验.Pig 平台由工程师构建,有时会存在用户体 验不佳的缺点.进行更多改善用户体验的工作将可以让 Pig 平台更上一层楼. 本文摘自
2012 年8月28 日对 Alan Gates 的采访,如欲查看完整采访内容,请收听播客. 如欲了解有关 Apache HDFS 项目的更多信息,请访问 http://pig.apache.org/ 与同事分享 本白皮书仅用于参考目的.本文件以"概不保证"方式提供,英特尔不做任何形式的保证,包括对适销性、不侵权性,以及 适用于特定用途的担保,或任何由建议、规范或范例所产生的其它担保.英特尔不承担因使用本信息所产生的任何责任,包括 对侵犯任何知识产权的责任.本文不代表英特尔公司或其它机构向任何人明确或隐含地授予任何知识产权. 英特尔公司
2012 年版权所有.所有权保留.英特尔、Intel 标识、Intel Sponsors of Tomorrow.、英特尔与你共创明天、 Intel Sponsors of Tomorrow. 标识和英特尔与你共创明天标识是英特尔在美国和/或其他国家的商标. * 其他的名称和品牌可能是其他所有者的资产. 1012/RF/ME/PDF-CN 328127-001