【PDF】Apache* Pig* 平台 - 资源下载

编辑：

鱼饵虫

2019-07-15

1 数据库和关系型数据库中读取数据,因此它能够从多个来源请求数据以进行处理.例如,大量数据可能位于 HDFS 上,但是 Pig 还能从一个关系型系统中读取一些数据,并使用它们来处理 Hadoop 中的数据.

1 Apache HBase 数据库是一个可扩展的分布式数据库,为大型数据表提供了结构化数据存储. Pig 的局限尽管 Pig 平台是针对 ETL 类型使用环境而设计的,但它并非实时应用场景的最佳选择.Pig 构建于 MapReduce 之上,主要是支持批处理.Pig 同时也不是在超大型数据集中查找某个纪录的最佳选择,它更适于处理整个数据集. Pig Latin 实际使用时有多简单? Pig Latin 为不希望使用更复杂的 Java* 代码来创建 MapReduce 应用程序的用户提供了一个理想之选.如果您此前曾使用过数据操作,那么您在学习 Apache* Pig* 语言时将可以轻松上手.与您在使用其它语言中遇到的情况不同,它不存在大量需要应用于数据的操作.您可能需要对数据进行合并、筛选、保护、分组、排序等操作,但是 Pig 语言能在较高级别支持所有这些操作,因此您在开始编写 Pig 脚本之前并不需要了解过多内容.一名全新的用户能够在

30 分钟内编写出第一个脚本,并开始使用程序.然而,Pig 平台也是一个高度复杂的工具,您可在获得更多经验后进行更多工作. Pig 平台的后续发展 Pig 是一个非常活跃的项目.至少有来自五家不同公司的开发人员正致力于为其发展做出贡献.我们希望在这一项目中发展的领域包括: ? 充分利用 Hadoop YARN.Hadoop YARN 是一个用于作业规划和集群资源管理的全新框架,可支持开发人员为 Hadoop 框架构建 MapReduce 应用程序之外的工具.YARN 将包含于 Hadoop 2.0 版本中,为促进 Pig 平台的发展提供重要机会. ? 扩展与其他脚本编写语言的集成.您将不再受制于 Pig 语言提供的操作符,而能使用用户定义的函数,并基于 Python 和Ruby 语言,以及 Java 语言来编写 Pig Latin 脚本.进一步扩展语言集将让 Pig 变得更为灵活,并能够支持用户利用其选择的语言进行编写. ? 改善用户体验.Pig 平台由工程师构建,有时会存在用户体验不佳的缺点.进行更多改善用户体验的工作将可以让 Pig 平台更上一层楼. 本文摘自

2012 年8月28 日对 Alan Gates 的采访,如欲查看完整采访内容,请收听播客. 如欲了解有关 Apache HDFS 项目的更多信息,请访问 http://pig.apache.org/ 与同事分享本白皮书仅用于参考目的.本文件以"概不保证"方式提供,英特尔不做任何形式的保证,包括对适销性、不侵权性,以及适用于特定用途的担保,或任何由建议、规范或范例所产生的其它担保.英特尔不承担因使用本信息所产生的任何责任,包括对侵犯任何知识产权的责任.本文不代表英特尔公司或其它机构向任何人明确或隐含地授予任何知识产权. 英特尔公司

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

下一篇: 薄型机电PCB继电器（EMR或SSR）
上一篇: 建设项目环境影响报告表

PDF《Apache* Pig* 平台》