Apache Pig - 如何执行

在上一章中，我们解释了如何安装 Apache Pig。在本章中，我们将讨论如何执行 Apache Pig。

Apache Pig 执行模式

您可以在两种模式下运行 Apache Pig，即Local 模式和HDFS 模式。

Local 模式

在此模式下，所有文件都从本地主机和本地文件系统安装和运行，不需要 Hadoop 或 HDFS。该模式一般用于测试目的。

MapReduce 模式

MapReduce 模式是我们使用 Apache Pig 加载或处理 Hadoop 文件系统 (HDFS) 中存在的数据的地方。在这种模式下，每当我们执行 Pig Latin 语句来处理数据时，都会在后端调用 MapReduce 作业，对 HDFS 中存在的数据执行特定操作。

Apache Pig 执行机制

Apache Pig脚本可以通过三种方式执行，即交互模式、批处理模式和嵌入模式。

交互模式（Grunt shell）− 您可以使用 Grunt shell 以交互模式运行 Apache Pig。在此 shell 中，您可以输入 Pig Latin 语句并获取输出（使用 Dump 运算符）。
批处理模式（Script）− 您可以通过在扩展名为 .pig 的单个文件中编写 Pig Latin 脚本来以批处理模式运行 Apache Pig。
嵌入模式（UDF）− Apache Pig提供了用Java等编程语言定义我们自己的函数（User Defined Functions）的功能，并使用他们在我们的脚本中。

调用 Grunt Shell

您可以使用 −x 选项以所需模式（local/MapReduce）调用 Grunt shell，如下所示。

Local 模式	MapReduce 模式
命令 − $ ./pig –x local	命令 − $ ./pig -x mapreduce
输出 −	Ou输出tput −

Local 模式

MapReduce 模式

命令 −

$ ./pig –x local

命令 −

$ ./pig -x mapreduce

输出 −

Ou输出tput −

这两个命令都会为您提供如下所示的 Grunt shell 提示符。

grunt>

您可以使用 'ctrl + d' 退出 Grunt shell

调用Grunt shell后，您可以直接在其中输入Pig Latin语句来执行Pig脚本。

grunt> customers = LOAD 'customers.txt' USING PigStorage(',');

以批处理模式执行 Apache Pig

您可以在文件中编写整个 Pig Latin 脚本并使用 –x 命令 执行它。假设我们在名为 sample_script.pig 的文件中有一个 Pig 脚本，如下所示。

Sample_script.pig

student = LOAD 'hdfs://localhost:9000/pig_data/student.txt' USING
   PigStorage(',') as (id:int,name:chararray,city:chararray);
  
Dump student;

现在，您可以执行上述文件中的脚本，如下所示。

Local 模式	MapReduce 模式
$ pig -x local Sample_script.pig	$ pig -x mapreduce Sample_script.pig

注意 − 我们将在后续章节中详细讨论如何在Bach模式和嵌入模式下运行Pig脚本。

Apache Pig 教程

加载和存储运算符

诊断运算符

分组和连接

合并和拆分

过滤

排序

Pig Latin 内置函数

其他执行模式

Apache Pig - 如何执行

Apache Pig 执行模式

Local 模式

MapReduce 模式

Apache Pig 执行机制

调用 Grunt Shell

以批处理模式执行 Apache Pig

Sample_script.pig

颜色选择器

读后有收获微信请站长喝咖啡

错误报告

您的建议:

感谢您的帮助！