Apache Pig - Join 连接运算符

JOIN 运算符用于组合两个或多个关系中的记录。在执行连接操作时，我们将每个关系中的一个（或一组）元组声明为键。当这些键匹配时，两个特定元组就会匹配，否则记录将被删除。连接可以是以下类型 −

自加入
内连接
外连接 −左连接、右连接和全连接

本章通过示例解释了如何在 Pig Latin 中使用连接运算符。假设我们在HDFS的/pig_data/目录下有两个文件，分别是customers.txt和orders.txt，如下所示。

customers.txt

1,Ramesh,32,Ahmedabad,2000.00
2,Khilan,25,Delhi,1500.00
3,kaushik,23,Kota,2000.00
4,Chaitali,25,Mumbai,6500.00 
5,Hardik,27,Bhopal,8500.00
6,Komal,22,MP,4500.00
7,Muffy,24,Indore,10000.00

orders.txt

102,2009-10-08 00:00:00,3,3000
100,2009-10-08 00:00:00,3,1500
101,2009-11-20 00:00:00,2,1560
103,2008-05-20 00:00:00,4,2060

我们已将这两个文件加载到 Pig 中，其关系为 customers 和 orders ，如下所示。

grunt> customers = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, address:chararray, salary:int);
  
grunt> orders = LOAD 'hdfs://localhost:9000/pig_data/orders.txt' USING PigStorage(',')
   as (oid:int, date:chararray, customer_id:int, amount:int);

Let us now perform various Join operations on these two relations.

自联接

自联接用于将表与其自身联接起来，就好像该表是两个关系一样，暂时重命名至少一个关系。

通常，在 Apache Pig 中，为了执行自连接，我们会使用不同的别名（名称）多次加载相同的数据。因此，让我们将文件 customers.txt 的内容加载为两个表，如下所示。

grunt> customers1 = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, address:chararray, salary:int);
  
grunt> customers2 = LOAD 'hdfs://localhost:9000/pig_data/customers.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int, address:chararray, salary:int);

语法

下面给出的是使用JOIN运算符执行自连接操作的语法。

grunt> Relation3_name = JOIN Relation1_name BY key, Relation2_name BY key ;

示例

让我们通过连接两个关系 customers1 和 customers2 对关系 customers 执行自连接操作 > 如下图。

grunt> customers3 = JOIN customers1 BY id, customers2 BY id;

验证

使用 DUMP 运算符验证关系 customers3，如下所示。

grunt> Dump customers3;

输出

它将产生以下输出，显示关系customers的内容。

(1,Ramesh,32,Ahmedabad,2000,1,Ramesh,32,Ahmedabad,2000)
(2,Khilan,25,Delhi,1500,2,Khilan,25,Delhi,1500)
(3,kaushik,23,Kota,2000,3,kaushik,23,Kota,2000)
(4,Chaitali,25,Mumbai,6500,4,Chaitali,25,Mumbai,6500)
(5,Hardik,27,Bhopal,8500,5,Hardik,27,Bhopal,8500)
(6,Komal,22,MP,4500,6,Komal,22,MP,4500)
(7,Muffy,24,Indore,10000,7,Muffy,24,Indore,10000)

Inner Join（内连接）

Inner Join 使用得相当频繁；它也称为等值连接。当两个表中存在匹配项时，内部联接将返回行。

它通过基于连接谓词组合两个关系（例如 A 和 B）的列值来创建一个新关系。该查询将 A 的每一行与 B 的每一行进行比较，以查找满足连接谓词的所有行对。当满足连接谓词时，A 和 B 的每个匹配行对的列值将组合成一个结果行。

语法

以下是使用 JOIN 运算符执行内连接操作的语法。

grunt> result = JOIN relation1 BY columnname, relation2 BY columnname;

示例

让我们对两个关系customers和orders执行内连接操作，如下所示。

grunt> coustomer_orders = JOIN customers BY id, orders BY customer_id;

验证

使用 DUMP 运算符验证关系 coustomer_orders，如下所示。

grunt> Dump coustomer_orders;

输出

您将得到以下输出，其中包含名为 coustomer_orders 的关系的内容。

(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)

注意 −

外连接:与内连接不同，外连接返回至少一个关系中的所有行。外连接操作通过三种方式进行 −

左外连接
右外连接
完全外连接

LEFT OUTER Join(左外连接)

左外连接操作会返回左表中的所有行，即使右关系中没有匹配项也是如此。

语法

下面给出的是使用JOIN运算符执行左外连接操作的语法。

grunt> Relation3_name = JOIN Relation1_name BY id LEFT OUTER, Relation2_name BY customer_id;

示例

让我们对两个关系客户和订单执行左外连接操作，如下所示。

grunt> outer_left = JOIN customers BY id LEFT OUTER, orders BY customer_id;

验证

使用 DUMP 运算符验证关系 outer_left，如下所示。

grunt> Dump outer_left;

输出

它将产生以下输出，显示关系outer_left的内容。

(1,Ramesh,32,Ahmedabad,2000,,,,)
(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)
(5,Hardik,27,Bhopal,8500,,,,)
(6,Komal,22,MP,4500,,,,)
(7,Muffy,24,Indore,10000,,,,)

RIGHT OUTER Join（右外连接）

右外连接操作返回右表中的所有行，即使左表中没有匹配项也是如此。

语法

下面给出的是使用JOIN运算符执行右外连接操作的语法。

grunt> outer_right = JOIN customers BY id RIGHT, orders BY customer_id;

示例

让我们对两个关系customers和orders执行右外连接操作，如下所示。

grunt> outer_right = JOIN customers BY id RIGHT, orders BY customer_id;

验证

使用 DUMP 运算符验证关系 outer_right，如下所示。

grunt> Dump outer_right

输出

它将产生以下输出，显示关系outer_right的内容。

(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)

完全外连接

当其中一个关系中有匹配项时，完全外连接操作会返回行。

语法

下面给出的是使用 JOIN 运算符执行完全外连接的语法。

grunt> outer_full = JOIN customers BY id FULL OUTER, orders BY customer_id;

示例

让我们对 customers 和 orders 两个关系执行完全外连接操作，如下所示。

grunt> outer_full = JOIN customers BY id FULL OUTER, orders BY customer_id;

验证

使用 DUMP 运算符验证关系 outer_full，如下所示。

grun> Dump outer_full;

输出

它将产生以下输出，显示关系outer_full的内容。

(1,Ramesh,32,Ahmedabad,2000,,,,)
(2,Khilan,25,Delhi,1500,101,2009-11-20 00:00:00,2,1560)
(3,kaushik,23,Kota,2000,100,2009-10-08 00:00:00,3,1500)
(3,kaushik,23,Kota,2000,102,2009-10-08 00:00:00,3,3000)
(4,Chaitali,25,Mumbai,6500,103,2008-05-20 00:00:00,4,2060)
(5,Hardik,27,Bhopal,8500,,,,)
(6,Komal,22,MP,4500,,,,)
(7,Muffy,24,Indore,10000,,,,)

使用多个键

我们可以使用多个键执行 JOIN 操作。

语法

以下是如何使用多个键对两个表执行 JOIN 操作。

grunt> Relation3_name = JOIN Relation2_name BY (key1, key2), Relation3_name BY (key1, key2);

假设我们在HDFS的/pig_data/目录下有两个文件，分别是employee.txt和employee_contact.txt，如下所示。

employee.txt

001,Rajiv,Reddy,21,programmer,003
002,siddarth,Battacharya,22,programmer,003
003,Rajesh,Khanna,22,programmer,003
004,Preethi,Agarwal,21,programmer,003
005,Trupthi,Mohanthy,23,programmer,003
006,Archana,Mishra,23,programmer,003
007,Komal,Nayak,24,teamlead,002
008,Bharathi,Nambiayar,24,manager,001

employee_contact.txt

001,9848022337,Rajiv@gmail.com,Hyderabad,003
002,9848022338,siddarth@gmail.com,Kolkata,003
003,9848022339,Rajesh@gmail.com,Delhi,003
004,9848022330,Preethi@gmail.com,Pune,003
005,9848022336,Trupthi@gmail.com,Bhuwaneshwar,003
006,9848022335,Archana@gmail.com,Chennai,003
007,9848022334,Komal@gmail.com,trivendram,002
008,9848022333,Bharathi@gmail.com,Chennai,001

我们已将这两个文件加载到 Pig 中，其关系为 employee 和 employee_contact，如下所示。

grunt> employee = LOAD 'hdfs://localhost:9000/pig_data/employee.txt' USING PigStorage(',')
   as (id:int, firstname:chararray, lastname:chararray, age:int, designation:chararray, jobid:int);
  
grunt> employee_contact = LOAD 'hdfs://localhost:9000/pig_data/employee_contact.txt' USING PigStorage(',') 
   as (id:int, phone:chararray, email:chararray, city:chararray, jobid:int);

现在，让我们使用 JOIN 运算符连接这两个关系的内容，如下所示。

grunt> emp = JOIN employee BY (id,jobid), employee_contact BY (id,jobid);

验证

使用 DUMP 运算符验证关系 emp，如下所示。

grunt> Dump emp;

输出

它将产生以下输出，显示名为 emp 的关系的内容，如下所示。

(1,Rajiv,Reddy,21,programmer,113,1,9848022337,Rajiv@gmail.com,Hyderabad,113)
(2,siddarth,Battacharya,22,programmer,113,2,9848022338,siddarth@gmail.com,Kolka ta,113)  
(3,Rajesh,Khanna,22,programmer,113,3,9848022339,Rajesh@gmail.com,Delhi,113)  
(4,Preethi,Agarwal,21,programmer,113,4,9848022330,Preethi@gmail.com,Pune,113)  
(5,Trupthi,Mohanthy,23,programmer,113,5,9848022336,Trupthi@gmail.com,Bhuwaneshw ar,113)  
(6,Archana,Mishra,23,programmer,113,6,9848022335,Archana@gmail.com,Chennai,113)  
(7,Komal,Nayak,24,teamlead,112,7,9848022334,Komal@gmail.com,trivendram,112)  
(8,Bharathi,Nambiayar,24,manager,111,8,9848022333,Bharathi@gmail.com,Chennai,111)

Apache Pig 教程

加载和存储运算符

诊断运算符

分组和连接

合并和拆分

过滤

排序

Pig Latin 内置函数

其他执行模式

Apache Pig - Join 连接运算符

自联接

语法

示例

验证

输出

Inner Join（内连接）

语法

示例

验证

输出

LEFT OUTER Join(左外连接)

语法

示例

验证

输出

RIGHT OUTER Join（右外连接）

语法

示例

验证

输出

完全外连接

语法

示例

验证

输出

使用多个键

语法

验证

输出

颜色选择器

读后有收获微信请站长喝咖啡

错误报告

您的建议:

感谢您的帮助！