Apache Pig - RANDOM() 函数

RANDOM()函数用于获取大于或等于0.0且小于1.0的伪随机数(double类型)。

grunt> RANDOM()

示例

假设HDFS目录/pig_data/中有一个名为math.txt的文件。 该文件包含整数和浮点值,如下所示。

math.txt

5 
16 
9 
2.5 
5.9 
3.1 

并且,我们已将此文件加载到 Pig 中,其关系名为 math_data ,如下所示。

grunt> math_data = LOAD 'hdfs://localhost:9000/pig_data/math.txt' USING PigStorage(',')
   as (data:float);

现在让我们使用 RANDOM() 函数生成 math.txt 文件内容的随机值,如下所示。

grunt> random_data = foreach math_data generate (data), RANDOM();

以上语句将结果存储在名为random_data的关系中。 使用 Dump 运算符验证关系的内容,如下所示。

grunt> Dump random_data;
  
(5.0,0.6842057767279982) 
(16.0,0.9725172591786139) 
(9.0,0.4159326414649489) 
(2.5,0.30962777780713147) 
(5.9,0.705213727551145) 
(3.1,0.24247708413861724)

apache_pig_math_functions.html