Apache Tajo - SQL 语句

在上一章中，您已经了解了如何在 Tajo 中创建表。本章介绍 Tajo 中的 SQL 语句。

创建表语句

在创建表之前，请在 Tajo 安装目录路径中创建一个文本文件"students.csv"，如下所示 −

students.csv

Id	Name	Address	Age	Marks
1	Adam	23 New Street	21	90
2	Amit	12 Old Street	13	95
3	Bob	10 Cross Street	12	80
4	David	15 Express Avenue	12	85
5	Esha	20 Garden Street	13	50
6	Ganga	25 North Street	12	55
7	Jack	2 Park Street	12	60
8	Leena	24 South Street	12	70
9	Mary	5 West Street	12	75
10	Peter	16 Park Avenue	12	95

文件创建后，移动到终端并一一启动 Tajo 服务器和 shell。

创建数据库

使用以下命令创建新数据库 −

查询

default> create database sampledb; 
OK

连接到现在创建的数据库"sampledb"。

default> \c sampledb 
You are now connected to database "sampledb" as user “user1”.

然后，在"sampledb"中创建一个表，如下所示 −

查询

sampledb>  create external table mytable(id int,name text,address text,age int,mark int) 
   using text with('text.delimiter' = ',') location ‘file:/Users/workspace/Tajo/students.csv’;

结果

上述查询将生成以下结果。

OK

此处，外部表已创建。现在，您只需输入文件位置即可。如果您必须从 hdfs 分配表，请使用 hdfs 而不是文件。

接下来，"students.csv" 文件包含逗号分隔值。 text.delimiter 字段分配有","。

您现在已经在"sampledb"中成功创建了"mytable"。

显示表格

要显示 Tajo 中的表，请使用以下查询。

查询

sampledb> \d  
mytable  
sampledb> \d mytable

结果

上述查询将生成以下结果。

table name: sampledb.mytable 
table uri: file:/Users/workspace/Tajo/students.csv 
store type: TEXT 
number of rows: unknown 
volume: 261 B
Options: 
'timezone' = 'Asia/Kolkata' 
'text.null' = '\N' 
'text.delimiter' = ','  
schema: 
id INT4 
name TEXT 
address TEXT 
age INT4 
mark INT4

列出表格

要获取表中的所有记录，请键入以下查询 −

查询

sampledb> select * from mytable;

结果

上述查询将生成以下结果。

插入表语句

Tajo 使用以下语法在表中插入记录。

语法

create table table1 (col1 int8, col2 text, col3 text);   
--schema should be same for target table schema  
Insert overwrite into table1 select * from table2;  
                     (or)  
Insert overwrite into LOCATION '/dir/subdir' select * from table;

Tajo 的 insert 语句类似于 SQL 的 INSERT INTO SELECT 语句。

查询

让我们创建一个表来覆盖现有表的表数据。

sampledb> create table test(sno int,name text,addr text,age int,mark int);  
OK 
sampledb> \d

结果

上述查询将生成以下结果。

mytable 
test

插入记录

要在"test"表中插入记录，请键入以下查询。

查询

sampledb> insert overwrite into test select * from mytable;

结果

上述查询将生成以下结果。

Progress: 100%, response time: 0.518 sec

这里，"mytable"记录覆盖"test"表。如果您不想创建"test"表，则立即分配物理路径位置，如插入查询的替代选项中所述。

获取记录

使用以下查询列出"test"表中的所有记录 −

查询

sampledb> select * from test;

结果

上述查询将生成以下结果。

该语句用于添加、删除或修改现有表的列。

要重命名表，请使用以下语法 −

Alter table table1 RENAME TO table2;

查询

sampledb> alter table test rename to students;

结果

上述查询将生成以下结果。

OK

要检查更改后的表名称，请使用以下查询。

sampledb> \d  
mytable 
students

现在表"test"更改为"students"表。

添加列

要在"students"表中插入新列，请键入以下语法 −

Alter table <table_name> ADD COLUMN <column_name> <data_type>

查询

sampledb> alter table students add column grade text;

结果

上述查询将生成以下结果。

OK

设置属性

该属性用于更改表的属性。

查询

sampledb> ALTER TABLE students SET PROPERTY 'compression.type' = 'RECORD',
   'compression.codec' = 'org.apache.hadoop.io.compress.Snappy Codec' ; 
OK

此处分配压缩类型和编解码器属性。

要更改文本分隔符属性，请使用以下命令 −

查询

ALTER TABLE students  SET PROPERTY ‘text.delimiter'=',';  
OK

结果

上述查询将生成以下结果。

sampledb> \d students  
table name: sampledb.students 
table uri: file:/tmp/tajo-user1/warehouse/sampledb/students 
store type: TEXT 
number of rows: 10 
volume: 228 B 
Options: 
'compression.type' = 'RECORD' 
'timezone' = 'Asia/Kolkata' 
'text.null' = '\N' 
'compression.codec' = 'org.apache.hadoop.io.compress.SnappyCodec' 
'text.delimiter' = ','  
schema: 
id INT4 
name TEXT 
addr TEXT 
age INT4 
mark INT4 
grade TEXT

上面的结果显示使用"SET"属性更改了表的属性。

Select 语句

SELECT 语句用于从数据库中选择数据。

Select 语句的语法如下 −

SELECT [distinct [all]] * | <expression> [[AS] <alias>] [, ...] 
   [FROM <table reference> [[AS] <table alias name>] [, ...]] 
   [WHERE <condition>] 
   [GROUP BY <expression> [, ...]] 
   [HAVING <condition>] 
   [ORDER BY <expression> [ASC|DESC] [NULLS (FIRST|LAST)] [, …]]

Where 子句

Where 子句用于过滤表中的记录。

查询

sampledb> select * from mytable where id > 5;

结果

上述查询将生成以下结果。

查询返回id大于5的学生记录。

查询

sampledb> select * from mytable where name = ‘Peter’;

结果

上述查询将生成以下结果。

Progress: 100%, response time: 0.117 sec 
 
  id,  name,  address,   age  
------------------------------- 
10,  Peter,  16 park avenue , 12

结果仅过滤 Peter 的记录。

独特条款

表列可能包含重复值。 DISTINCT 关键字可用于仅返回不同（不同）的值。

语法

SELECT DISTINCT column1,column2 FROM table_name;

查询

sampledb> select distinct age from mytable;

结果

上述查询将生成以下结果。

Progress: 100%, response time: 0.216 sec  
age 
------------------------------- 
13 
12

查询返回mytable中学生的不同年龄。

Group By 子句

GROUP BY 子句与 SELECT 语句配合使用，将相同的数据分组。

语法

SELECT column1, column2 FROM table_name WHERE [ conditions ] GROUP BY column1, column2;

查询

select age,sum(mark) as sumofmarks from mytable group by age;

结果

上述查询将生成以下结果。

age,  sumofmarks 
------------------------------- 
13,  145 
12,  610

这里，"mytable"列有两种类型的年龄 - 12 和 13。现在查询按年龄对记录进行分组，并生成学生相应年龄的分数总和。

Having 子句

HAVING 子句使您能够指定过滤哪些组结果出现在最终结果中的条件。 WHERE 子句将条件置于所选列上，而 HAVING 子句则将条件置于由 GROUP BY 子句创建的组上。

语法

SELECT column1, column2 FROM table1 GROUP BY column HAVING [ conditions ]

查询

sampledb> select age from mytable group by age  having  sum(mark) > 200;

结果

上述查询将生成以下结果。

age 
------------------------------- 
12

查询按照年龄对记录进行分组，当条件结果 sum(mark) > 时返回年龄。 200。

ORDER BY 子句

ORDER BY 子句用于根据一列或多列按升序或降序对数据进行排序。 Tajo数据库默认按照升序对查询结果进行排序。

语法

SELECT column-list FROM table_name  
[WHERE condition]  
[ORDER BY column1, column2, .. columnN] [ASC | DESC];

查询

sampledb> select * from mytable where mark > 60 order by name desc;

结果

上述查询将生成以下结果。

查询按降序返回分数大于 60 的学生的姓名。

创建索引语句

CREATE INDEX 语句用于在表中创建索引。索引用于快速检索数据。当前版本仅支持存储在 HDFS 上的纯文本格式的索引。

语法

CREATE INDEX [ name ] ON table_name ( { column_name | ( expression ) }

查询

create index student_index on mytable(id);

结果

上述查询将生成以下结果。

id 
———————————————

要查看为该列分配的索引，请键入以下查询。

default> \d mytable  
table name: default.mytable 
table uri: file:/Users/deiva/workspace/Tajo/students.csv 
store type: TEXT 
number of rows: unknown  
volume: 307 B 
Options: 
   'timezone' = 'Asia/Kolkata' 
   'text.null' = '\N' 
   'text.delimiter' = ','  
schema: 
id INT4 
name TEXT 
address TEXT 
age INT4 
mark INT4   
Indexes:  
"student_index" TWO_LEVEL_BIN_TREE (id ASC NULLS LAST )

这里，Tajo 中默认使用 TWO_LEVEL_BIN_TREE 方法。

删除表语句

删除表语句用于从数据库中删除表。

语法

drop table table name;

查询

sampledb> drop table mytable;

要检查该表是否已从表中删除，请键入以下查询。

sampledb> \d mytable;

结果

上述查询将生成以下结果。

ERROR: relation 'mytable' does not exist

您还可以使用"\d"命令检查查询以列出可用的 Tajo 表。

Apache Tajo 教程

Apache Tajo - SQL 语句

创建表语句

创建数据库

查询

查询

结果

显示表格

查询

结果

列出表格

查询

结果

插入表语句

语法

查询

结果

插入记录

查询

结果

获取记录

查询

结果

查询

结果

添加列

查询

结果

设置属性

查询

查询

结果

Select 语句

Where 子句

查询

结果

查询

结果

独特条款

语法

查询

结果

Group By 子句

语法

查询

结果

Having 子句

语法

查询

结果

ORDER BY 子句

语法

查询

结果

创建索引语句

语法

查询

结果

删除表语句

语法

查询

结果

颜色选择器

读后有收获微信请站长喝咖啡

错误报告

您的建议:

感谢您的帮助！