Apache Tajo - 表管理

表是一个数据源的逻辑视图。它由逻辑架构、分区、URL 和各种属性组成。一张Tajo表可以是HDFS中的一个目录、单个文件、一张HBase表或者一张RDBMS表。

Tajo支持以下两种类型的表 −

外部表
内部表格

外部表

外部表在创建时需要location属性。例如，如果您的数据已作为文本/JSON 文件或 HBase 表存在，则可以将其注册为 Tajo 外部表。

以下查询是外部表创建的示例。

create external table sample(col1 int,col2 text,col3 int) location ‘hdfs://path/to/table';

此处，

External keyword − 这用于创建外部表。这有助于在指定位置创建表格。
示例指的是表名。
Location − 它是 HDFS、Amazon S3、HBase 或本地文件系统的目录。要为目录分配位置属性，请使用以下 URI 示例 −
- HDFS − hdfs://localhost:port/path/to/table
- Amazon S3 − s3://bucket-name/table
- local file system − file:///path/to/table
- Openstack Swift − swift://bucket-name/table

表属性

外部表具有以下属性 −

TimeZone − 用户可以指定读取或写入表的时区。
Compression format − 用于使数据大小紧凑。例如，text/json 文件使用 compression.codec 属性。

内部表

内部表也称为托管表。它是在称为表空间的预定义物理位置中创建的。

语法

create table table1(col1 int,col2 text);

默认情况下，Tajo 使用位于"conf/tajo-site.xml"中的"tajo.warehouse.directory"。要为表分配新位置，您可以使用表空间配置。

表空间

表空间用于定义存储系统中的位置。仅内部表支持它。您可以通过表空间的名称来访问它们。每个表空间可以使用不同的存储类型。如果您不指定表空间，Tajo 将使用根目录中的默认表空间。

表空间配置

您在 Tajo 中有"conf/tajo-site.xml.template"。复制该文件并将其重命名为"storagesite.json"。该文件将充当表空间的配置。 Tajo 数据格式使用以下配置 −

HDFS 配置

$ vi conf/storage-site.json { 
   "spaces": {  
      "${tablespace_name}": {  
         "uri": “hdfs://localhost:9000/path/to/Tajo"  
      } 
   } 
}

HBase 配置

$ vi conf/storage-site.json { 
   "spaces": {  
      "${tablespace_name}": {  
         "uri": “hbase:zk://quorum1:port,quorum2:port/"  
      } 
   } 
}

文本文件配置

$ vi conf/storage-site.json { 
   "spaces": {  
      "${tablespace_name}": {  
         “uri”: “hdfs://localhost:9000/path/to/Tajo” 
      } 
   } 
}

表空间创建

Tajo的内表记录只能从另一个表访问。您可以使用表空间对其进行配置。

语法

CREATE TABLE [IF NOT EXISTS] <table_name> [(column_list)] [TABLESPACE tablespace_name] 
[using <storage_type> [with (<key> = <value>, ...)]] [AS <select_statement>]

此处，

IF NOT EXISTS − 如果尚未创建相同的表，这可以避免出现错误。
TABLESPACE − 该子句用于指定表空间名称。
Storage type − Tajo数据支持text、JSON、HBase、Parquet、Sequencefile、ORC等格式。
AS select statement − 从另一个表中选择记录。

配置表空间

启动 Hadoop 服务并打开文件"conf/storage-site.json"，然后添加以下更改 −

$ vi conf/storage-site.json { 
   "spaces": {  
      “space1”: {  
         "uri": “hdfs://localhost:9000/path/to/Tajo" 
      } 
   } 
}

这里，Tajo 将引用 HDFS 位置的数据，space1 是表空间名称。如果不启动Hadoop服务，则无法注册表空间。

查询

default> create table table1(num1 int,num2 text,num3 float) tablespace space1;

上面的查询创建了一个名为"table1"的表，"space1"指的是表空间名称。

数据格式

Tajo 支持数据格式。让我们一一详细了解每种格式。

文本

字符分隔值的纯文本文件表示由行和列组成的表格数据集。每行都是纯文本行。

创建表

default> create external table customer(id int,name text,address text,age int) 
   using text with('text.delimiter'=',') location ‘file:/Users/workspace/Tajo/customers.csv’;

此处，"customers.csv" 文件是指位于 Tajo 安装目录中的逗号分隔值文件。

要使用文本格式创建内表，请使用以下查询 −

default> create table customer(id int,name text,address text,age int) using text;

在上面的查询中，您没有分配任何表空间，因此它将采用 Tajo 的默认表空间。

属性

文本文件格式具有以下属性 −

text.delimiter − 这是一个分隔符。默认为"|"。
compression.codec − 这是一种压缩格式。默认情况下，它是禁用的。您可以使用指定的算法更改设置。
timezone − 用于读取或写入的表。
text.error-tolerance.max-num − 最大容忍级别数。
text.skip.headerlines − 每次跳过的标题行数。
text.serde − 这是序列化属性。

JSON

Apache Tajo 支持 JSON 格式来查询数据。 Tajo 将 JSON 对象视为 SQL 记录。一个对象等于 Tajo 表中的一行。让我们考虑"array.json"，如下所示 −

$ hdfs dfs -cat /json/array.json { 
   "num1" : 10, 
   "num2" : "simple json array", 
   "num3" : 50.5 
}

创建此文件后，切换到 Tajo shell 并键入以下查询以使用 JSON 格式创建表。

查询

default> create external table sample (num1 int,num2 text,num3 float) 
   using json location ‘json/array.json’;

始终记住文件数据必须与表架构匹配。否则，您可以省略列名称并使用 *，这不需要列列表。

要创建内部表，请使用以下查询 −

default> create table sample (num1 int,num2 text,num3 float) using json;

Parquet

Parquet 是一种列式存储格式。 Tajo 使用 Parquet 格式，可以轻松、快速、高效地访问。

表创建

以下查询是创建表的示例 −

CREATE TABLE parquet (num1 int,num2 text,num3 float) USING PARQUET;

Parquet 文件格式具有以下属性 −

parquet.block.size − 内存中缓冲的行组的大小。
parquet.page.size − 页面大小用于压缩。
parquet.compression − 用于压缩页面的压缩算法。
parquet.enable.dictionary − 布尔值用于启用/禁用字典编码。

RC文件

RCFile 是记录列式文件。它由二进制键/值对组成。

表创建

以下查询是创建表的示例 −

CREATE TABLE Record(num1 int,num2 text,num3 float) USING RCFILE;

RCFile 具有以下属性 −

rcfile.serde − 自定义反序列化器类。
compression.codec − 压缩算法。
rcfile.null − null 空字符。

序列文件

SequenceFile 是 Hadoop 中的一种基本文件格式，由键/值对组成。

表创建

以下查询是创建表的示例 −

CREATE TABLE seq(num1 int,num2 text,num3 float) USING sequencefile;

此序列文件具有 Hive 兼容性。这可以在 Hive 中写为，

CREATE TABLE table1 (id int, name string, score float, type string) 
STORED AS sequencefile;

ORC

ORC（优化行列式）是 Hive 的列式存储格式。

表创建

以下查询是创建表的示例 −

CREATE TABLE optimized(num1 int,num2 text,num3 float) USING ORC;

ORC格式具有以下属性 −

orc.max.merge.distance − 读取ORC文件，距离较小时进行合并。
orc.stripe.size − 这是每个 stripe 的大小。
orc.buffer.size − 默认为 256KB。
orc.rowindex.stride − 这是 ORC 索引跨度（以行数为单位）。

Apache Tajo 教程

Apache Tajo - 表管理

外部表

表属性

内部表

语法

表空间

表空间配置

HDFS 配置

HBase 配置

文本文件配置

表空间创建

语法

配置表空间

查询

数据格式

文本

创建表

属性

JSON

查询

Parquet

表创建

RC文件

表创建

序列文件

表创建

ORC

表创建

颜色选择器

读后有收获微信请站长喝咖啡

错误报告

您的建议:

感谢您的帮助！