Talend - 大数据

Open Studio with Big data 的标语是"使用领先的免费开源大数据 ETL 工具简化 ETL 和 ELT"。在本章中,让我们研究一下 Talend 作为大数据环境中数据处理工具的用法。

简介

Talend Open Studio – Big Data 是一款免费的开源工具,可在大数据环境中轻松处理数据。Talend Open Studio 中有大量可用的大数据组件,只需简单地拖放几个 Hadoop 组件即可创建和运行 Hadoop 作业。

此外,我们不需要编写大行 MapReduce 代码;Talend Open Studio Big data 可帮助您使用其中的组件完成此操作。它会自动为您生成 MapReduce 代码,您只需拖放组件并配置一些参数即可。

它还为您提供了连接多个大数据发行版的选项,如 Cloudera、HortonWorks、MapR、Amazon EMR 甚至 Apache。

Talend 大数据组件

大数据下包含的用于在大数据环境中运行作业的组件类别列表如下所示 −

Big Data

Talend Open Studio 中的大数据连接器和组件列表如下所示 −

  • tHDFSConnection − 用于连接到 HDFS(Hadoop 分布式文件系统)。

  • tHDFSInput −从给定的 hdfs 路径读取数据,将其放入 talend 模式,然后将其传递给作业中的下一个组件。

  • tHDFSList − 检索给定 hdfs 路径中的所有文件和文件夹。

  • tHDFSPut − 将文件/文件夹从本地文件系统(用户定义)复制到给定路径的 hdfs。

  • tHDFSGet − 将文件/文件夹从 hdfs 复制到给定路径的本地文件系统(用户定义)。

  • tHDFSDelete − 从 HDFS 中删除文件

  • tHDFSExist −检查文件是否存在于 HDFS 上。

  • tHDFSOutput − 将数据流写入 HDFS。

  • tCassandraConnection − 打开与 Cassandra 服务器的连接。

  • tCassandraRow − 在指定的数据库上运行 CQL(Cassandra 查询语言)查询。

  • tHBaseConnection − 打开与 HBase 数据库的连接。

  • tHBaseInput − 从 HBase 数据库读取数据。

  • tHiveConnection −打开与 Hive 数据库的连接。

  • tHiveCreateTable − 在 Hive 数据库中创建表。

  • tHiveInput − 从 Hive 数据库读取数据。

  • tHiveLoad − 将数据写入 Hive 表或指定目录。

  • tHiveRow − 在指定数据库上运行 HiveQL 查询。

  • tPigLoad − 将输入数据加载到输出流。

  • tPigMap − 用于在 pig 进程中转换和路由数据。

  • tPigJoin −根据连接键执行 2 个文件的连接操作。

  • tPigCoGroup − 对来自多个输入的数据进行分组和聚合。

  • tPigSort − 根据一个或多个定义的排序键对给定的数据进行排序。

  • tPigStoreResult − 将 pig 操作的结果存储在定义的存储空间中。

  • tPigFilterRow − 过滤指定的列以根据给定的条件拆分数据。

  • tPigDistinct − 从关系中删除重复的元组。

  • tSqoopImport −将数据从关系数据库(如 MySQL、Oracle DB)传输到 HDFS。

  • tSqoopExport − 将数据从 HDFS 传输到关系数据库(如 MySQL、Oracle DB)