Sqoop 问题与答案

JDBC 驱动程序在 Sqoop 设置中的作用是什么？

要连接到不同的关系数据库，sqoop 需要一个连接器。几乎每个 DB 供应商都将此连接器作为特定于该 DB 的 JDBC 驱动程序提供。因此，Sqoop 需要它需要与之连接的每个数据库的 JDBC 驱动程序。

JDBC 驱动程序足以将 sqoop 连接到数据库吗？

不。Sqoop 需要 JDBC 和连接器才能连接到数据库。

导入数据时，何时使用 --target-dir，何时使用 --warehouse-dir？

要指定 HDFS 中的特定目录，请使用 --target-dir，但要指定所有 sqoop 作业的父目录，请使用 --warehouse-dir。在这种情况下，在父目录下，sqoop 会创建一个与表同名的目录。

如何仅导入表中的行子集？

通过在 sqoop import 语句中使用 WHERE 子句，我们可以仅导入行子集。

如何在不使用 where 子句的情况下从表中导入行子集？

我们可以在数据库上运行过滤查询，并将结果保存到数据库中的临时表中。

然后使用 sqoop import 命令而不使用 --where 子句

使用 --password-file 选项而不是 -P 选项有什么好处，同时可以防止在 sqoop 导入语句中显示密码？

--password-file 选项可以在 sqoop 脚本中使用，而 -P 选项从标准输入读取，从而防止自动化。

使用 --compress 参数从 sqoop 导入生成的文件的默认扩展名是什么？

.gz

使用 --compress-codec 参数有什么意义？

要获取除 .gz 以外的格式（如 .bz2）的 sqoop 导入的输出文件，我们使用 --compress -code参数。

使用 --direct 参数来加快 sqoop 数据加载速度有什么缺点？

数据库用于支持更快加载的本机实用程序不适用于 SequenceFile 等二进制数据格式。

如何控制 sqoop 命令使用的映射器数量？

参数 --num-mapers 用于控制 sqoop 命令执行的映射器数量。我们应该从选择少量的映射任务开始，然后逐渐扩大规模，因为最初选择大量的映射器可能会降低数据库端的性能。

从数据库导入大量表时，如何避免逐个导入表？

使用命令

sqoop import-all-tables

--connect

--usrename

--password

--exclude-tables table1,table2 ..

这将导入除 exclude-tables 子句中提到的表之外的所有表。

当源数据不断频繁更新时，如何保持与源数据同步？ sqoop 导入 HDFS 中的数据？

sqoop 可以有两种方法。

a − 使用带有附加选项的 --incremental 参数，其中检查某些列的值，并且仅在修改值的情况下才将行作为新行导入。

b −使用带有 lastmodified 选项的 --incremental 参数，其中检查源中的日期列是否有上次导入后更新的记录。

sqoop 中的选项文件有什么用处。

选项文件用于 sqoop，以在文件中指定命令行值并在 sqoop 命令中使用它。

例如，--connect 参数的值和 --user name 值可以存储在一个文件中，并在不同的 sqoop 命令中反复使用。

是否可以在运行已保存的作业时添加参数？

是的，我们可以在运行时使用 --exec 选项向已保存的作业添加参数

sqoop job --exec jobname -- -- newparameter

如何获取两个表连接的结果数据？

通过使用 --query 参数代替 --table 参数，我们可以指定一个 sql 查询。查询结果将被导入。

我们如何将要导入的数据切分为多个并行任务？

使用 --split-by 参数，我们指定列名，sqoop 将根据该列名将要导入的数据分成多个块以并行运行。

如何为提交自由格式查询导入时创建的 mapreduce 作业选择名称？

通过使用 --mapreduce-job-name 参数。以下是命令的示例。

sqoop import \
--connect jdbc:mysql://mysql.example.com/sqoop \
--username sqoop \
--password sqoop \
--query 'SELECT normcities.id, \
countries.country, \
normcities.city \
FROM normcities \
JOIN countries USING(country_id) \
WHERE $CONDITIONS' \
--split-by id \
--target-dir cities \
--mapreduce-job-name normcities

在使用 mapreduce 作业开始数据传输之前，sqoop 需要很长时间才能检索 –split-by 参数中提到的列的最小值和最大值。我们如何才能提高效率？

我们可以使用 --boundary –query 参数，在该参数中我们指定列的最小值和最大值，根据该值可以拆分成多个 mapreduce 任务。这样可以加快速度，因为首先执行 –boundary-query 参数内的查询，并且作业已准备好在执行主查询之前要创建多少个 mapreduce 任务的信息。

参数 sqoop.export.records.per.statement 和 sqoop.export.statements.per.transaction 之间有什么区别

参数"sqoop.export.records.per.statement"指定每个插入语句中将使用的记录数。

但参数"sqoop.export.statements.per.transaction"指定在事务期间可以并行处理多少个插入语句。

如何使用 sqoop 实现全有或全无加载？

使用 staging-table 选项，我们首先将数据加载到暂存表中，然后仅在暂存加载成功的情况下将其加载到最终目标表中。

如何在通过 Sqoop 加载暂存表之前清除暂存表中的数据？

通过指定 –clear-staging-table 选项，我们可以在加载暂存表之前清除暂存表。可以反复执行此操作，直到我们在暂存中获得正确的数据。

如何更新已导出的行？

参数 --update-key 可用于更新现有行。其中，使用逗号分隔的列列表来唯一标识一行。所有这些列都用于生成的 UPDATE 查询的 WHERE 子句中。所有其他表列都将用于查询的 SET 部分。

如何将导出的表与删除了某些行的 HDFS 数据同步？

截断目标表并再次加载。

如何使用 sqoop 将列的子集导出到关系表？

通过使用 –column 参数，我们将所需的列名称作为逗号分隔的值列表提及。

我们如何加载到关系表中不为空但来自 HDFS 的传入值为空的列？

通过使用 –input-null-string 参数，我们可以指定一个默认值，这样就可以将行插入到目标表中。

如何使用 Oozie 安排 sqoop 作业？

Oozie 具有内置的 sqoop 操作，我们可以在其中提及要执行的 sqoop 命令。

Sqoop 已成功将表导入 HBase，但发现行数少于预期。可能是什么原因？

一些导入的记录可能在所有列中都有空值。由于 Hbase 不允许一行中出现所有空值，因此这些行将被删除。

给出 sqoop 命令以显示 MySql 服务器中的所有数据库。

$ sqoop list-databases --connect jdbc:mysql://database.example.com/

Sqoop 中的自由格式导入是什么意思？

Sqoop 可以使用任何 SQL 查询从关系数据库导入数据，而不仅仅是使用表和列名参数。

如何强制 sqoop 仅执行一次自由格式的 Sql 查询并按顺序导入行。

通过在 import 命令中使用 –m 1 子句，sqoop 仅创建一个 mapreduce 任务，该任务将按顺序导入行。

在 sqoop import 命令中，您提到运行 8 个并行 Mapreduce 任务，但 sqoop 只运行 4 个。原因可能是什么？

Mapreduce 集群配置为运行 4 个并行任务。因此，sqoop 命令的并行任务数必须小于或等于 MapReduce 集群的并行任务数。

在 sqoop 中运行并行导入任务时，--split-by 子句的重要性是什么？

--split-by 子句提到了列名，根据该列的值，数据将分为记录组。这些记录组将由 mapreduce 任务并行读取。

这个 sqoop 命令实现了什么？

$ sqoop import --connnect <connect-str> --table foo --target-dir /dest \

它将数据从数据库导入到位于目录 /dest 中名为 foo 的 HDFS 文件

使用 –apend 参数将表导入已存在的 HDFS 目录时会发生什么？

使用 --append 参数，Sqoop 将数据导入临时目录，然后以不与该目录中现有文件名冲突的方式将文件重命名为正常目标目录。

如何控制 SQL 数据类型和 Java 类型之间的映射？

通过使用 --map-column-java 属性，我们可以配置映射之间。

下面是一个例子

$ sqoop import ... --map-column-java id = String, value = Integer

假设源具有每行的最后更新时间戳详细信息，如何使用 sqoop 将表中更新的行仅导入 HDFS？

通过使用 lastmodified 模式。导入检查列的时间戳比使用 --last-value 指定的时间戳更新的行。

sqoop 支持哪两种导入文件格式？

分隔文本和序列文件。

给出 sqoop 命令以从 MySql 表 Employee 导入列 employee_id、first_name、last_name

$ sqoop import --connect jdbc:mysql://host/dbname --table EMPLOYEES \
   --columns "employee_id,first_name,last_name"

给出一个 sqoop 命令，仅并行运行 8 个 mapreduce 任务

$ sqoop import --connect jdbc:mysql://host/dbname --table table_name\
-m 8

以下查询有什么作用？

$ sqoop import --connect jdbc:mysql://host/dbname --table EMPLOYEES \
--where "start_date > '2012-11-09'

它导入了 2012 年 11 月 9 日之后加入的员工。

给出一个 Sqoop命令从 employee 表导入所有记录，并根据列 Department_id 中的值将这些记录分成几组。

$ sqoop import --connect jdbc:mysql://db.foo.com/corp --table EMPLOYEES \
--split-by dept_id

以下查询有什么作用？

$ sqoop import --connect jdbc:mysql://db.foo.com/somedb --table sometable \
--where "id > 1000" --target-dir /incremental_dataset --append

在已经导入表的前 100,0 行后，执行新数据的增量导入

给出 sqoop 命令以从 MySql DB DB1 中的所有表导入数据。

sqoop import-all-tables --connect jdbc:mysql://host/DB1

给出命令以执行名为 proc1 的存储过程，该过程将数据从名为 DB1 的 MySQL 数据库导出到名为 Dir1 的 HDFS 目录。

$ sqoop export --connect jdbc:mysql://host/DB1 --call proc1 \
   --export-dir /Dir1

什么是 sqoop metastore？

它是 Sqoop 用来托管共享元数据存储库的工具。多个用户和/或远程用户可以定义和执行此元存储中定义的已保存作业（使用 sqoop 作业创建）。

必须将客户端配置为在 sqoop-site.xml 中或使用 --meta-connect 参数连接到元存储。

sqoop-merge 的用途是什么？

合并工具组合了两个数据集，其中一个数据集中的条目应覆盖旧数据集的条目，仅保留两个数据集之间记录的最新版本。

如何查看 sqoop 元存储中存储的作业列表？

sqoop 作业 –list

给出 sqoop 命令以查看名为 myjob 的作业的内容？

Sqoop job –show myjob

sqoop metastore 在哪个数据库上运行？

运行 sqoop-metastore 会在当前计算机上启动共享 HSQLDB 数据库实例。

metastore 数据库可以托管在哪里？

metastore 数据库可以托管在 Hadoop 集群内部或外部的任何地方。

Sqoop 教程

Sqoop 有用资源

Sqoop 问题与答案

颜色选择器

读后有收获微信请站长喝咖啡

错误报告

您的建议:

感谢您的帮助！