AWS Glue - 入门

为您的第一个作业设置 AWS Glue

按照下面给出的步骤为您的第一个作业设置 AWS Glue −

步骤 1:先决条件

您必须拥有 AWS 账户才能使用AWS Glue。您应该拥有 IAM 角色。它允许 AWS Glue 访问您在 Amazon S3、RDS 或任何其他数据源中的数据。

此外，您还应该将数据存储在 Amazon S3、RDS 或其他受支持的数据库中。

步骤 2:设置 AWS Glue 数据目录

首先，在 Glue 数据目录中创建一个数据库。接下来，您需要设置一个爬虫来扫描和分类您的数据源(例如 Amazon S3)。

爬虫的作用是自动检测数据类型并在您的 Glue 数据目录中创建元数据表。

步骤 3:在 AWS Glue 中创建新作业

将数据编入目录后，转到 AWS Glue 控制台 并选择作业。然后，单击 添加作业 以创建新的 ETL 作业。

接下来，您需要配置作业。使用以下选项配置 −

命名您的作业。
选择 Glue 将使用的 IAM 角色。
选择您的 ETL 脚本源(自动生成或自定义编写)。
定义 数据源(Amazon S3、RDS 等)和目标

这是可选的，但最好将转换或 过滤器 添加到您的作业脚本中。

步骤 4:运行您的 Glue 作业

完成设置后，查看作业设置并单击 运行作业。 AWS Glue 将根据定义的 ETL 脚本开始处理数据。

现在，您可以在 AWS Glue 控制台 的"作业"部分下监控作业的进度。

步骤 5:验证输出

要验证输出，请在作业完成后检查目标位置(例如 Amazon S3)。传输的数据应成功加载到那里。

创建 AWS Glue 爬虫程序和数据库

AWS Glue 的关键组件之一是 爬虫程序，它会自动发现新数据、识别其架构并相应地更新数据目录。以下是为您的数据创建 AWS Glue 爬虫程序和数据库的步骤。

步骤 1:设置您的 AWS Glue 数据库

在 AWS Glue 中创建爬虫程序之前，您需要设置一个数据库。此数据库将充当数据源元数据的容器。

按照以下步骤设置数据库 −

首先，登录 AWS Glue 控制台。
在左侧导航窗格中，单击数据目录部分下的数据库。
选择添加数据库并输入数据库的名称(例如，my-data-catalog)。
最后，单击创建按钮，您的数据库即可使用。

第 2 步:创建 AWS Glue 爬虫程序

首先，转到 AWS Glue 控制台并导航到爬虫程序部分。接下来，单击创建爬虫程序按钮。

现在，输入爬虫程序的名称(例如，my-data-crawler)。

您还需要定义数据源。这可以是 Amazon S3、DynamoDB 或存储数据的任何受支持的数据源。

接下来，在配置安全设置部分下，设置允许 AWS Glue 访问您的数据的IAM 角色。然后，指定您之前创建的目标数据库。爬虫程序将在此存储其发现的元数据。

您可以安排爬虫程序按需或定期运行，以使元数据保持最新。最后，检查您的设置并单击完成。

步骤 3:运行爬虫程序

设置爬虫程序后，首先返回 Glue 控制台中的"爬虫程序"部分并选择您新创建的爬虫程序。

接下来，单击运行爬虫程序以启动该过程。爬虫程序完成后，它将使用其发现的每个数据集的表和元数据填充 Glue 数据目录。

AWS Glue 教程

AWS Glue 资源

AWS Glue - 入门

为您的第一个作业设置 AWS Glue

步骤 1:先决条件

步骤 2:设置 AWS Glue 数据目录

步骤 3:在 AWS Glue 中创建新作业

步骤 4:运行您的 Glue 作业

步骤 5:验证输出

创建 AWS Glue 爬虫程序和数据库

步骤 1:设置您的 AWS Glue 数据库

第 2 步:创建 AWS Glue 爬虫程序

步骤 3:运行爬虫程序

颜色选择器

读后有收获微信请站长喝咖啡

错误报告

您的建议:

感谢您的帮助！