AWS Glue - 入门

为您的第一个作业设置 AWS Glue

按照下面给出的步骤为您的第一个作业设置 AWS Glue −

步骤 1:先决条件

您必须拥有 AWS 账户才能使用AWS Glue。您应该拥有 IAM 角色。它允许 AWS Glue 访问您在 Amazon S3、RDS 或任何其他数据源中的数据。

此外,您还应该将数据存储在 Amazon S3、RDS 或其他受支持的数据库中。

步骤 2:设置 AWS Glue 数据目录

首先,在 Glue 数据目录中创建一个数据库。接下来,您需要设置一个爬虫来扫描和分类您的数据源(例如 Amazon S3)。

爬虫的作用是自动检测数据类型并在您的 Glue 数据目录中创建元数据表。

步骤 3:在 AWS Glue 中创建新作业

将数据编入目录后,转到 AWS Glue 控制台 并选择 作业。然后,单击 添加作业 以创建新的 ETL 作业。

接下来,您需要配置作业。使用以下选项配置 −

  • 命名您的作业。
  • 选择 Glue 将使用的 IAM 角色
  • 选择您的 ETL 脚本源(自动生成或自定义编写)。
  • 定义 数据源(Amazon S3、RDS 等)和 目标

这是可选的,但最好将 转换过滤器 添加到您的作业脚本中。

步骤 4:运行您的 Glue 作业

完成设置后,查看作业设置并单击 运行作业。 AWS Glue 将根据定义的 ETL 脚本开始处理数据。

现在,您可以在 AWS Glue 控制台 的"作业"部分下监控作业的进度。

步骤 5:验证输出

要验证输出,请在作业完成后检查目标位置(例如 Amazon S3)。传输的数据应成功加载到那里。

创建 AWS Glue 爬虫程序和数据库

AWS Glue 的关键组件之一是 爬虫程序,它会自动发现新数据、识别其架构并相应地更新数据目录。以下是为您的数据创建 AWS Glue 爬虫程序和数据库的步骤。

步骤 1:设置您的 AWS Glue 数据库

在 AWS Glue 中创建爬虫程序之前,您需要设置一个数据库。此数据库将充当数据源元数据的容器。

按照以下步骤设置数据库 −

  • 首先,登录 AWS Glue 控制台。
  • 在左侧导航窗格中,单击数据目录部分下的数据库
  • 选择添加数据库并输入数据库的名称(例如,my-data-catalog)。
  • 最后,单击创建按钮,您的数据库即可使用。
设置您的 AWS Glue 数据库

第 2 步:创建 AWS Glue 爬虫程序

首先,转到 AWS Glue 控制台并导航到爬虫程序部分。接下来,单击创建爬虫程序按钮。

创建 AWS Glue 爬虫程序

现在,输入爬虫程序的名称(例如,my-data-crawler)。

创建 AWS Glue 爬虫程序

您还需要定义数据源。这可以是 Amazon S3、DynamoDB 或存储数据的任何受支持的数据源。

接下来,在配置安全设置部分下,设置允许 AWS Glue 访问您的数据的IAM 角色。然后,指定您之前创建的目标数据库。爬虫程序将在此存储其发现的元数据。

您可以安排爬虫程序按需或定期运行,以使元数据保持最新。最后,检查您的设置并单击完成

步骤 3:运行爬虫程序

设置爬虫程序后,首先返回 Glue 控制台中的"爬虫程序"部分并选择您新创建的爬虫程序。

接下来,单击运行爬虫程序以启动该过程。爬虫程序完成后,它将使用其发现的每个数据集的表和元数据填充 Glue 数据目录。