AWS Glue - 爬虫

我们在 AWS Glue 中定义的 ETL 作业使用数据目录表作为源和目标。这些数据目录表应始终更新。

AWS Glue 中爬虫的作用是自动发现新数据、识别其模式并相应地更新数据目录。它们通过自动发现和编目数据来确保元数据始终是最新的。

爬虫如何自动进行数据发现和编目?

AWS Glue 爬虫为我们提供了一种自动进行数据发现和编目的有效方法。通过扫描数据源、识别模式、生成元数据并将其组织在 Glue 数据目录中，它们消除了手动数据管理的需要。这种自动化有助于企业确保其数据始终可用且最新以供分析。

让我们看看爬虫如何自动进行数据发现和编目 −

创建和配置 AWS 爬虫程序后，它们首先识别数据格式。它们足够智能，可以识别各种数据格式，例如 JSON、CSV、Avro、Parquet 和 ORC。爬虫程序检查定义的数据源中文件的格式和结构，以对数据类型、模式和表进行分类。

识别数据格式后，爬虫程序会为每个表和数据集生成元数据。此元数据包括有关模式的信息，例如列名、数据类型和表之间的关系。

生成元数据后，爬虫程序会通过将模式信息存储在 Glue 数据目录中来自动对数据进行分类。数据目录将元数据组织成数据库和表，其他 AWS 服务(例如 Athena、Redshift 和 SageMaker)可以访问这些数据库和表以进行分析和机器学习。

我们还可以安排爬虫程序定期自动运行。这可确保无需人工干预即可持续发现和编目新数据或更新数据。它允许企业保持其数据目录最新并随时可供分析。

AWS 爬虫程序可自动进行数据发现和编目。爬虫程序生成的元数据对于设置 AWS Glue 作业以转换数据非常重要。编目后，可以使用 Glue 的 ETL 功能清理、丰富和转换数据。