AWS Glue - 爬虫
我们在 AWS Glue 中定义的 ETL 作业使用数据目录表作为源和目标。这些数据目录表应始终更新。
AWS Glue 中爬虫的作用是自动发现新数据、识别其模式并相应地更新数据目录。它们通过自动发现和编目数据来确保元数据始终是最新的。
爬虫如何自动进行数据发现和编目?
AWS Glue 爬虫为我们提供了一种自动进行数据发现和编目的有效方法。通过扫描数据源、识别模式、生成元数据并将其组织在 Glue 数据目录中,它们消除了手动数据管理的需要。这种自动化有助于企业确保其数据始终可用且最新以供分析。
让我们看看爬虫如何自动进行数据发现和编目 −
1.数据格式识别
创建和配置 AWS 爬虫程序后,它们首先识别数据格式。它们足够智能,可以识别各种数据格式,例如 JSON、CSV、Avro、Parquet 和 ORC。爬虫程序检查定义的数据源中文件的格式和结构,以对数据类型、模式和表进行分类。
2. 生成元数据
识别数据格式后,爬虫程序会为每个表和数据集生成元数据。此元数据包括有关模式的信息,例如列名、数据类型和表之间的关系。
3. 对数据进行分类
生成元数据后,爬虫程序会通过将模式信息存储在 Glue 数据目录中来自动对数据进行分类。数据目录将元数据组织成数据库和表,其他 AWS 服务(例如 Athena、Redshift 和 SageMaker)可以访问这些数据库和表以进行分析和机器学习。
4.自动调度
我们还可以安排爬虫程序定期自动运行。这可确保无需人工干预即可持续发现和编目新数据或更新数据。它允许企业保持其数据目录最新并随时可供分析。
5. 数据转换
AWS 爬虫程序可自动进行数据发现和编目。爬虫程序生成的元数据对于设置 AWS Glue 作业以转换数据非常重要。编目后,可以使用 Glue 的 ETL 功能清理、丰富和转换数据。