AWS Glue - 简介

AWS Glue 是 Amazon Web Services (AWS) 提供的完全托管的无服务器数据集成云服务。它旨在帮助用户准备和转换数据以进行分析、机器学习和应用程序开发。借助 AWS Glue，您可以连接 70 多个不同的数据源并在集中式数据目录中管理数据。

作为无服务器数据集成服务，AWS Glue 可自动执行与 ETL(提取、转换、加载)流程相关的大部分工作。它简化了各种来源和目的地之间的数据提取、清理、丰富和移动。

AWS Glue 还可以非常轻松地与其他 AWS 服务(如 Amazon S3、RDS、Redshift 和 Athena)集成。此功能使其成为想要构建数据湖或数据仓库的组织的完美选择。

AWS Glue 的关键组件

AWS Glue 的关键组件如下所述 −

Glue 数据目录是一个中央存储库，用于存储有关数据的元数据信息。它会自动扫描和组织数据，以便用户可以轻松搜索、查询和管理数据集。它还可以与 Redshift 和 Athena 等 AWS 工具很好地连接，使用户能够顺利访问数据。

我们在 AWS Glue 中定义的 ETL 作业使用数据目录表作为源和目标。这些数据目录表应始终更新。

AWS Glue 中爬虫的作用是自动发现新数据、识别其模式并相应地更新数据目录。它们确保元数据始终是最新的。

Glue 作业用于定义和管理 ETL 工作流。它们提取数据，使用 Apache Spark 对其进行转换，并将其加载到目标系统中。您可以按需运行作业，也可以安排它们以指定的间隔运行。Glue 作业是数据转换过程的核心。

借助触发器，用户可以根据时间表或特定事件自动执行作业。使用触发器有助于自动执行重复任务或构建复杂的数据管道。

AWS Glue 使用 Jupyter Notebooks 提供 IDE(交互式开发环境)。您可以以交互方式运行查询、分析数据和开发 Glue 作业。

顾名思义，Glue Studio 是一个可视化界面，用于创建、运行和监控 ETL 工作流，无需编写代码。它对于非技术用户或不熟悉 Apache Spark 的用户很有用。

我们可以将 AWS Glue 的重要功能分为以下三类 −

AWS Glue 使您能够以结构化的方式组织元数据，以便您可以轻松地在一个地方存储、搜索和管理所有数据。

AWS Glue 爬虫会自动发现数据并将其集成到您的数据目录中。它会验证并控制对数据库和表的访问。

您可以在 Glue 工作室中定义 ETL 流程，它会自动为该流程生成代码。AWS Glue 的 作业笔记本 提供需要最少设置的无服务器笔记本。使用这些笔记本，您可以快速开始处理项目。

AWS Glue 具有 敏感数据检测 功能，可让您定义、识别和处理数据湖和管道中的敏感数据。 AWS Glue 允许用户以交互方式探索并准备数据。

您可以使用爬虫或带有基于事件的触发器的 AWS Glue 作业来自动执行作业。它允许您使用您选择的引擎、Apache Spark 或 Ray 来运行作业。

您可以组织和管理不同爬虫、作业和触发器的 ETL 流程和集成活动。