AWS Glue - 数据目录
什么是数据目录?
AWS Glue 数据目录是一个中央存储库,用于存储有关数据的元数据信息。简单来说,数据目录就像一个数据字典,它保存了数据结构、数据位置以及如何使用查询访问数据等详细信息。这些元数据信息对于管理和组织大量数据非常重要。
您可以将数据存储在 Amazon S3、Redshift 或 AWS 中的任何其他位置。AWS Glue 数据目录的主要作用是集中管理数据并使其可供分析。
数据目录的主要功能
下面列出了 AWS Glue 数据目录的一些主要功能 −
- 自动数据检测 − AWS Glue 爬虫会扫描您的数据源、识别架构并自动编目元数据。此数据存储在 AWS Glue 数据目录中。
- 集中式元数据管理 − 数据目录的主要功能之一是它将所有元数据集中在一个地方。这就是用户无需手动定义数据的原因。它还使管理大型数据环境变得更加容易。
- 与 AWS 服务集成 − AWS Glue 数据目录可以轻松与 Amazon Athena、Redshift 和 SageMaker 等 AWS 服务集成。此集成允许用户运行查询或构建 ML 模型,而无需手动处理数据。
如何使用 AWS Glue 数据目录?
使用 AWS Glue 数据目录非常简单。首先,您需要创建一个数据库来存储数据集的元数据。我们在上一节中讨论了创建数据库的方法。
有了数据库后,您需要创建一个 AWS Glue Crawler,它将自动扫描您的源。爬虫程序识别数据结构并使用元数据(如表名、列和数据类型)更新数据目录。然后可以使用 Amazon Athena 等工具查询此元数据。
使用 Glue 数据目录管理元数据
您拥有可用于查询的元数据,但有效管理此元数据对于处理大量数据的组织非常重要。在学习管理元数据的方法之前,了解此元数据非常重要。
了解元数据
元数据是关于数据的数据。它提供以下重要信息,例如 −
- Schema − 它代表数据集的结构。它包括表、列和数据类型。
- 位置 − 顾名思义,它是存储数据的 AWS 位置。它可以是 Amazon S3 存储桶或 Amazon Redshift 等数据库。
- 描述 − 它提供了一些有关数据的其他信息。它可能包括其用途和来源。
管理元数据的方法
以下是一些可帮助您管理元数据的方法 −
1. 手动编辑元数据
虽然 AWS 爬虫自动检测数据就足够了,但您也可以手动编辑数据。要手动编辑元数据,首先找到数据目录中列出的数据库和表。现在您可以单击要编辑的特定表。您可以编辑其属性、列和数据类型。
2.使用标签编辑元数据
标签有助于更有效地组织和管理元数据。您可以使用键值对标记数据库和表,以便轻松对其进行分类。
标签还可以增强元数据的可搜索性,从而进一步简化在大型集合中查找特定数据集的过程。