AWS Glue - 成本优化

AWS Glue 定价结构

AWS Glue 定价基于按需付费模式,这意味着您只需为使用的资源付费。AWS Glue 费用分为多个部分。费用根据您使用服务的方式而有所不同。

下面列出了一些影响 AWS Glue 定价的关键因素

数据处理单元 (DPU)

AWS Glue 中的数据处理单元 (DPU)是 CPU、内存和网络资源的组合。根据您在 ETL 作业执行期间使用的 DPU 数量向您收费。

运行 Glue ETL 作业的费用按秒计算,最短计费时间为 1 分钟。

AWS Glue 爬虫程序

爬虫程序会自动扫描您的数据以提取元数据并对 Glue 数据进行分类。Glue 爬虫程序按 DPU 小时计费,最短计费时间为 10 分钟。

AWS Glue 数据目录

Glue 数据目录根据目录中存储的对象(例如数据库、表和分区)数量计费。 AWS 为 Glue 数据目录提供每月 100 万个存储对象和 100 万个请求的免费套餐。

开发终端节点

开发终端节点允许您以交互方式创建和测试 ETL 脚本。其定价基于为开发终端节点分配的 DPU。

降低 AWS Glue 成本的技巧

AWS Glue 为用户提供了管理和处理数据的强大工具,但如果管理不当,成本可能会增加。

在本节中,我们重点介绍了一些降低 AWS Glue 成本的策略 −

优化数据处理单元 (DPU)

配置 AWS Glue 作业时,请尝试仅分配所需数量的 DPU。这是因为使用比必要更多的 DPU 会增加您的成本。

您应该使用 AWS CloudWatch 来监控 Glue 作业的资源使用情况。要管理成本,您可以根据实际内存和 CPU 消耗调整 DPU。

最小化爬虫程序运行

您可以将爬虫程序安排为仅在需要发现或编目新数据时运行,而不是连续运行它们。

您可以将爬虫程序限制在特定分区或文件夹中,而不是在整个数据集上运行。这将减少处理时间和成本。

明智地使用 Glue 数据目录

您可以将存储的对象数量保持在 100 万以下,从而仅使用 Glue 数据目录的免费套餐。

您应该定期检查 Glue 数据目录并删除过时或未使用的表和分区,以避免不必要的费用。

使用免费套餐进行开发端点服务

如前所述,开发端点按小时计费。因此,请尝试在不使用时终止它们。

优化 ETL 作业

您可以使用下推谓词在源头过滤数据,以减少 Glue 作业处理的数据量。

您应该使用数据分区策略来优化查询性能。

监控和分析成本

您应该使用 AWS Cost Explorer 来跟踪您的 Glue 使用情况。您还可以设置 账单警报,以便在您的 Glue 成本超过一定限制时通知您。