数据架构 - 数据湖

本章介绍数据湖是什么、其用途以及它与传统数据存储系统的区别。我们将介绍基本概念以及组织选择采用数据湖的原因。

什么是数据湖?

数据湖是一种以原始形式保存大量原始数据的存储系统。它可以存储不同类型的数据，例如结构化、半结构化和非结构化数据。与组织和处理数据的数据仓库不同，数据湖需要对数据进行清理、连接和聚合，以使其有用，需要处理能力来管理和分析数据。

数据湖的主要功能包括。

以原始格式存储数据
支持所有数据类型
使用读取模式方法
高可扩展性和灵活性
允许高级分析和机器学习

为什么使用数据湖?

使用数据湖具有多种优势，尤其是与传统数据仓库 (DW) 一起使用时。其中一些好处包括。

快速数据存储:无需任何设置即可快速存储数据，让数据分析师和数据科学家等熟练用户更快地访问数据。这种快速访问可帮助他们生成报告并更有效地训练机器学习模型。
节省成本:与数据仓库相比，数据湖通常提供更便宜的计算选项。
高效调查:如果用户需要源数据，可以快速将其复制到数据湖进行快速审查，然后再在数据仓库中创建结构。
高性能:多个计算选项可以同时处理数据，从而提高性能。
灵活性:数据湖允许使用不同的方法进行更复杂的数据修改，这与数据仓库中 SQL 的限制不同。
无维护窗口:数据湖提供对数据仓库的 24/7 持续访问，最大限度地减少用户与繁重数据处理任务之间的冲突。

数据湖的关键组件

这些组件协同工作，帮助有效地存储和管理数据。每一层对于获取数据、保证数据安全、处理数据和使数据可访问都很重要，这样用户就可以轻松获得见解并做出明智的决策。

数据提取层:这是数据进入数据湖的方式。数据可以来自不同的来源，例如数据库、应用程序或传感器。它包括用于批量提取、实时流式传输和更改数据捕获的工具。
存储层:这是存储数据的"数据湖"。它通常建立在 Hadoop 分布式文件系统 (HDFS) 或 Amazon S3 等云存储系统上。
元数据管理层:此层跟踪有关数据湖中数据的重要详细信息，例如数据来自何处、格式以及与其他数据的关系。它可以帮助用户更好地查找和理解数据。
数据处理层:此层清理、转换和分析数据。这里使用 Apache Spark 和 Flink 等常用工具来支持批处理和实时处理。
数据访问层:此层允许用户和应用程序从数据湖中检索数据。它包括 SQL 查询引擎、数据可视化工具和 API，可促进高效的数据访问。
安全性:此层保护数据隐私并确保组织遵守法规。它包括访问控制以管理谁可以查看数据、加密以保护敏感信息以及审计功能以监控数据使用情况。
数据治理层:此层专注于管理数据质量和安全性。它包括用于保持数据准确性、管理元数据和控制谁可以访问数据的工具，使一切井然有序并遵守规则。
数据工作流和监控层:此层管理数据流并检查系统性能。它确保所有流程顺利运行，并有助于快速查找和修复任何问题。

数据湖架构中的自下而上方法

数据湖中的自下而上的方法允许用户快速轻松地开始处理数据，而无需大量的初始规划。当您不确定要问什么问题时，这种方法非常适合查看数据。下面是它的工作原理。

探索数据:用户可以从浏览数据开始，而无需考虑具体问题。这种探索有助于他们找到他们可能不会注意到的宝贵见解。
预测分析:一旦确定了模式，数据科学家就可以使用机器学习来分析历史数据并预测未来事件。
规范分析:更进一步，这种方法根据这些预测提出建议。例如，它可以推荐物流中的最佳交付路线或降低风险的方法。
更广泛的应用:数据湖最初主要用于预测和规范分析，但现在它们对许多类型的分析都很有价值。这使得它们对各个领域的组织都很有用。
数据建模:如果用户在探索过程中发现有用的数据，他们可以稍后组织并将其传输到关系数据仓库，以便于访问。数据建模有助于阐明数据之间的关系以及应如何排列。

自下而上的方法允许用户更自由地与数据交互，从而获得新的见解并改进决策。

多个数据湖

为所有数据创建一个大型数据湖似乎是最好的方法，这样可以更轻松地查找和组合信息。但是，拥有多个独立数据湖有诸多好处。

多个数据湖的优势

组织需求:不同的团队可能需要为特定项目建立自己的数据湖，帮助他们更好地管理数据。
合规性和安全性:规则通常要求将敏感数据分开。多个数据湖有助于确保机密信息的安全并遵守法规。
云管理:拥有多个数据湖可以帮助您保持在云存储限制之内。每个数据湖都可以有自己的规则，从而更容易遵循公司准则并跟踪成本。
性能和可用性:将数据湖放置在离您更近的地方可以加快访问速度。如果一个数据湖出现问题，您可以快速切换到另一个数据湖，而不会丢失数据访问权限。
数据保留管理:不同的数据湖可以有自己的数据保留时间规则，确保您在高效使用存储的同时满足法律要求。

多个数据湖的缺点

虽然有明显的好处，但管理多个数据湖可能更加复杂且成本更高。它可能需要额外的资源和技能。在数据湖之间移动数据也很困难，特别是如果它们相距很远，这会减慢访问报告所需信息的速度。

数据湖架构与传统存储系统有何不同?

数据湖架构在几个方面与传统存储系统不同。数据湖可以保存各种格式的原始数据，而传统系统需要先对数据进行结构化。这意味着它们可以存储所有类型的数据，包括结构化、半结构化和非结构化数据，从而使其更加灵活。数据湖也更易于扩展，无需高成本即可管理大量数据。用户无需太多准备即可快速访问和分析数据。总体而言，数据湖为当今的数据需求提供了更大的灵活性和效率。

数据湖设计的最佳实践

有效设计数据湖对于其成功至关重要。以下是一些需要牢记的关键做法。

仔细规划:花时间确定您当前使用和将来可能使用的所有数据源。了解数据的类型、大小和速度。现在的良好设计可以为您节省以后昂贵的更改费用。
分层组织:将数据湖分为几层，以提高数据质量和可管理性。每一层都有特定的角色，从原始数据到精炼信息:
- 原始层:将未处理的数据保留为原始形式并存储历史记录。
- 一致层:对齐所有数据格式(如更改为 Parquet)以保持一致性。
- 清理层:通过清理数据并将其组合成可用的数据集来改进数据。
- 表示层:应用业务逻辑来准备数据以进行分析，使其易于理解。
- 沙盒层(可选):数据科学家自由实验和分析数据的空间。
创建文件夹结构:为每个层设置清晰的文件夹结构。这种组织方式让用户能够轻松找到数据，并提高安全性和性能。
注重治理:实施数据治理实践，以保持数据质量并确保一切都遵循规则。这有助于防止"数据沼泽"，即数据变得杂乱无章且难以管理。
使用多功能应用程序:数据湖可以处理多种类型的分析。它们从预测性和规范性分析开始，但现在支持不同行业的各种分析。
促进数据建模:当用户找到有用的数据时，他们可以组织它，然后将其移动到关系数据仓库。数据建模有助于显示数据的关联和组织方式，使其更易于访问和使用。

数据湖的实际用例

数据湖以不同的方式帮助企业。

客户 360:汇集所有客户数据以更好地了解他们的需求。
物联网分析:分析来自连接设备的数据以改进产品和服务。
风险分析:使用过去的数据来识别和管理潜在风险。
个性化:定制产品或服务以适应每个客户的喜好。

数据湖的未来趋势

以下是数据管理的一些新方向。

数据网格:一种跨数据管理的去中心化方法组织。
自动化数据质量:使用技术自动检测和修复数据问题。
实时分析:从实时数据流中提供即时见解。
多云数据湖:跨不同的云服务存储数据，以实现更大的灵活性和可靠性。

数据架构教程

有用资源