数据架构 - 数据提取方法

我们在此解释数据如何在数据架构中进入系统。它分解了公司如何从不同来源收集、处理和存储数据。无论您是数据管理新手还是希望扩展知识,本章都将帮助您了解如何在不同情况下管理数据。

目录

什么是数据采集?

数据采集是我们将数据带入系统以便存储和分析数据的方式。它包括ETL(提取、转换、加载)ELT(提取、加载、转换)等方法,以及一种称为反向 ETL的新方法。数据可以一次性处理(批量),也可以在数据进入时处理(实时),具体取决于业务需求。良好的数据管理可确保信息准确且易于访问。

为什么数据采集很重要?

数据采集对于帮助企业管理和使用数据非常重要。它可以组织数据,使其易于访问,并为分析做好准备,从而有助于做出更好的决策和顺利运营。这就是为什么它如此重要:

  • 更好的决策:它从不同的来源收集数据,为企业提供完整的视图以做出明智的选择。
  • 节省时间:它简化了数据收集过程,从而减少了手动工作并最大限度地减少了错误。
  • 快速洞察:它允许快速分析传入数据,帮助企业快速应对变化。
  • 与您一起成长:它可以随着业务的增长处理新的数据源和更大量的数据。
  • 保持数据清洁和安全:它确保数据在遵守规则的同时准确、一致和安全。

什么是 ETL?

ETL代表提取、转换、加载。这是一个从各种来源获取数据、进行修改和清理,然后将其存储在目标(例如数据仓库)中的过程。

请记住:ETL ="早期转换引领":这意味着数据转换发生在加载到最终目标之前。

ETL 的优势

现在,让我们看看 ETL 的好处

  • ETL 适用于更改更简单的较小数据集。
  • 由于数据在加载之前进行了清理,因此可以更好地控制数据质量。
  • 通过仅加载必要的已清理数据,可以提高数据安全性。
  • 对于关系数据库,它通常更有效率。

ETL 的缺点

以下是 ETL 的一些缺点:

  • 转换过程可能很慢,并且会占用大量资源,这可能会影响整体性能。
  • 如果出现错误,则必须从源重新提取数据,从而导致额外的延迟。
  • 传统的 ETL 工具可能难以处理大量数据。
  • 某些 ETL 工具可能不支持许多不同的数据类型。

什么是 ELT?

ELT 代表 提取、加载、转换。在此过程中,数据首先在不进行任何更改的情况下加载到目标系统中。加载后,数据将被转换。您还可以在提取过程中删除不必要的数据。

请记住:ELT ="每次加载都会转换"意味着数据仅在加载到系统后才会转换。

ELT 的优势

现在,让我们看看 ELT 的好处。

  • 适用于数据湖和大量无组织数据。
  • 允许在加载数据后对其进行更改。
  • 使用现代处理能力获得更好的性能。
  • 使用批处理更快地进行更改。
  • 适用于多种类型的数据和工具。

ELT 的缺点

本节重点介绍了使用 ELT 的挑战。

  • 需要更多存储空间,因为原始数据是保持。
  • 如果转换过程复杂,速度可能会更慢。
  • 如果原始数据管理不善,可能会导致数据质量问题。
  • 需要强大的系统才能有效处理大量数据负载。

ETL 与 ELT

提取-转换-加载 (ETL) 是将数据移入关系数据仓库的主要方式。最近,提取-加载-转换 (ELT) 变得越来越流行,尤其是对于数据湖而言。

ETLELT 都有各自的优势。ETL 有利于保持数据质量和安全性,尤其是对于较小的数据集而言。ELT 更灵活,更适合数据湖中较大的非结构化数据。

ETLELT 之间进行选择取决于您的特定数据需求。它不是简单的两者之一;目标是找到最适合您的数据处理的方法。

反向 ETL

反向 ETL 是指将数据从数据仓库移动到其他系统,以便数据可用于日常任务。传统上,数据仓库中的数据主要用于分析和规划。现在,许多公司还将这些数据用于运营分析和日常运营。

例如,可以在数据仓库中清理客户数据,然后将其发送到 Salesforce 等系统。这样可以确保所有团队都能访问相同的信息,从而更容易识别可能面临离开风险的客户。

在数据仓库中,公司创建关键指标以更好地了解其客户,例如:

  • 终身价值:在一段时间内预期从客户那里获得的总利润。
  • 产品合格线索:对产品表现出兴趣的潜在客户。
  • 倾向得分:客户购买的机会。

这些指标有助于决策。通过使用反向 ETL,企业可以实时提供个性化体验,提高客户满意度并改善整体结果。

批处理与实时处理

提取、转换、加载 (ETL)提取、加载、转换 (ETL)中,有两个主要选项用于确定何时以及多久提取一次数据:批处理实时处理。下面将详细介绍每个选项。

批处理

批处理是一种一次性处理大量数据的方法。在这种方法中,来自源系统的类似事务被分组在一起或"批处理",并定期(例如每天或每月)进行处理。然后,系统运行一项作业,将整个批次复制到目的地,例如数据湖或仓库。这通常发生在非高峰时段,这意味着系统用户较少的时间,这使得管理起来更容易,而不会减慢速度。

例如,您的电费是按月处理的,公用事业公司会收集您的使用数据并在月底生成账单。

实时处理

实时处理意味着在数据到达时对其进行处理,以便您立即获得见解。当有新信息可用时,它会启动一个过程,快速将数据发送到需要去的地方。

例如,银行可以立即提醒客户有关可疑交易的信息,以帮助防止欺诈。同样,像 Waze 这样的交通应用使用实时数据来更新交通状况并建议最佳路线。

实时处理可立即更新目标系统,确保报告和查询显示最新信息。这有助于企业快速发现需要立即关注的问题。

虽然传统数据仓库主要使用批处理,但实时处理现在更为常见,尤其是在每秒能够处理数百万个事件的数据湖中。每种方法在数据仓库中都有自己的优势和挑战。

批处理的优缺点

批处理可一次处理大量数据,效率高但访问数据的速度较慢。以下是一些优点和缺点。

批处理的优点

这些要点说明了为什么批处理是高效处理大量数据且不会对系统造成太大影响的良好选择。

  • 效率:同时处理多个项目,比逐个处理更快。
  • 计划任务:在非高峰时段运行,以避免扰乱正常工作。
  • 风险较低:如果出现问题,可以轻松重试。

批处理的缺点

这些要点强调了为什么在需要快速数据访问时批处理可能不是一个好的选择,导致获取信息的延迟。

  • 数据可用性延迟:由于数据是分组处理的,因此需要一些时间才能准备好。
  • 资源利用不足:如果管理不善,可能会浪费资源。
  • 非实时:不适合需要立即更新的应用程序。

实时处理的优缺点

实时处理可使数据始终保持更新,以便快速获得见解。它为您提供及时的信息,但需要更多资源。以下是其优缺点。

实时处理的优点

这些优点说明了为什么实时处理对于需要快速、可靠信息来做出决策的企业来说非常重要。

  • 即时洞察:提供最新信息,帮助企业快速做出决策。
  • 持续更新:非常适合需要不断更新数据的系统。
  • 灵活性:轻松适应不断变化的业务需求。

实时处理的缺点

这些缺点解释了为什么实时处理对于企业来说具有挑战性,因为它需要更多资源,并可能导致更高的成本。

  • 更高的资源需求:持续使用更多系统资源。
  • 故障风险增加:系统发生故障的可能性更高,这会使修复错误变得更加复杂。
  • 数据一致性挑战:在不断更新的情况下保持数据一致性可能很困难。
  • 成本更高:由于持续运营,成本更高。

在批处理和实时处理之间进行选择

批处理实时处理之间进行选择时,请考虑您的数据类型、处理需求以及您可以处理的延迟量。 批处理适用于可以稍等片刻的系统,而实时处理最适合需要立即访问的情况。

数据治理

数据治理是关于组织中数据的管理。它为数据的收集、存储、保护、转换和报告方式制定规则。它确保公司遵守法律并检查数据是否准确且质量良好。这意味着确保数据得到正确清理和更改。

良好的治理框架定义了谁负责管理和使用数据。实现此目的的一种方法是创建数据治理卓越中心 (CoE)。此CoE有助于制定政策和标准,并明确数据活动的角色和决策。

在开始数据仓库项目之前,花时间创建数据治理框架并构建 CoE 非常重要。许多项目失败是因为他们对数据治理不够重视。