数据仓库 - 流程管理器
流程管理器负责维护数据仓库进出的数据流。 流程管理器分为三种不同类型 −
- 负载管理器
- 仓库管理器
- 查询管理器
数据仓库负载管理器
加载管理器执行将数据提取并加载到数据库中所需的操作。 负载管理器的大小和复杂性因不同数据仓库的特定解决方案而异。
负载管理器架构
负载管理器执行以下功能 −
从源系统中提取数据。
将提取的数据快速加载到临时数据存储中。
执行简单的转换,形成与数据仓库中类似的结构。
从源中提取数据
数据是从操作数据库或外部信息提供者中提取的。 网关是用于提取数据的应用程序。 它由底层 DBMS 支持,并允许客户端程序生成要在服务器上执行的 SQL。 开放数据库连接 (ODBC) 和 Java 数据库连接 (JDBC) 是网关的示例。
快速载入
为了最小化总加载窗口,需要在尽可能快的时间内将数据加载到仓库中。
转换会影响数据处理的速度。
在应用转换和检查之前将数据加载到关系数据库中会更有效。
网关技术不适合,因为在涉及大量数据时效率低下。
简单转换
加载时,可能需要执行简单的转换。 完成简单的转换后,我们可以进行复杂的检查。 假设我们正在加载EPOS销售交易,我们需要执行以下检查 −
- 删除仓库中不需要的所有列。
- 将所有值转换为所需的数据类型。
仓库管理
仓库管理负责仓库管理流程。 它由第三方系统软件、C程序和shell脚本组成。 仓库管理的规模和复杂性因特定解决方案而异。
仓库管理架构
仓库管理器包括以下内容 −
- 控制过程
- 存储过程或带有 SQL 的 C
- 备份/恢复工具
- SQL 脚本
仓库管理的功能
仓库管理执行以下职能 −
分析数据以执行一致性和引用完整性检查。
根据基础数据创建索引、业务视图、分区视图。
生成新聚合并更新现有聚合。
生成标准化。
将临时存储的源数据转换并合并到已发布的数据仓库中。
备份数据仓库中的数据。
归档已达到捕获寿命终点的数据。
注意 − 仓库管理员分析查询配置文件以确定索引和聚合是否合适。
查询管理器
查询管理器负责将查询定向到合适的表。 通过将查询定向到适当的表,它可以加快查询请求和响应过程。 此外,查询管理器还负责调度用户发布的查询的执行。
查询管理器架构
查询管理器包括以下组件 −
- 通过 C 工具或 RDBMS 进行查询重定向
- 存储过程
- 查询管理工具
- 通过 C 工具或 RDBMS 进行查询调度
- 通过第三方软件进行查询调度
查询管理器的功能
它以用户理解的形式向用户呈现数据。
它安排最终用户发布的查询的执行。
它存储查询配置文件,以允许仓库管理器确定哪些索引和聚合是合适的。