数据挖掘 - 评估
数据仓库
数据仓库具有以下特征来支持管理层的决策过程 −
面向主题 − 数据仓库是面向主题的,因为它为我们提供有关主题的信息,而不是组织正在进行的操作。 这些主体可以是产品、客户、供应商、销售、收入等。数据仓库不关注正在进行的操作,而是关注数据的建模和分析以供决策。
综合 − 数据仓库是通过集成来自异构源(例如关系数据库、平面文件等)的数据来构建的。这种集成增强了数据的有效分析。
时间变量 − 数据仓库中收集的数据以特定时间段进行标识。 数据仓库中的数据从历史角度提供信息。
非易失性 − 非易失性意味着当添加新数据时,以前的数据不会被删除。 数据仓库与操作数据库分开,因此操作数据库的频繁更改不会反映在数据仓库中。
数据仓库
数据仓库是构建和使用数据仓库的过程。 数据仓库是通过集成来自多个异构源的数据而构建的。 它支持分析报告、结构化和/或即席查询以及决策。
数据仓库涉及数据清理、数据集成和数据整合。 为了集成异构数据库,我们有以下两种方法 −
- 查询驱动方法
- 更新驱动方法
查询驱动方法
这是集成异构数据库的传统方法。 这种方法用于在多个异构数据库之上构建包装器和集成器。 这些集成器也称为中介器。
查询驱动方法的流程
当向客户端发出查询时,元数据字典会将查询转换为适合所涉及的各个异构站点的查询。
现在这些查询已映射并发送到本地查询处理器。
来自异构站点的结果被集成到全局答案集中。
缺点
这种方法有以下缺点 −
查询驱动方法需要复杂的集成和过滤过程。
对于频繁的查询来说,效率非常低,而且成本非常高。
这种方法对于需要聚合的查询来说成本高昂。
更新驱动方法
当今的数据仓库系统遵循更新驱动的方法,而不是前面讨论的传统方法。 在更新驱动的方法中,来自多个异构源的信息被预先集成并存储在仓库中。 这些信息可以直接查询和分析。
优点
这种方法有以下优点 −
这种方法提供了高性能。
数据可以预先在语义数据存储中进行复制、处理、集成、注解、汇总和重组。
查询处理不需要与本地源的处理接口。
从数据仓库(OLAP)到数据挖掘(OLAM)
在线分析挖掘将在线分析处理与多维数据库中的数据挖掘和挖掘知识相集成。这是显示 OLAP 和 OLAM 集成的图表 −
OLAM 的重要性
OLAM 之所以重要,原因如下 −
数据仓库中的高质量数据 − 数据挖掘工具需要处理集成的、一致的和清理的数据。 这些步骤在数据预处理中的成本非常高。 通过这种预处理构建的数据仓库是OLAP和数据挖掘高质量数据的宝贵来源。
围绕数据仓库的可用信息处理基础设施 − 信息处理基础设施是指多种异构数据库、Web访问和服务设施、报告和OLAP分析工具的访问、集成、合并和转换。
基于 OLAP 的探索性数据分析− 有效的数据挖掘需要探索性数据分析。 OLAM 提供了对各种数据子集和不同抽象级别进行数据挖掘的工具。
在线选择数据挖掘功能 − 将OLAP与多种数据挖掘功能和在线分析挖掘相集成,使用户可以灵活地选择所需的数据挖掘功能并动态地交换数据挖掘任务。