数据挖掘 - 术语

数据挖掘

数据挖掘的定义是从大量数据中提取信息。 换句话说,我们可以说数据挖掘就是从数据中挖掘知识。 此信息可用于以下任何应用程序 −

  • 市场分析
  • 欺诈检测
  • 保留客户
  • 生产控制
  • 科学探索

数据挖掘引擎

数据挖掘引擎对于数据挖掘系统来说是非常重要的。 它由一组功能模块组成,执行以下功能 −

  • 特征描述
  • 关联和相关分析
  • 分类
  • 预测
  • 聚类分析
  • 异常值分析
  • 演化分析

知识库

这是领域知识。 这些知识用于指导搜索或评估结果模式的趣味性。

知识发现

有些人将数据挖掘视为知识发现,而另一些人则将数据挖掘视为知识发现过程中的重要步骤。 以下是知识发现过程中涉及的步骤列表 −

  • 数据清理
  • 数据集成
  • 数据选择
  • 数据转换
  • 数据挖掘
  • 模式评估
  • 知识演示

用户界面

用户界面是数据挖掘系统的模块,帮助用户和数据挖掘系统之间进行通信。 用户界面允许以下功能 −

  • 通过指定数据挖掘查询任务与系统交互。
  • 提供有助于集中搜索的信息。
  • 基于中间数据挖掘结果进行挖掘。
  • 浏览数据库和数据仓库架构或数据结构。
  • 评估挖掘的模式。
  • 以不同的形式可视化图案。

数据集成

数据集成是一种数据预处理技术,它将来自多个异构数据源的数据合并到一个一致的数据存储中。 数据集成可能会涉及到不一致的数据,因此需要进行数据清洗。

数据清理

数据清洗是一种用于去除噪声数据并纠正数据不一致的技术。 数据清理涉及到纠正错误数据的转换。 数据清理是在为数据仓库准备数据时作为数据预处理步骤执行的。

数据选择

数据选择是从数据库中检索与分析任务相关的数据的过程。 有时,数据转换和整合是在数据选择过程之前执行的。

集群

簇是指一组相似类型的对象。 聚类分析是指将彼此非常相似但与其他聚类中的对象差异较大的对象形成一组。

数据转换

在此步骤中,通过执行汇总或聚合操作,将数据转换或合并为适合挖掘的形式。