数据挖掘 - 任务

数据挖掘涉及可以挖掘的模式类型。 根据要挖掘的数据类型,数据挖掘涉及两类功能 −

  • 描述性
  • 分类和预测

描述性函数

描述性函数处理数据库中数据的一般属性。 这是描述性函数的列表 −

  • 类/概念描述
  • 挖掘频繁模式
  • 关联挖掘
  • 相关性挖掘
  • 集群挖掘

类/概念描述

类/概念是指与类或概念关联的数据。 例如,在一家公司中,销售的商品类别包括计算机和打印机,客户的概念包括大额支出者和预算支出者。 这种对类或概念的描述称为类/概念描述。 这些描述可以通过以下两种方式得出 −

  • 数据表征 − 这是指对正在学习的班级的数据进行汇总。 正在研究的这个类称为目标类。

  • 数据区分 − 它指的是一个类与某个预定义的组或类的映射或分类。

频繁模式挖掘

频繁模式是那些在事务数据中频繁出现的模式。 这是常见模式的列表 −

  • 频繁项集 − 它指的是一组经常一起出现的物品,例如牛奶和面包。

  • 频繁子序列 − 存储卡是一系列经常出现的模式,例如购买相机。

  • 频繁子结构 − 子结构是指可以与项集或子序列组合的不同结构形式,例如图、树或格。

关联挖掘

零售销售中使用关联来识别经常一起购买的模式。 这个过程是指揭示数据之间的关系并确定关联规则的过程。

例如,零售商生成一条关联规则,显示 70% 的时间牛奶与面包一起出售,而只有 30% 的时间饼干与面包一起出售。

相关性挖掘

这是一种附加分析,旨在发现关联属性值对之间或两个项目集之间有趣的统计相关性,以分析它们是否对彼此有积极、消极或没有影响。

集群挖矿

簇是指一组相似类型的对象。 聚类分析是指将彼此非常相似但与其他聚类中的对象差异较大的对象形成一组。

分类和预测

分类是寻找描述数据类或概念的模型的过程。 目的是能够使用该模型来预测类别标签未知的对象的类别。 该派生模型基于对训练数据集的分析。 导出的模型可以用以下形式表示 −

  • 分类(IF-THEN)规则
  • 决策树
  • 数学公式
  • 神经网络

这些过程涉及到的函数列表如下 −

  • 分类 − 它预测类标签未知的对象的类。 其目标是找到一个描述和区分数据类或概念的派生模型。 派生模型基于训练数据的分析集,即类标签已知的数据对象。

  • 预测 − 它用于预测丢失或不可用的数值数据值而不是类标签。 回归分析通常用于预测。 预测还可用于根据可用数据识别分布趋势。

  • 异常值分析 − 异常值可以定义为不符合可用数据的一般行为或模型的数据对象。

  • 进化分析 − 演化分析是指对行为随时间变化的对象的规律或趋势进行描述和模型。

数据挖掘任务原语

  • 我们可以以数据挖掘查询的形式指定数据挖掘任务。
  • 该查询被输入到系统中。
  • 数据挖掘查询是根据数据挖掘任务原语定义的。

注意 − 这些原语使我们能够以交互方式与数据挖掘系统进行通信。 这是数据挖掘任务原语的列表 −

  • 要挖掘的任务相关数据集。
  • 需要挖掘的知识类型。
  • 发现过程中要使用的背景知识。
  • 兴趣度衡量标准和模式评估阈值。
  • 用于可视化发现的模式的表示。

要挖掘的任务相关数据集

这是用户感兴趣的数据库部分。 这部分包括以下内容 −

  • 数据库属性
  • 感兴趣的数据仓库维度

要挖掘的知识类型

它指的是要执行的功能类型。 这些功能是 −

  • 特征描述
  • 区分
  • 关联和相关分析
  • 分类
  • 预测
  • 聚类
  • 异常值分析
  • 演化分析

背景知识

背景知识允许在多个抽象级别上挖掘数据。 例如,概念层次结构是允许在多个抽象级别挖掘数据的背景知识之一。

模式评估的兴趣度度量和阈值

这用于评估知识发现过程中发现的模式。 对于不同类型的知识有不同的有趣的衡量标准。

用于可视化发现的模式的表示

这是指显示发现的模式的形式。 这些表示可能包括以下内容。 −

  • 规则
  • 表格
  • 表格
  • 图表
  • 决策树
  • 立方体