数据挖掘 - 主题

数据挖掘的理论基础

数据挖掘的理论基础包括以下概念 −

数据缩减 − 该理论的基本思想是减少数据表示，以准确性换取速度，以满足在大型数据库上查询时获得快速近似答案的需要。一些数据缩减技术如下 −
- 奇异值分解
- 子波
- 回归
- 对数线性模型
- 直方图
- 聚类
- 抽样
- 索引树的构建
数据压缩 − 该理论的基本思想是通过编码来压缩给定的数据:−
- 位
- 关联规则
- 决策树
- 集群
模式发现 − 该理论的基本思想是发现数据库中出现的模式。以下是对该理论做出贡献的领域 −
- 机器学习
- 神经网络
- 关联挖矿
- 顺序模式匹配
- 聚类
概率论 − 该理论基于统计理论。该理论背后的基本思想是发现随机变量的联合概率分布。
概率论 − 根据这一理论，数据挖掘发现的有趣模式仅在可用于某些企业的决策过程中。
微观经济观点 − 根据该理论，数据库模式由存储在数据库中的数据和模式组成。因此，数据挖掘就是对数据库进行归纳的任务。
归纳数据库 − 除了面向数据库的技术之外，还有可用于数据分析的统计技术。这些技术也可以应用于科学数据以及经济和社会科学数据。

一些统计数据挖掘技术如下 −

回归 − 回归方法用于根据一个或多个预测变量(其中变量为数值)来预测响应变量的值。下面列出了回归的形式 −
- 线性
- 多个
- 加权
- 多项式
- 非参数
- 稳健
广义线性模型 − 广义线性模型包括 −
- 逻辑回归
- 泊松回归
模型的泛化允许分类响应变量与一组预测变量相关，其方式类似于使用线性回归对数值响应变量进行建模。
方差分析 − 该技术分析 −
- 由数字响应变量描述的两个或多个群体的实验数据。
- 一个或多个分类变量(因素)。
混合效应模型 − 这些模型用于分析分组数据。这些模型描述了响应变量与根据一个或多个因素分组的数据中的一些协变量之间的关系。
因素分析 − 因子分析用于预测分类响应变量。该方法假设自变量服从多元正态分布。
时间序列分析 − 以下是分析时间序列数据的方法 −
- 自回归方法。
- 单变量 ARIMA(自回归积分移动平均)建模。
- 长记忆时间序列建模。

可视化数据挖掘使用数据和/或知识可视化技术从大型数据集中发现隐含知识。可视化数据挖掘可以被视为以下学科的集成 −

可视化数据挖掘与以下内容密切相关 −

一般来说，数据可视化和数据挖掘可以通过以下方式集成 −

数据可视化 − 数据库或数据仓库中的数据可以通过下面列出的几种可视化形式查看 −
- 箱线图
- 3-D 立方体
- 数据分布图
- 曲线
- 表面
- 链接图等
数据挖掘结果可视化 − 数据挖掘结果可视化是将数据挖掘结果以可视化的形式呈现。这些视觉形式可以是散点图、箱线图等。
数据挖掘过程可视化 − 数据挖掘过程可视化展示了数据挖掘的几个过程。它允许用户查看如何提取数据。它还允许用户查看数据是从哪个数据库或数据仓库进行清理、集成、预处理和挖掘的。