技术文章和资源

技术文章(时间排序)

热门类别

Python PHP MySQL JDBC Linux

数据挖掘中的数据预处理

dbmsdatabasemysql

数据预处理是数据挖掘的一个重要过程。在此过程中,原始数据被转换为可理解的格式,并准备好进行进一步分析。其目的是提高数据质量并使其达到特定任务的标准。

数据预处理中的任务

数据清理

数据清理帮助我们从数据集中删除不准确、不完整和不正确的数据。数据清理中使用的一些技术是 -

处理缺失值

当某些数据缺失时,就会出现这种情况。

  • 标准值可用于手动填充缺失值,但仅适用于小型数据集。

  • 属性的平均值和中位数可分别用于替换数据正态分布和非正态分布中的缺失值。

  • 如果数据集很大并且元组中有许多值缺失,则可以忽略元组。

  • 使用回归或决策树算法时可以使用最合适的值

噪声数据

噪声数据是机器无法解释的数据,包含不必要的错误数据。处理它们的一些方法是 −

  • Binning − 此方法处理噪声数据以使其平滑。数据被均等划分并以箱的形式存储,然后应用方法来平滑或完成任务。方法包括通过箱均值方法平滑(箱值被平均值替换)、通过箱中值平滑(箱值被中值替换)和通过箱边界平滑(取最小/最大箱值并替换为最接近的边界值)。

  • 回归 − 回归函数用于平滑数据。回归可以是线性的(由一个独立变量组成)或多重的(由多个独立变量组成)。

  • 聚类 − 它用于将相似的数据分组到聚类中,并用于查找异常值。

数据集成

将来自多个来源(数据库、电子表格、文本文件)的数据组合成单个数据集的过程。在此过程中创建了单一且一致的数据视图。数据集成期间的主要问题是模式集成(集成从各种来源收集的数据集)、实体识别(识别来自不同数据库的实体)以及检测和解析数据值概念。

数据转换

在此部分中,更改数据的格式或结构,以便将数据转换为适合挖掘过程的数据。数据转换的方法包括 -

规范化 - 将数据缩放到特定的较小范围(-1.0 到 1.0)的方法

离散化 - 它有助于减小数据大小,并将连续数据划分为间隔。

属性选择 - 为了帮助挖掘过程,从给定的属性中派生出新属性。

概念层次结构生成 - 在此,属性在层次结构中从较低级别更改为较高级别。

聚合 - 在此,存储数据摘要,这取决于数据的质量和数量,以使结果更优化。

数据缩减

它有助于提高存储效率并减少数据存储,通过产生几乎相同的结果使分析更容易。处理大量数据时,分析变得更加困难,因此使用缩减来摆脱这种情况。

数据缩减的步骤如下:-

数据压缩

数据被压缩以便进行有效分析。无损压缩是指压缩时没有数据丢失。有损压缩是指在压缩过程中删除不必要的信息。

数量缩减

数据量减少,即仅存储数据模型而不是整个数据,这提供了较小的数据表示而不会丢失任何数据。

降维

在此,减少属性或随机变量以使数据集维度较低。属性组合而不会丢失其原始特征。

结论

本文包括数据预处理,有助于将数据转换为可用格式。有助于数据预处理的任务包括数据清理、数据集成、数据转换和数据缩减。数据清理通过处理缺失值和平滑噪声(借助分箱、回归和聚类)来删除不完整的数据。数据集成将来自多个来源的数据组合成一个数据集。数据转换通过使用离散化、属性选择、概念层次结构生成和聚合来帮助改变数据的格式,使数据可用于挖掘。数据缩减有助于减少数据存储量,借助数据压缩、数量缩减和维数缩减等步骤使分析更容易。


相关文章