技术文章和资源

技术文章(时间排序)

热门类别

Python PHP MySQL JDBC Linux

数据挖掘过程

dbmsmysqldatabase

从庞大的数据集中提取数据的过程,这些数据可用于分析和造福组织。数据挖掘过程通常涉及以下步骤 -

业务理解

业务理解和客户目标是必要的。需要定义客户需求,然后使用场景定义数据挖掘目标。

数据理解

从不同来源收集数据并进行探索以了解数据的属性和特征。

数据准备

现在选择、清理、转换、预处理和构建正在收集的数据,以使其准备好进行分析。这个过程占用了项目的大部分时间。

建模

使用数学模型和算法来获取数据。利益相关者评估建模技术或模型,以用于数据集,从而获得结果数据。

评估

评估确定的结果或模式,以检查其是否符合业务目标。

部署

创建部署计划并生成报告,以帮助改善业务决策。

数据挖掘过程

陈述问题并制定假设

在此部分中,从组中选取问题并应用初始假设。数据挖掘专家和应用专家之间会进行深入的对话,以制定假设,并且在整个数据挖掘过程中都会持续进行。

数据收集

此步骤负责如何从各种来源收集数据。数据收集有两种情况。第一种是专家控制精心设计和理解的数据生成过程。第二种是专家无法影响数据生成过程,而是使用随机生成数据的观察方法。数据收集过程隐含了部分或在某些情况下未知的抽样分布。为了在最终结果中使用估计模型,有必要知道数据收集如何与其分布相矛盾,因为数据将用于建模、结果的最终解释和模型估计。

数据预处理

在此过程中,原始数据被转换为可理解的格式,并为进一步分析做好准备。目的是提高数据质量并使其达到特定任务的标准。

它通常至少有两个任务 -

异常值检测和移除

异常值是非特定数据,不能用于观察。它包含可能损害模型的错误和异常值。它通过检测和移除异常值或使用对异常值不敏感的稳健建模来处理。

缩放和编码

使用变量缩放和编码,我们需要对它们进行缩放并传达等效权重,这有助于分析。特定于应用程序的编码通过实现降维来提供较少的信息。

估计模型

此阶段有助于选择最合适的数据挖掘技术。首先在不同的模型上进行实现,然后选择最简单的模型进行进一步处理。

解释模型并得出结论

简单模型是可靠的,但准确性较低。新一代数据挖掘模型有望通过使用高维模型提供高精度。一些特定的技术用于通过解释这些模型来验证结果。

结论

本文包括数据挖掘过程,涉及业务理解、数据理解、数据准备、建模、评估和部署等步骤。数据挖掘过程由 5 个部分组成。首先是陈述问题并制定假设,提出问题并应用假设。第二是数据收集,有助于从不同来源收集数据。第三是数据预处理,通过使用异常值检测/移除、缩放和编码将数据转换为可理解的形式。第四是估计模型,有助于选择合适的简单模型进行分析。第五是解释模型并得出结论,指使用模型进行解释并得出结论,从而提供高精度。


相关文章