数据挖掘过程
从庞大的数据集中提取数据的过程,这些数据可用于分析和造福组织。数据挖掘过程通常涉及以下步骤 -
业务理解
业务理解和客户目标是必要的。需要定义客户需求,然后使用场景定义数据挖掘目标。
数据理解
从不同来源收集数据并进行探索以了解数据的属性和特征。
数据准备
现在选择、清理、转换、预处理和构建正在收集的数据,以使其准备好进行分析。这个过程占用了项目的大部分时间。
建模
使用数学模型和算法来获取数据。利益相关者评估建模技术或模型,以用于数据集,从而获得结果数据。
评估
评估确定的结果或模式,以检查其是否符合业务目标。
部署
创建部署计划并生成报告,以帮助改善业务决策。
数据挖掘过程
陈述问题并制定假设
在此部分中,从组中选取问题并应用初始假设。数据挖掘专家和应用专家之间会进行深入的对话,以制定假设,并且在整个数据挖掘过程中都会持续进行。
数据收集
此步骤负责如何从各种来源收集数据。数据收集有两种情况。第一种是专家控制精心设计和理解的数据生成过程。第二种是专家无法影响数据生成过程,而是使用随机生成数据的观察方法。数据收集过程隐含了部分或在某些情况下未知的抽样分布。为了在最终结果中使用估计模型,有必要知道数据收集如何与其分布相矛盾,因为数据将用于建模、结果的最终解释和模型估计。
数据预处理
在此过程中,原始数据被转换为可理解的格式,并为进一步分析做好准备。目的是提高数据质量并使其达到特定任务的标准。
它通常至少有两个任务 -
异常值检测和移除
异常值是非特定数据,不能用于观察。它包含可能损害模型的错误和异常值。它通过检测和移除异常值或使用对异常值不敏感的稳健建模来处理。
缩放和编码
使用变量缩放和编码,我们需要对它们进行缩放并传达等效权重,这有助于分析。特定于应用程序的编码通过实现降维来提供较少的信息。
估计模型
此阶段有助于选择最合适的数据挖掘技术。首先在不同的模型上进行实现,然后选择最简单的模型进行进一步处理。
解释模型并得出结论
简单模型是可靠的,但准确性较低。新一代数据挖掘模型有望通过使用高维模型提供高精度。一些特定的技术用于通过解释这些模型来验证结果。
结论
本文包括数据挖掘过程,涉及业务理解、数据理解、数据准备、建模、评估和部署等步骤。数据挖掘过程由 5 个部分组成。首先是陈述问题并制定假设,提出问题并应用假设。第二是数据收集,有助于从不同来源收集数据。第三是数据预处理,通过使用异常值检测/移除、缩放和编码将数据转换为可理解的形式。第四是估计模型,有助于选择合适的简单模型进行分析。第五是解释模型并得出结论,指使用模型进行解释并得出结论,从而提供高精度。