敏捷数据科学 - 预测的作用
在本章中,我们将了解预测在敏捷数据科学中的作用。 交互式报告揭示了数据的不同方面。 预测构成了敏捷冲刺的第四层。
在进行预测时,我们总是参考过去的数据并将其用作未来迭代的推论。 在这个完整的过程中,我们将数据从历史数据的批量处理转变为关于未来的实时数据。
预测的作用包括以下内容 −
预测有助于预测。 一些预测是基于统计推断。 一些预测是基于专家的意见。
统计推断涉及各种预测。
有时预测准确,有时预测不准确。
预测分析
预测分析包括来自预测建模、机器学习和数据挖掘的各种统计技术,这些技术分析当前和历史事实,以预测未来和未知事件。
预测分析需要训练数据。 训练数据包括独立特征和相关特征。 相关特征是用户尝试预测的值。 独立特征是描述我们想要基于依赖特征预测的事物的特征。
对特征的研究称为特征工程; 这对于做出预测至关重要。 数据可视化和探索性数据分析是特征工程的一部分; 这些构成了敏捷数据科学的核心。
做出预测
敏捷数据科学中有两种进行预测的方法−
回归
分类
构建回归或分类完全取决于业务需求及其分析。 连续变量的预测导致回归模型,分类变量的预测导致分类模型。
回归
回归考虑包含特征的示例,从而产生数字输出。
分类
分类接受输入并生成分类。
注意 − 定义统计预测输入并使机器能够学习的示例数据集称为"训练数据"。