敏捷数据科学 - 简介
敏捷数据科学是一种使用数据科学和敏捷方法进行 Web 应用程序开发的方法。 它侧重于适合影响组织变革的数据科学过程的输出。 数据科学包括构建通过分析、交互式可视化以及现在应用的机器学习来描述研究过程的应用程序。
敏捷数据科学的主要目标是 −
记录并指导解释性数据分析,以发现并遵循打造引人注目的产品的关键路径。
敏捷数据科学按照以下一组原则进行组织 −
持续迭代
此过程涉及创建表格、图表、报告和预测的连续迭代。 构建预测模型将需要对特征工程进行多次迭代,以提取和产生洞察力。
中间输出
这是生成的输出的列表。 甚至有人说,失败的实验也有产出。 跟踪每次迭代的输出将有助于在下一次迭代中创建更好的输出。
原型实验
原型实验涉及分配任务并根据实验生成输出。 在给定的任务中,我们必须迭代以获得洞察力,这些迭代可以最好地解释为实验。
数据整合
软件开发生命周期包括不同的阶段,其中数据至关重要 −
客户
开发人员,以及
业务
数据集成为更好的前景和产出铺平了道路。
金字塔数据值
上面的金字塔值描述了"敏捷数据科学"开发所需的层次。 它首先根据要求收集记录并检查各个记录。 图表是在数据清理和聚合后创建的。 聚合的数据可用于数据可视化。 生成的报告具有正确的结构、元数据和数据标签。 金字塔从顶部算起的第二层包括预测分析。 预测层是创造更多价值的地方,但有助于创建专注于特征工程的良好预测。
最顶层涉及有效驱动数据价值的操作。 这种实现的最好例证是"人工智能"。