敏捷数据科学 - 数据科学流程

在本章中,我们将了解数据科学过程以及理解该过程所需的术语。

"数据科学是数据接口、算法开发和技术的融合,以解决复杂的分析问题"。

数据科学过程

数据科学是一个跨学科领域,涵盖科学方法、过程和系统,其中包括机器学习、数学和统计知识与传统研究等类别。 它还包括黑客技能与实质性专业知识的结合。 数据科学从数学、统计学、信息科学、计算机科学、数据挖掘和预测分析中汲取原理。

下面提到了构成数据科学团队的不同角色−

客户

客户是使用该产品的人。 他们的兴趣决定了项目的成功,他们的反馈在数据科学中非常有价值。

业务开发

这个数据科学团队通过第一手资料或通过创建登陆页面和促销活动来吸引早期客户。 业务开发团队交付产品价值。

产品经理

产品经理认识到创造具有市场价值的最佳产品的重要性。

交互设计师

他们专注于围绕数据模型设计交互,以便用户找到适当的价值。

数据科学家

数据科学家以新的方式探索和转换数据,以创建和发布新功能。 这些科学家还结合不同来源的数据来创造新的价值。 他们在与研究人员、工程师和网络开发人员一起创建可视化方面发挥着重要作用。

研究人员

顾名思义,研究人员参与研究活动。 他们解决数据科学家无法解决的复杂问题。 这些问题涉及机器学习和统计模块的高度关注和时间。

适应变化

数据科学的所有团队成员都需要适应新的变化,根据需求开展工作。 采用数据科学的敏捷方法需要做出一些改变,如下所示 −

  • 选择通才而不是专家。

  • 小型团队优于大型团队。

  • 使用高级工具和平台。

  • 持续、迭代地共享中间工作。

注意

在敏捷数据科学团队中,一个由多面手组成的小团队使用可扩展的高级工具,并通过迭代将数据细化为越来越高的价值状态。

考虑以下与数据科学团队成员的工作相关的示例 −

  • 设计师交付 CSS。

  • 网络开发人员构建整个应用程序,了解用户体验和界面设计。

  • 数据科学家应该致力于研究和构建网络服务,包括网络应用程序。

  • 研究人员在代码库中工作,代码库显示解释中间结果的结果。

  • 产品经理尝试识别并理解所有相关领域的缺陷。