数据科学简介

数据科学是使用统计学的多个学科的组合, 数据分析和机器学习来分析数据并从中提取知识和见解。


什么是数据科学?

数据科学是关于数据收集、分析和决策的。

数据科学是关于通过分析发现数据模式并做出未来预测。

通过使用数据科学,公司能够:

  • 更好的决策(我们应该选择 A 还是 B)
  • 预测分析(接下来会发生什么?)
  • 模式发现(发现模式,或者可能是数据中的隐藏信息)

哪里需要数据科学?

当今世界上的许多行业都在使用数据科学,例如。 银行、咨询、医疗保健和制造业。

需要数据科学的示例:

  • 路线规划:发现最佳运输路线
  • 预测航班/轮船/火车等的延误(通过预测分析)
  • 创建促销优惠
  • 寻找最合适的交货时间
  • 预测公司未来几年的收入
  • 分析培训对健康的益处

数据科学几乎可以应用于企业的每个可用数据部分。 例如:

  • 消费品
  • 股票市场
  • 行业
  • 物流公司
  • 电子商务


数据科学家如何工作?

数据科学家需要具备多种背景的专业知识:

  • 机器学习
  • 统计数据
  • 编程(Python 或 R)
  • 数学
  • 数据库

数据科学家必须在数据中找到规律。 在他/她找到模式之前,他/她必须以标准格式组织数据。

以下是数据科学家的工作方式:

  1. 提出正确的问题 - 了解业务问题。
  2. 探索和收集数据 - 来自数据库、网络日志、客户反馈等。
  3. 提取数据 - 将数据转换为标准化格式。
  4. 清理数据 - 从数据中删除错误值。
  5. 查找并替换缺失值 - 检查缺失值并将其替换为合适的值(例如平均值)。
  6. 标准化数据 - 在实际范围内缩放值(例如 140 cm 小于 1,8 m。但是,数字 140 大于 1,8。 - 所以缩放很重要) .
  7. 分析数据、发现模式并做出未来预测
  8. 表示结果- 以"公司"可以理解的方式用有用的见解展示结果。

从哪里开始?

在本教程中,我们将首先介绍什么是数据以及如何分析数据。

您将学习如何使用统计数据和数学函数进行预测。