数据科学简介
数据科学是使用统计学的多个学科的组合, 数据分析和机器学习来分析数据并从中提取知识和见解。
什么是数据科学?
数据科学是关于数据收集、分析和决策的。
数据科学是关于通过分析发现数据模式并做出未来预测。
通过使用数据科学,公司能够:
- 更好的决策(我们应该选择 A 还是 B)
- 预测分析(接下来会发生什么?)
- 模式发现(发现模式,或者可能是数据中的隐藏信息)
哪里需要数据科学?
当今世界上的许多行业都在使用数据科学,例如。 银行、咨询、医疗保健和制造业。
需要数据科学的示例:
- 路线规划:发现最佳运输路线
- 预测航班/轮船/火车等的延误(通过预测分析)
- 创建促销优惠
- 寻找最合适的交货时间
- 预测公司未来几年的收入
- 分析培训对健康的益处
数据科学几乎可以应用于企业的每个可用数据部分。 例如:
- 消费品
- 股票市场
- 行业
- 物流公司
- 电子商务
数据科学家如何工作?
数据科学家需要具备多种背景的专业知识:
- 机器学习
- 统计数据
- 编程(Python 或 R)
- 数学
- 数据库
数据科学家必须在数据中找到规律。 在他/她找到模式之前,他/她必须以标准格式组织数据。
以下是数据科学家的工作方式:
- 提出正确的问题 - 了解业务问题。
- 探索和收集数据 - 来自数据库、网络日志、客户反馈等。
- 提取数据 - 将数据转换为标准化格式。
- 清理数据 - 从数据中删除错误值。
- 查找并替换缺失值 - 检查缺失值并将其替换为合适的值(例如平均值)。
- 标准化数据 - 在实际范围内缩放值(例如 140 cm 小于 1,8 m。但是,数字 140 大于 1,8。 - 所以缩放很重要) .
- 分析数据、发现模式并做出未来预测。
- 表示结果- 以"公司"可以理解的方式用有用的见解展示结果。
从哪里开始?
在本教程中,我们将首先介绍什么是数据以及如何分析数据。
您将学习如何使用统计数据和数学函数进行预测。