Python 数据科学 - Pandas
什么是 Pandas?
Pandas 是一个开源 Python 库,利用其强大的数据结构进行高性能数据操作和数据分析。带有 Pandas 的 Python 被用于各种学术和商业领域,包括金融、经济学、统计学、广告、网络分析等。 使用 Pandas,我们可以完成数据处理和分析的五个典型步骤,无论数据来源如何 - 加载、组织、操作、建模和分析数据。
以下是 Pandas 的一些重要功能,专门用于数据处理和数据分析工作。
Pandas 的主要功能
- 快速高效的 DataFrame 对象,具有默认和自定义索引。
- 用于将数据从不同文件格式加载到内存数据对象的工具。
- 数据对齐和缺失数据的集成处理。
- 日期集的重塑和透视。
- 基于标签的大型数据集的切片、索引和子集。
- 可以删除或插入数据结构中的列。
- 按数据分组进行聚合和转换。
- 高性能合并和连接数据。
- 时间序列功能。
Pandas 处理以下三种数据结构 −
- Series
- DataFrame
这些数据结构建立在 Numpy 数组之上,使其快速高效。
维度和描述
思考这些数据结构的最佳方式是,高维数据结构是其低维数据结构的容器。例如,DataFrame 是 Series 的容器,Panel 是 DataFrame 的容器。
数据结构 | 维度 | 描述 |
---|---|---|
系列 | 1 | 1D 标记同构数组,大小不可变。 |
数据框 | 2 | 一般 2D 标记,大小可变的表格结构,可能具有异构类型的列。 |
DataFrame 被广泛使用,它是最重要的数据结构。
系列
系列是具有同质数据的一维数组结构。例如,以下系列是整数 10、23、56 的集合……
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Series 的要点
- 同质数据
- 大小不可变
- 数据的值可变
DataFrame
DataFrame 是一个包含异构数据的二维数组。例如,
Name | Age | Gender | Rating |
---|---|---|---|
Steve | 32 | Male | 3.45 |
Lia | 28 | Female | 4.6 |
Vin | 45 | Male | 3.9 |
Katie | 38 | Female | 2.78 |
该表表示组织销售团队的数据及其总体绩效评级。数据以行和列表示。每列代表一个属性,每行代表一个人。
列的数据类型
四列的数据类型如下 −
列 | 类型 |
---|---|
Name | String |
Age | Integer |
Gender | String |
Rating | Float |
数据框架的要点
- 异构数据
- 大小可变
- 数据可变
我们将在下一章中看到大量在数据科学工作中使用 Python 的 pandas 库的示例。