数据结构简介
Pandas 处理以下三种数据结构 −
- Series
- DataFrame
- Panel
这些数据结构建立在 Numpy 数组之上,这意味着它们速度很快。
维度 & 描述
考虑这些数据结构的最佳方式是,高维数据结构是其低维数据结构的容器。 比如DataFrame是Series的容器,Panel是DataFrame的容器。
数据结构 | 维度 | 描述 |
---|---|---|
Series | 1 | 一维标记的同构数组,大小不可变。 |
Data Frames | 2 | 具有潜在异构类型的通用 2D 标记、大小可变的表格结构 列。 |
Panel | 3 | 通用 3D 标记、大小可变的数组。 |
构建和处理二维或更多维数组是一项繁琐的任务,用户在编写函数时需要考虑数据集的方向。 但是使用 Pandas 数据结构,减少了用户的脑力劳动。
例如,对于表格数据(DataFrame),考虑 index(行)和 columns 而不是轴 0 和轴 1 在语义上更有帮助。
可变性
所有 Pandas 数据结构的值都是可变的(可以更改),除了 Series 之外,所有数据结构的大小都是可变的。 系列是大小不可变的。
注意 − DataFrame 应用广泛,是最重要的数据结构之一。 面板使用少得多。
系列(Series)
系列是具有同质数据的一维数组结构。 例如,以下系列是整数 10、23、56、……的集合
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
要点
- 同质数据
- 大小不可变
- 可变数据的值
DataFrame
DataFrame 是一个包含异构数据的二维数组。 例如,
Name | Age | Gender | Rating |
---|---|---|---|
Steve | 32 | Male | 3.45 |
Lia | 28 | Female | 4.6 |
Vin | 45 | Male | 3.9 |
Katie | 38 | Female | 2.78 |
该表表示组织的销售团队的数据及其整体绩效评级。 数据以行和列的形式表示。 每列代表一个属性,每一行代表一个人。
列的数据类型
四列的数据类型如下 −
列 | 类型 |
---|---|
Name | String |
Age | Integer |
Gender | String |
Rating | Float |
要点
- 异构数据
- 大小可变
- 数据可变
面板(Panel)
Panel 是一种具有异构数据的三维数据结构。 很难用图形表示面板。 但是面板可以说明为 DataFrame 的容器。
要点
- 异构数据
- 大小可变
- 数据可变