Python 数据科学 - Pandas

什么是 Pandas?

Pandas 是一个开源 Python 库,利用其强大的数据结构进行高性能数据操作和数据分析。带有 Pandas 的 Python 被用于各种学术和商业领域,包括金融、经济学、统计学、广告、网络分析等。 使用 Pandas,我们可以完成数据处理和分析的五个典型步骤,无论数据来源如何 - 加载、组织、操作、建模和分析数据。

以下是 Pandas 的一些重要功能,专门用于数据处理和数据分析工作。

Pandas 的主要功能

  • 快速高效的 DataFrame 对象,具有默认和自定义索引。
  • 用于将数据从不同文件格式加载到内存数据对象的工具。
  • 数据对齐和缺失数据的集成处理。
  • 日期集的重塑和透视。
  • 基于标签的大型数据集的切片、索引和子集。
  • 可以删除或插入数据结构中的列。
  • 按数据分组进行聚合和转换。
  • 高性能合并和连接数据。
  • 时间序列功能。

Pandas 处理以下三种数据结构 −

  • Series
  • DataFrame

这些数据结构建立在 Numpy 数组之上,使其快速高效。

维度和描述

思考这些数据结构的最佳方式是,高维数据结构是其低维数据​​结构的容器。例如,DataFrame 是 Series 的容器,Panel 是 DataFrame 的容器。

数据结构 维度 描述
系列 1 1D 标记同构数组,大小不可变。
数据框 2 一般 2D 标记,大小可变的表格结构,可能具有异构类型的列。

DataFrame 被广泛使用,它是最重要的数据结构。

系列

系列是具有同质数据的一维数组结构。例如,以下系列是整数 10、23、56 的集合……

10 23 56 17 52 61 73 90 26 72

Series 的要点

  • 同质数据
  • 大小不可变
  • 数据的值可变

DataFrame

DataFrame 是一个包含异构数据的二维数组。例如,

Name Age Gender Rating
Steve 32 Male 3.45
Lia 28 Female 4.6
Vin 45 Male 3.9
Katie 38 Female 2.78

该表表示组织销售团队的数据及其总体绩效评级。数据以行和列表示。每列代表一个属性,每行代表一个人。

列的数据类型

四列的数据类型如下 −

类型
Name String
Age Integer
Gender String
Rating Float

数据框架的要点

  • 异构数据
  • 大小可变
  • 数据可变

我们将在下一章中看到大量在数据科学工作中使用 Python 的 pandas 库的示例。