Python 数据科学 - Pandas

什么是 Pandas？

Pandas 是一个开源 Python 库，利用其强大的数据结构进行高性能数据操作和数据分析。带有 Pandas 的 Python 被用于各种学术和商业领域，包括金融、经济学、统计学、广告、网络分析等。使用 Pandas，我们可以完成数据处理和分析的五个典型步骤，无论数据来源如何 - 加载、组织、操作、建模和分析数据。

以下是 Pandas 的一些重要功能，专门用于数据处理和数据分析工作。

Pandas 的主要功能

快速高效的 DataFrame 对象，具有默认和自定义索引。
用于将数据从不同文件格式加载到内存数据对象的工具。
数据对齐和缺失数据的集成处理。
日期集的重塑和透视。
基于标签的大型数据集的切片、索引和子集。
可以删除或插入数据结构中的列。
按数据分组进行聚合和转换。
高性能合并和连接数据。
时间序列功能。

Pandas 处理以下三种数据结构 −

Series
DataFrame

这些数据结构建立在 Numpy 数组之上，使其快速高效。

维度和描述

思考这些数据结构的最佳方式是，高维数据结构是其低维数据结构的容器。例如，DataFrame 是 Series 的容器，Panel 是 DataFrame 的容器。

数据结构	维度	描述
系列	1	1D 标记同构数组，大小不可变。
数据框	2	一般 2D 标记，大小可变的表格结构，可能具有异构类型的列。

DataFrame 被广泛使用，它是最重要的数据结构。

系列

系列是具有同质数据的一维数组结构。例如，以下系列是整数 10、23、56 的集合……

Series 的要点

同质数据
大小不可变
数据的值可变

DataFrame

DataFrame 是一个包含异构数据的二维数组。例如，

Name	Age	Gender	Rating
Steve	32	Male	3.45
Lia	28	Female	4.6
Vin	45	Male	3.9
Katie	38	Female	2.78

该表表示组织销售团队的数据及其总体绩效评级。数据以行和列表示。每列代表一个属性，每行代表一个人。

列的数据类型

四列的数据类型如下 −

列	类型
Name	String
Age	Integer
Gender	String
Rating	Float

数据框架的要点

异构数据
大小可变
数据可变

我们将在下一章中看到大量在数据科学工作中使用 Python 的 pandas 库的示例。

Python 数据科学教程

Python 数据处理

Python 数据可视化

统计数据分析

Python 数据科学 - Pandas

什么是 Pandas？

Pandas 的主要功能

维度和描述

系列

Series 的要点

DataFrame

列的数据类型

数据框架的要点

颜色选择器

读后有收获微信请站长喝咖啡

错误报告

您的建议:

感谢您的帮助！