Python 中的 Pandas 简介

pythonpandasserver side programming

Python 是世界上最流行的编程语言之一。由于 Python 的语法非常易于学习和编写,因此与其他编程语言相比,它能够非常轻松地用更少的代码行完成大量任务。Python 的许多内置库可帮助我们在机器学习、数据科学、数据可视化等各个领域创建应用程序和模型。

有一个名为 Pandas 的库,我们将对其进行详细讨论。请继续阅读以了解有关此库的更多信息。

Pandas

你们中的许多人可能听说过数据科学和数据分析,不是吗?这个库有助于轻松高效地处理数据。这是一个开源库,它为我们提供了各种数据结构和方法来操作数值数据和时间序列。

简而言之,Pandas 有助于处理杂乱的数据集,使其更易于阅读且更具相关性。

开始使用 Pandas

首先,重要的是要知道它是否安装在 Python 文件夹中。如果未安装,可以使用pip 命令进行安装。在终端中,使用 cd 命令找到文件夹后,输入"pip install pandas"。

安装后,必须导入库。要导入模块,请在 Python 代码空间中输入以下内容:

import pandas as pd

这里使用"pd",以便无论何时我们想在稍后输入的代码中使用该模块,我们都可以简单地使用 pd。并调用 Pandas 提供的功能。这不是强制性的,但当我们想更快地输入并获得相同的结果时,它对我们有很大帮助!

我们知道 Python 中的各种数据结构,例如列表、元组和字典。使用 Pandas 模块,我们获得了 2 个额外的数据结构,使我们在处理和组织数据时更加轻松。Series 和 DataFrame 是库附带的两个数据结构。让我们详细讨论各种数据结构:

Series

它是一个一维数组,可以保存各种数据类型,例如整数、浮点数、字符串等。索引类似于普通列表的索引。在显示任何系列时,它就像 Excel 表中的一列一样。

我们可以从预先存在的文件创建一个系列。无论是 CSV 文件、SQL 数据库、Excel 文件,还是来自 Python 程序的列表、元组等。

示例

以下是用于演示的 Python 代码:

import pandas as pd
import numpy as np
ser = pd.Series()                         
arr = np.array([1,2,3,4,5])
ser = pd.Series(arr)
print(ser)

在此源代码中,我们获取一个数字数组并将其转换为 Series 数据类型。

输出

以下代码的输出如下:

0        1
1	 2
2	 3
3	 4
4	 5
dtype: int64

如前所述,索引类似于 Python 中的标准列表,从 0 开始。'dtype' 表示 Series 中包含的数据类型。

DataFrame

这是数据的 2D 表格表示。行和列排列整齐,就像 Excel 电子表格中的数据一样。在 DataFrame 中,有实际数据、行和列。

要创建 DataFrame,可以使用预先存在的文件(例如 CSV 文件或 Excel 文件)以及 SQL 数据库。

Python CodeSpace 中预先存在的数据也可用于创建 DataFrame!下面的源代码演示了这一点:

示例

import pandas as pd
int_list = [1,2,3,4,5]
data_fr = pd.DataFrame(int_list)
print(data_fr)

第一行,我们导入了非常重要的 Pandas 库。这里,我们有一个预先存在的列表,我们刚刚将其转换为 DataFrame 数据类型。以下代码的输出为:

输出

   0
0  1
1  2
2  3
3  4
4  5

我们可以观察到,元素的索引类似于 Series 数据类型以及 List。下面给出了 DataFrame 的另一个示例:

示例

import pandas as pd
stats = {"Messi":[400,500,600], "Ronaldo":[87,350,761]}
chart = pd.DataFrame(stats)
print(chart)

在这里,我们使用了预先存在的字典数据类型。输出将是:

输出

    Messi   Ronaldo
0    400     87
1    500     350
2    600     761

我们看到的数据比现有字典组织得更好。这些数据类型在组织数据方面做得最好,因此让我们更容易研究数据。


相关文章