Python 中的 Pandas 简介
Python 是世界上最流行的编程语言之一。由于 Python 的语法非常易于学习和编写,因此与其他编程语言相比,它能够非常轻松地用更少的代码行完成大量任务。Python 的许多内置库可帮助我们在机器学习、数据科学、数据可视化等各个领域创建应用程序和模型。
有一个名为 Pandas 的库,我们将对其进行详细讨论。请继续阅读以了解有关此库的更多信息。
Pandas
你们中的许多人可能听说过数据科学和数据分析,不是吗?这个库有助于轻松高效地处理数据。这是一个开源库,它为我们提供了各种数据结构和方法来操作数值数据和时间序列。
简而言之,Pandas 有助于处理杂乱的数据集,使其更易于阅读且更具相关性。
开始使用 Pandas
首先,重要的是要知道它是否安装在 Python 文件夹中。如果未安装,可以使用pip 命令进行安装。在终端中,使用 cd 命令找到文件夹后,输入"pip install pandas"。
安装后,必须导入库。要导入模块,请在 Python 代码空间中输入以下内容:
import pandas as pd
这里使用"pd",以便无论何时我们想在稍后输入的代码中使用该模块,我们都可以简单地使用 pd。并调用 Pandas 提供的功能。这不是强制性的,但当我们想更快地输入并获得相同的结果时,它对我们有很大帮助!
我们知道 Python 中的各种数据结构,例如列表、元组和字典。使用 Pandas 模块,我们获得了 2 个额外的数据结构,使我们在处理和组织数据时更加轻松。Series 和 DataFrame 是库附带的两个数据结构。让我们详细讨论各种数据结构:
Series
它是一个一维数组,可以保存各种数据类型,例如整数、浮点数、字符串等。索引类似于普通列表的索引。在显示任何系列时,它就像 Excel 表中的一列一样。
我们可以从预先存在的文件创建一个系列。无论是 CSV 文件、SQL 数据库、Excel 文件,还是来自 Python 程序的列表、元组等。
示例
以下是用于演示的 Python 代码:
import pandas as pd import numpy as np ser = pd.Series() arr = np.array([1,2,3,4,5]) ser = pd.Series(arr) print(ser)
在此源代码中,我们获取一个数字数组并将其转换为 Series 数据类型。
输出
以下代码的输出如下:
0 1 1 2 2 3 3 4 4 5 dtype: int64
如前所述,索引类似于 Python 中的标准列表,从 0 开始。'dtype' 表示 Series 中包含的数据类型。
DataFrame
这是数据的 2D 表格表示。行和列排列整齐,就像 Excel 电子表格中的数据一样。在 DataFrame 中,有实际数据、行和列。
要创建 DataFrame,可以使用预先存在的文件(例如 CSV 文件或 Excel 文件)以及 SQL 数据库。
Python CodeSpace 中预先存在的数据也可用于创建 DataFrame!下面的源代码演示了这一点:
示例
import pandas as pd int_list = [1,2,3,4,5] data_fr = pd.DataFrame(int_list) print(data_fr)
第一行,我们导入了非常重要的 Pandas 库。这里,我们有一个预先存在的列表,我们刚刚将其转换为 DataFrame 数据类型。以下代码的输出为:
输出
0 0 1 1 2 2 3 3 4 4 5
我们可以观察到,元素的索引类似于 Series 数据类型以及 List。下面给出了 DataFrame 的另一个示例:
示例
import pandas as pd stats = {"Messi":[400,500,600], "Ronaldo":[87,350,761]} chart = pd.DataFrame(stats) print(chart)
在这里,我们使用了预先存在的字典数据类型。输出将是:
输出
Messi Ronaldo 0 400 87 1 500 350 2 600 761
我们看到的数据比现有字典组织得更好。这些数据类型在组织数据方面做得最好,因此让我们更容易研究数据。