将 Excel 电子表格加载为 pandas DataFrame

pythonpandasserver side programmingprogramming

随着数据分析在各个领域的重要性日益提高,Python 已成为首选语言,因为它拥有大量用于处理数据的库。其中一个库是 Pandas,它是一种功能强大的工具,可为数据操作和分析提供灵活的数据结构。本文提供了将 Excel 电子表格加载为 Pandas DataFrame 的深入指南,并附有示例。

Pandas 简介

Pandas 是一个 Python 包,以其高效处理数据的能力而脱颖而出。它提供了两个类 - DataFrame 和 Series - 它们非常灵活,可以处理各种数据类型。 DataFrame 类似于 Excel 电子表格、SQL 表或 R 中的 data.frame。它是一个二维标记数据结构,其列可以是不同类型的(如数字、布尔值、字符串等)。

在 Pandas 中加载 Excel 文件

Pandas 提供 read_excel() 函数来读取 Excel 文件并将数据加载到 DataFrame 中。该函数支持来自本地文件系统或 URL 的 xls 和 xlsx 文件扩展名,并且需要 xlrd 和 openpyxl 包才能运行。让我们深入了解一些示例:

示例 1:加载 Excel 文件

在最基本的形式中,您可以使用 read_excel() 读取 Excel 文件并将其加载到 DataFrame 中。您只需指定文件的路径即可。

import pandas as pd

# 加载电子表格
df = pd.read_excel('path_to_file.xlsx')

# 打印数据框
print(df)

在此示例中,DataFrame df 包含 Excel 电子表格中的所有数据。如果文件包含多个工作表,则此方法将仅加载第一个工作表。

示例 2:加载特定工作表

Excel 文件通常包含多个工作表。如果要从 Excel 文件中加载特定工作表,可以通过指定工作表的名称或索引来实现。

import pandas as pd

# 加载特定工作表
df = pd.read_excel('path_to_file.xlsx', sheet_name='Sheet2')

# 打印数据框
print(df)

在本例中,read_excel() 函数加载名为"Sheet2"的工作表。或者,您可以指定工作表的索引,第一个工作表位于索引 0。

示例 3:加载多个工作表

如果要从 Excel 文件加载多个工作表,可以将工作表名称或索引列表传递给 sheet_name 参数。

import pandas as pd

# 加载多个工作表
sheets_dict = pd.read_excel('path_to_file.xlsx', sheet_name=['Sheet1', 'Sheet2'])

# sheets_dict 是数据框的字典
# 从"Sheet1"访问数据框
df1 = sheets_dict['Sheet1']

# 从"Sheet2"访问数据框
df2 = sheets_dict['Sheet2']

# 打印数据框
print(df1)
print(df2)

使用列表读取多个工作表时,read_excel() 返回 DataFrames 字典。此字典的键是工作表名称或索引,值是相应的 DataFrames。

结论

Pandas 是一款出色的工具,可轻松处理数据。它能够将 Excel 电子表格加载到 DataFrames 中,这只是它在数据科学和分析领域如此宝贵的资产的众多原因之一。

无论您处理的是单表 Excel 文件、多表数据还是处理大量电子表格,Pandas 都提供了一种加载和处理数据的有效方法。通过更深入地了解这些过程,您可以更进一步掌握使用 Python 和 Pandas 进行数据操作。


相关文章