使用 Pandas 中的给定列进行有限的行选择

pandaspythonserver side programmingprogramming

Pandas 是一个 Python 包,现在是世界各地数据科学家和分析师的首选工具。从数据框中选择行和列是其用于数据操作和分析的众多功能之一。本文使用真实示例研究如何使用 Pandas 选择具有特定列的一定数量的行。

虽然我们强调了 Pandas 的一个特定功能,但请记住,该库的功能远不止于此,使其成为数据处理的重要工具。

Pandas DataFrame:简介

对于 Python,Pandas 提供了一种快速、用户友好的数据结构(DataFrame)和数据分析工具。 "面板数据"一词在计量经济学中用于描述包含对同一人在多个时间段内的观察结果的数据集,这是"Pandas"名称的来源。

在 Pandas 中选择具有给定列的有限行

在数据分析中,经常需要从 DataFrame 中选择特定的行和列。在您只对分析或修改完整数据集的一部分感兴趣的情况下,这可能会有所帮助。以下是使用 Pandas 库从一组列中选择有限数量的行的一些方法:

方法 1:使用 iloc 和 loc 方法

可以分别使用 iloc 和 loc 方法根据行和列的整数索引和标签来选择行和列。

示例 1:使用 iloc

import pandas as pd

# 创建一个简单的数据框
data = {
   'Name': ['John', 'Anna', 'Peter', 'Linda', 'Mike'],
   'Age': [28, 24, 35, 32, 30],
   'City': ['New York', 'Paris', 'Berlin', 'London', 'Sydney']
}

df = pd.DataFrame(data)

# 从"Name"和"Age"列中选择前三行
subset = df.iloc[:3, [0, 1]]
print(subset)

输出

    Name  Age
0   John   28
1   Anna   24
2  Peter   35

示例 2:使用 loc

# 从"Name"和"Age"列中选择前三行
subset = df.loc[:2, ['姓名', '年龄']]
print(subset)

方法 2:使用布尔索引

您可以根据 DataFrame 的实际值使用布尔索引选择行。

示例 3:使用布尔索引

# 选择"Age"大于 30 的行,仅显示"Name"和"City"列
subset = df[df['Age'] > 30][['Name', 'City']]
print(subset)

结论

Pandas 提供了一个灵活的数据操作和分析工具包,它提供了选择,只选择具有特定列的少量行。了解如何有效地选择数据至关重要,无论您是在进行探索性数据分析还是为机器学习准备数据。

请记住,Pandas 可以做的事情远不止这些示例中展示的内容。该库的广泛功能远不止于此,可以完成更困难的数据处理和分析工作。

提出正确的问题并了解如何从更大的数据集合中提取正确的数据子集对于进行良好的数据分析至关重要。在 Pandas 的帮助下,您已准备好实现这一目标!


相关文章