使用 Python Pandas 进行数据分析
在本教程中,我们将使用 Python pandas 库进行数据分析。pandas 库是用 C 编写的。因此,我们不会遇到速度问题。它以数据分析而闻名。pandas 中有两种类型的数据存储结构。它们是 Series 和 DataFrame。让我们一一看看。
1.Series
Series 是一个具有自定义索引和值的 1D 数组。我们可以使用 pandas.Series(data, index) 类创建一个 Series 对象。Series 将以整数、列表、字典作为数据。我们来看一些例子。
示例
# 导入 pandas 库 import pandas as pd # 数据 data = [1, 2, 3] # 创建 Series 对象 # Series 自动采用默认索引 series = pd.Series(data) print(series)
输出
运行上述程序,将得到以下结果。
0 1 1 2 2 3 dtype: int64
如何自定义索引?查看示例。
示例
# 导入 pandas 库 import pandas as pd # 数据 data = [1, 2, 3] # 索引 index = ['a', 'b', 'c'] # 创建 Series 对象 series = pd.Series(data, index) print(series)
输出
如果运行上述程序,您将得到以下结果。
a 1 b 2 c 3 dtype: int64
当我们将数据作为字典提供给 Series 类时,它会将键作为索引,将值作为实际数据。让我们看一个例子。
示例
# 导入 pandas 库 import pandas as pd # 数据 data = {'a':97, 'b':98, 'c':99} # 创建 Series 对象 series = pd.Series(data) print(series)
输出
如果你运行上述程序,你将得到以下结果。
a 97 b 98 c 99 dtype: int64
我们可以使用索引访问 Series 中的数据。让我们看一些示例。
示例
# 导入 pandas 库 import pandas as pd # 数据 data = {'a':97, 'b':98, 'c':99} # 创建 Series 对象 series = pd.Series(data) # 使用索引访问 Series 中的数据 print(series['a'], series['b'], series['c'])
输出
如果您运行上述代码,您将获得以下结果。
97 98 99
2.Pandas
我们已经知道如何在 Pandas 中使用 Series 类。让我们看看如何使用 DataFrame 类。 DataFrame 是 pandas 中包含行和列的数据结构类。
我们可以使用 列表、字典、Series 等创建 DataFrame 对象。让我们使用列表创建 DataFrame。
示例
# 导入 pandas 库 import pandas as pd # 列表 names = ['Tutorialspoint', 'Mohit', 'Sharma'] ages = [25, 32, 21] # 创建 DataFrame data_frame = pd.DataFrame({'Name': names, 'Age': ages}) # 打印 DataFrame print(data_frame)
输出
如果你运行上述程序,你将得到以下结果。
Name Age 0 Tutorialspoint 25 1 Mohit 32 2 Sharma 21
让我们看看如何使用 Series 创建数据框对象。
示例
# 导入 pandas 库 import pandas as pd # Series _1 = pd.Series([1, 2, 3]) _2 = pd.Series([1, 4, 9]) _3 = pd.Series([1, 8, 27]) # 创建 DataFrame data_frame = pd.DataFrame({"a":_1, "b":_2, "c":_3}) # 打印 DataFrame print(data_frame)
输出
如果您运行上述代码,您将获得以下结果。
a b c 0 1 1 1 1 2 4 8 2 3 9 27
我们可以使用列名从 DataFrames 访问数据。让我们看一个例子。
示例
# 导入 pandas 库 import pandas as pd # Series _1 = pd.Series([1, 2, 3]) _2 = pd.Series([1, 4, 9]) _3 = pd.Series([1, 8, 27]) # 创建 DataFrame data_frame = pd.DataFrame({"a":_1, "b":_2, "c":_3}) # 访问名称为 'a' 的整个列 print(data_frame['a'])
输出
如果您运行上述代码,您将获得以下结果。
0 1 1 2 2 3 Name: a, dtype: int64
结论
如果您对本教程有任何疑问,请在评论部分中提及。