使用 Pandas 分析数据活动

data sciencepandasserver side programming

Pandas 是数据科学领域非常流行的工具。它在分析数据活动方面被广泛使用。

清理、转换和建模数据以查找与企业决策相关的信息的过程称为数据分析。从数据中提取可用信息并根据该分析做出决策是数据分析的目标。

在本文中,我们将了解 Pandas 在数据科学中的作用。

Pandas 库提供 Python 或 C 后端源代码。

可以使用两种策略来完成数据分析 -

  • Series

  • DataFrames

Pandas Series

Pandas 定义了一个名为 Series 的数组,可用于存储任何类型的数据。它是网格或一维数组的单列。Series 是与不同标签单独关联并具有链接到每行的唯一索引值的值的集合。创建 Series 时,这些独特的索引值是动态定义的。

创建新系列

创建一个空系列 −

import pandas as pd
s=pd.Series()

让我们看看其他实例。

情况 1:仅标量值


import pandas as pd
array= [9,6,3,2,8,5]
seri= pd.Series(array)
print(seri)

输出

0 9
1 6
2 3
3 2
4 8
5 5
dtype: int64

使用罗马数字索引打印系列 −

index=['i' , 'ii', 'iii', 'iv', 'v', 'vi']
seri1= pd.Series(array, index)
print(seri1)

输出

i      9
ii     6
iii    3
iv     2
v      8
vi     5
dtype: int64

案例 2:字典值

import pandas as pd
dict= {'i' : 1 , 'j': 2, 'k': 3, 'l': 4}
s= pd.Series(dict)
print(s)

输出

i  1
j  2
k  3
l  4
dtype: int64

案例 3:多维数组

import pandas as pd
array= [[1,2], [3,4,5], [6,7,8]]
s=pd.Series(array)
print(s)

输出

0       [1, 2]
1    [3, 4, 5]
2    [6, 7, 8]
dtype: object

Pandas DataFrame

由行和列组成的二维数据结构称为 Pandas DataFrame。以下关键的 Pandas 结构由一系列系列组成,是 Excel 工作表上的多维表。它简化了表格数据,其中每行代表一个观察值,每列代表一个变量。

以下是展示 DataFrame 如何运作的插图。下面的代码片段中也可以看到同样的情况。

import pandas as pd
data= {
   "calories": [100,200,300],
   "duration" :[20,30,35]
}
df=pd.DataFrame(data)
print(df)

输出

calories duration
0   100      20
1   200      30
2   300      35

让我们看看其他实例。

案例 1:标量值

import pandas as pd
dic1= {'i' : 1 , 'j': 2, 'k': 3, 'l': 4}
dic2= {'i' :5 , 'j': 6, 'k': 7, 'l': 8, 'm' :9}
instance= {'first' : dic1, 'second': dic2}
df= pd.DataFrame(instance)
print(df)

输出

first  second
i    1.0       5
j    2.0       6
k    3.0       7
l    4.0       8
m    NaN       9

案例 2:系列数据

import pandas as pd
s1=pd.Series([1,2,3,4,5])
s2=pd.Series(['a','b','c'])
s3=pd.Series(['A','B','C','D'])
instance= {'first' : s1, 'second': s2, 'third': s3}
df= pd.DataFrame(instance)
print(df)

输出

first second third
0      1      a     A
1      2      b     B
2      3      c     C
3      4    NaN     D
4      5    NaN   NaN

案例 3:2D NumPy 数组

构建 DataFrame 时,2D 数组的尺寸必须保持不变。

import pandas as pd
array1= [[1,2], [3,4,5], [6,7,8]]
array2= [['a','b'], ['c','d','e'], ['f','g','h']]
instance= {'first' :array1, 'second': array2}
df= pd.DataFrame(instance)
print(df)

输出

first     second
0     [1, 2]     [a, b]
1    [3, 4, 5]  [c, d, e]
2    [6, 7, 8]  [f, g, h]

数据科学和机器学习中的 Pandas

数据收集后,会保存在多个数据库中,可以从中访问数据以用于不同的数据科学活动和项目。包括数据科学在内的工作有两个阶段 -

  • 数据清理阶段

  • 分析探索性数据

这些阶段为您提供了一个可与之交互的顶级数据集。从这个经过过滤的数据集开始,可以创建一个机器学习模型。 Pandas 库提供了广泛的功能,让您从首次获取原始数据到提供高质量数据进行额外测试期间都可以执行操作。

数据分析的学习成果是开发人员选择深入研究和机器学习模型的适当路径的跳板。

比较使用各种 Pandas 操作和流程创建的多个子集可以成为统计分析的一部分

我们已经看到了使用 Pandas 进行数据操作和数据分析的示例。让我们仔细看看机器学习如何处理数据。

Pandas 如何加速 ML 模型的创建

每个机器学习项目都需要大量时间投入。这是因为它使用了多种技术,例如在创建 ML 模型之前研究基本趋势和模式。 Python Pandas 包提供了各种用于操作和分析数据的工具。

Pandas 对于创建 ML 模型至关重要。以下是几个程序。

导入数据

Pandas 库中提供了各种各样的工具来从各种来源读取数据。CSV 文件可以用作数据集函数,为数据处理提供了广泛的选择。以下是导入数据的代码部分。

查找缺失数据

Pandas 提供了一种工具来确定处理缺失数据的方法数量。首先,您可以使用 ISNA() 方法检查数据并识别任何缺失值。此函数检查每行和每列的值。如果值不存在,则返回 True,否则返回 False。

可视化数据

可以通过在 Pandas 中绘图有效地查看数据。在 DataFrame 中,您可以使用 plt.plot() 函数。您必须先导入 Matplotlib 才能绘图。直方图、线、箱线图、散点图和条形图只是此函数支持的几种数据可视化形式。与数据聚合工具结合使用时,绘图功能非常有用。

特征转换

Pandas 提供了各种特征转换函数。由于最广泛使用的机器库只接受数值数据,因此必须转换非数值特征。Pandas 中提供的函数 gets dummies 在应用于数据列时将每个不同值转换为二进制列。

结论

Pandas 是一种流行的数据科学和数据分析工具,被许多专业人士和数据科学家使用。借助 Pandas DataFrame,他们可以处理数据并创建机器学习模型。虽然学习曲线略有不同,但它大大提高了数据处理的效率。


相关文章