Pandas DataFrame 中两个数字列之间的相关性
matplotlibpythondata visualization
我们可以使用 pandas.DataFrame.corr 来计算列的两两相关性(不包括 NULL 值)。相关系数表示两个变量之间的线性关联强度。系数范围在 -1 和 1 之间。
要获取 Pandas 数据框中两个数字列之间的相关性,我们可以采取以下步骤 −
- 设置图形大小并调整子图之间和周围的填充。
- 创建一个二维、大小可变、可能异构的表格数据的 Pandas 数据框。
- 比较两列的值并使用 col1.corr(col2) 计算相关系数。
- 在控制台上打印相关系数。
- 要显示图形,请使用 show() 方法。
示例
import pandas as pd from matplotlib import pyplot as plt plt.rcParams["figure.figsize"] = [7.00, 3.50] plt.rcParams["figure.autolayout"] = True df = pd.DataFrame({'lab': [1, 2, 3], 'value': [3, 4, 5]}) col1 = df['lab'] col2 = df['value'] plt.plot(col1, col2) print("相关系数为: ", col1.corr(col2)) plt.show()
输出
它将产生以下输出
相关系数为:1.0
这里,相关系数为 1.0,表示完全相关。因此,我们得到一条直线,因为所有点都位于一条直线上。