数据科学- 统计相关矩阵
相关矩阵
矩阵是按行和列排列的数字数组。
相关矩阵只是显示变量之间相关系数的表格。
在这里,变量在第一行和第一列中表示:
上表使用了来自完整健康数据集的数据。
观察:
- 我们观察到 Duration 和 Calorie_Burnage 密切相关,相关系数为 0.89。 这是有道理的,因为我们训练的时间越长,燃烧的卡路里就越多
- 我们观察到 Average_Pulse 和 Calorie_Burnage 之间几乎没有线性关系(相关系数为 0.02)
- 我们能否得出结论,Average_Pulse 不会影响 Calorie_Burnage? 不,我们稍后会回来回答这个问题!
Python 中的相关矩阵
我们可以使用 Python 中的 corr()
函数来创建相关矩阵。 我们还使用 round()
函数将输出四舍五入到小数点后两位:
实例
Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)
Output:
使用热图
我们可以使用热图来可视化变量之间的相关性:
相关系数越接近1,方块越绿。
相关系数越接近-1,正方形越棕色。
使用 Seaborn 创建热图
我们可以使用 Seaborn 库创建相关热图(Seaborn是基于matplotlib的可视化库):
实例
import matplotlib.pyplot as plt
import seaborn as sns
correlation_full_health = full_health_data.corr()
axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50, 500, n=500),
square=True
)
plt.show()
亲自试一试 »
示例说明:
- 将 seaborn 库导入为 sns。
- 使用 full_health_data 集。
- 使用 sns.heatmap() 告诉 Python 我们想要一个热图来可视化相关矩阵。
- 使用相关矩阵。 定义热图的最大值和最小值。 定义 0 为中心。
- 使用 sns.diverging_palette 定义颜色。 n=500 表示我们希望在同一个调色板中有 500 种颜色。
- square = True 表示我们希望看到正方形。