Python - 测量方差
在统计学中,方差是衡量数据集中某个值与平均值的距离的指标。换句话说,它表明了这些值的分散程度。 它是通过使用标准差来测量的。另一种常用的方法是偏度。
这两种方法都是使用 pandas 库中提供的函数来计算的。
测量标准差
标准差是方差的平方根。方差是数据集中值与平均值的平方差的平均值。在 Python 中,我们使用 pandas 库中的函数 std() 来计算这个值。
import pandas as pd #创建系列词典 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack', 'Lee','Chanchal','Gasper','Naviya','Andres']), 'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])} #创建 DataFrame df = pd.DataFrame(d) # 计算标准差 print df.std()
其输出如下 −
Age 7.265527 Rating 0.661628 dtype: float64
测量偏斜度
用于确定数据是对称的还是偏斜的。如果索引介于 -1 和 1 之间,则分布是对称的。如果索引不超过 -1 则它向左倾斜,如果索引至少为 1,则它向右倾斜
import pandas as pd #创建系列词典 d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack', 'Lee','Chanchal','Gasper','Naviya','Andres']), 'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])} #创建一个DataFrame df = pd.DataFrame(d) print df.skew()
其输出如下 −
Age 1.443490 Rating -0.153629 dtype: float64
因此,年龄评分的分布是对称的,而年龄的分布则向右倾斜。