NumPy - 描述性统计
NumPy 中的描述性统计
NumPy 中的描述性统计是指通过各种统计指标来概括和理解数据集的主要特征。它包括计算平均值、中位数、标准差、方差和百分位数等操作。
NumPy 提供了 numpy.mean()、numpy.median()、numpy.std() 和 numpy.percentile() 等函数来快速计算这些统计数据,帮助您了解数据的集中趋势、分布和扩散趋势。
NumPy mean() 函数
numpy.mean() 函数计算指定轴上元素的算术平均值。如果未指定轴,则计算展平数组的平均值。
平均值是集中趋势的度量,表示数据集中所有值的平均值。
示例:计算平均值
在以下示例中,我们使用 numpy.mean() 函数计算数字数组的平均值 -
import numpy as np # 定义数组 data = np.array([1, 2, 3, 4, 5]) # 计算数组的平均值 mean_value = np.mean(data) print(f"数组的平均值:{mean_value}")
以下是获得的输出 -
数组的平均值:3.0
NumPy median() 函数
numpy.median() 函数计算沿指定轴的元素的中位数。如果未指定轴,则计算展平数组的中位数。
中位数是排序数据集中的中间值,在处理偏态分布时很有用。
示例:计算中位数
在下面的示例中,我们使用 numpy.median() 函数计算数组的中位数 -
import numpy as np # 定义一个数组 data = np.array([1, 2, 3, 4, 5]) # 计算数组的中位数 median_value = np.median(data) print(f"数组中位数:{median_value}")
这将产生以下结果 -
数组中位数:3.0
查找数据集的众数
NumPy 没有直接计算众数的函数。但是,您可以使用 SciPy 库中的 scipy.stats.mode() 函数来计算众数。众数表示数据集中出现频率最高的值。
示例:计算众数
在本例中,我们使用 scipy.stats.mode() 函数来计算数组的众数 -
import numpy as np from scipy import stats data = np.array([1, 2, 3, 4, 5]) # 计算数组的众数 mode_value = stats.mode(data) print(f"数组的众数:{mode_value.mode[0]}")
以下是上述代码的输出 -
/home/cg/root/6745741fe1e0a/main.py:6: FutureWarning: Unlike other reduction functions (e.g. 'skew', 'kurtosis'), the default behavior of 'mode' typically preserves the axis it acts along. In SciPy 1.11.0, this behavior will change: the default value of 'keepdims' will become False, the 'axis' over which the statistic is taken will be eliminated, and the value None will no longer be accepted. Set 'keepdims' to True or False to avoid this warning. mode_value = stats.mode(data) Mode of the array: 1
NumPy var() 函数
numpy.var() 函数计算元素沿指定轴的方差。方差衡量数据点的分散程度。
方差表示数据点与均值的距离,用于衡量数据的离散程度。
示例:计算方差
在下面的示例中,我们使用 numpy.var() 函数计算数组的方差 -
import numpy as np # 定义数组 data = np.array([1, 2, 3, 4, 5]) # 计算数组的方差 variance_value = np.var(data) print(f"数组的方差:{variance_value}")
得到的输出如下所示 -
方差数组:2.0
NumPy std() 函数
numpy.std() 函数计算元素沿指定轴的标准差。标准差是方差的平方根,用于衡量数据点的离散程度。
示例:计算标准差
在本例中,我们使用 numpy.std() 函数计算数组的标准差 -
import numpy as np # 定义数组 data = np.array([1, 2, 3, 4, 5]) # 计算数组的标准差 std_value = np.std(data) print(f"数组的标准差:{std_value}")
执行上述代码后,我们得到以下输出 -
数组的标准差: 1.4142135623730951
查找最小值和最大值
numpy.min() 和 numpy.max() 函数分别返回数组中的最小值和最大值。最小值是数组中最小的数据点,最大值是数组中最大的数据点。
示例:查找最小值和最大值
在下面的示例中,我们使用 numpy.min() 和 numpy.max() 函数计算数组的最小值和最大值 -
import numpy as np # 定义一个数组 data = np.array([1, 2, 3, 4, 5]) # 计算数组的最小值和最大值 min_value = np.min(data) max_value = np.max(data) print(f"数组的最小值:{min_value}") print(f"数组的最大值:{max_value}")
结果如下:-
数组的最小值:1 数组的最大值:5
计算数据集的范围
数据集的范围是最大值与最小值之间的差值。您可以使用 numpy.ptp() 函数计算它。范围指示了值在数据集中的分布情况。
示例:计算范围
在本例中,我们使用 numpy.ptp() 函数计算数组的范围 -
import numpy as np # 定义一个数组 data = np.array([1, 2, 3, 4, 5]) # 计算数组的范围 range_value = np.ptp(data) print(f"数组的范围:{range_value}")
我们得到如下所示的输出 -
数组的范围:4
计算百分位数
numpy.percentile() 函数计算沿指定轴的数据的第 q 个百分位数。百分位数将数据集分成 100 个相等的部分,帮助我们理解数据的分布。
示例
在以下示例中,我们使用 numpy.percentile() 函数计算数组的第 25、50(中位数)和第 75 个百分位数 -
import numpy as np # 定义数组 data = np.array([1, 2, 3, 4, 5]) # 计算第 25、50 和 75 个百分位数 percentile_25 = np.percentile(data, 25) percentile_50 = np.percentile(data, 50) percentile_75 = np.percentile(data, 75) print(f"25% 百分位数: {percentile_25}") print(f"50% 百分位数 (中位数): {percentile_50}") print(f"75% 百分位数: {percentile_75}")
结果如下:
25% 百分位数:2.0 50% 百分位数 (中位数): 3.0 75% 百分位数:4.0
四分位距 (IQR) 计算
四分位距 (IQR) 是 75% 百分位数和 25% 百分位数之间的范围。它衡量的是中间 50% 数据的分布范围。 IQR 是了解数据中心 50% 范围内变异性的有用指标。
示例:计算四分位距 (IQR)
在以下示例中,我们通过从 75 百分位数中减去 25 百分位数来计算数组的四分位距 (IQR) -
import numpy as np # 定义数组 data = np.array([1, 2, 3, 4, 5]) # 计算四分位距 iqr_value = np.percentile(data, 75) - np.percentile(data, 25) print(f"四分位距 (IQR): {iqr_value}")
以下是得到的输出 −
四分位距 (IQR):2.0