NumPy 教程

NumPy 首页 NumPy 简介 NumPy 环境

数组

NumPy Ndarray 对象 NumPy 数据类型

创建和操作数组

NumPy 数组创建例程 NumPy 数组操作 NumPy 基于现有数据创建数组 NumPy 基于数值范围创建数组 NumPy 数组迭代 NumPy 重塑数组 NumPy 连接数组 NumPy 堆叠数组 NumPy 拆分数组 NumPy 展平数组 NumPy 转置数组

索引与切片

NumPy 索引 &切片 NumPy 索引 NumPy 切片 NumPy 高级索引 NumPy 高级索引 NumPy 字段访问 NumPy 使用布尔数组切片

数组属性与操作

NumPy 数组属性 NumPy 数组形状 NumPy 数组大小 NumPy 数组步长 NumPy 数组元素大小 NumPy 广播 NumPy 算术运算 NumPy 数组加法 NumPy 数组减法 NumPy 数组乘法 NumPy 数组除法

高级数组运算

NumPy 交换数组的轴 NumPy 字节交换 NumPy 副本和视图 NumPy 逐元素数组比较 NumPy 过滤数组 NumPy 连接数组 NumPy 排序、搜索& 计数函数 NumPy 搜索数组 NumPy 数组并集 NumPy 查找唯一行 NumPy 创建日期时间数组 NumPy 二元运算符 NumPy 字符串函数 NumPy 矩阵库 NumPy 线性代数 NumPy Matplotlib NumPy 使用 Matplotlib 绘制直方图

排序和高级操作

NumPy 数组排序 NumPy 沿轴排序 NumPy 使用花式索引进行排序 NumPy 结构化数组 NumPy 创建结构化数组 NumPy 操作结构化数组 NumPy 记录数组 NumPy 加载数组 NumPy 保存数组 NumPy 将值附加到数组 NumPy 交换列数组 NumPy 将轴插入数组

处理缺失数据

NumPy 处理缺失数据 NumPy 识别缺失值 NumPy 移除缺失数据 NumPy 插补缺失值数据

性能优化

NumPy 使用数组进行性能优化

线性代数

NumPy 线性代数 NumPy 矩阵库 NumPy 矩阵加法 NumPy 矩阵减法 NumPy 矩阵乘法 NumPy 逐元素矩阵运算 NumPy 点积 NumPy 矩阵求逆 NumPy 行列式计算 NumPy 特征值 NumPy 特征向量 NumPy 奇异值分解 NumPy 求解线性方程 NumPy 矩阵范数

元素级矩阵运算

NumPy 总和 NumPy 平均值 NumPy 中位数 NumPy 最小值 NumPy 最大值

集合运算

NumPy 唯一元素 NumPy 交集 NumPy 并集 NumPy 差集

随机数生成

NumPy 随机数生成器 NumPy 排列和重排 NumPy 均匀分布 NumPy 正态分布 NumPy 二项分布 NumPy 泊松分布 NumPy 指数分布 NumPy 瑞利分布 NumPy 逻辑分布 NumPy 帕累托分布 NumPy 使用 Seaborn 可视化分布 NumPy 多项分布 NumPy 卡方分布 NumPy Zipf 分布

文件输入 &输出

NumPy 使用 NumPy 进行 I/O NumPy 从文件读取数据 NumPy 将数据写入文件 NumPy 支持的文件格式

数学函数

NumPy 数学函数 NumPy 三角函数 NumPy 指数函数 NumPy 对数函数 NumPy 双曲函数 NumPy 舍入函数

傅里叶变换

NumPy 离散傅里叶变换 (DFT) NumPy 快速傅里叶变换 (FFT) NumPy 逆傅里叶变换 NumPy 傅里叶级数和变换 NumPy 信号处理应用 NumPy 卷积

多项式

NumPy 多项式表示 NumPy 多项式运算 NumPy 求多项式的根 NumPy 求多项式的根

统计

NumPy 统计函数 NumPy 描述性统计

日期时间函数

NumPy 日期和时间基础知识 NumPy 表示日期和时间 NumPy 日期和时间运算 NumPy 使用日期时间进行索引 NumPy 时区处理 NumPy 时间序列分析 NumPy 处理时间增量 NumPy 闰秒处理 NumPy 矢量化日期时间运算

ufunc

NumPy ufunc 简介 NumPy 创建通用函数 (ufunc) NumPy 算术通用函数 (ufunc) NumPy 小数舍入 ufunc NumPy 对数通用函数(ufunc) NumPy 求和通用函数 (ufunc) NumPy 乘积通用函数 (ufunc) NumPy 差分通用函数 (ufunc) NumPy 寻找最小公倍数 (LCM) NumPy 寻找最大公约数 (GCD) NumPy 三角函数 (ufunc) NumPy 双曲线 (ufunc) NumPy 集合运算(ufunc)

实用资源

NumPy 快速指南 NumPy 备忘单


NumPy percentile() 函数

NumPy percentile() 函数计算输入数组沿指定轴的第 n 个百分位数。百分位数是指给定百分比的观测值低于该值。它在统计学中常用于理解数据的分布。

percentile() 函数的运算方式与中位数类似,但它可以计算数据中的第 n 个百分位数值,同时考虑数据点的分布和重复性。与始终返回中间值的中位数不同,百分位数函数可以提供任何指定的百分位数,即使数据集中存在重复值。

percentile() 函数在所需百分位数位于数组中两个数据点之间时执行插值。默认情况下,它使用线性插值来估算结果。

语法

以下是 NumPy percentile() 函数的语法 -

numpy.percentile(a, q, axis=None, out=None, overwrite_input=False, method='linear', keepdims=False, weights=None, interpolation=None)

参数

以下是 NumPy percentile() 函数的参数 -

  • a:输入数组。它可以是 NumPy 数组、列表或标量值。
  • q:要计算的百分位数值或百分位数组。它应该介于 0 到 100 之间。
  • axis(可选):计算百分位的轴。如果为 None,则百分位将在整个展平数组上计算。
  • out(可选):用于存储结果的备用输出数组。它必须与预期输出具有相同的形状。
  • overwrite_input(可选):如果为 True,则输入数组将被就地修改。默认值为 False。
  • weights:如果 weights=None,则假定 a 中的所有数据的权重都等于 1。仅 method=inverted_cdf 支持权重。
  • keepdims(可选):如果为 True,则缩小后的维度在输出中保留为 1 的维度。默认值为 False。
  • interpolation(可选):method 关键字参数的弃用名称。
  • method(可选):指定插值方法。选项包括:
  • linear(默认):两个数据点之间的线性插值。
  • lower:当百分位数位于两个值之间时,使用较低的值。
  • higher:当百分位数位于两个值之间时,使用较高的值。
  • midpoint:当百分位数位于两个值之间时,使用两个值的中点。
  • nearest:使用最近的值。

返回值

此函数根据输入,将计算出的百分位数以标量或 NumPy 数组的形式返回。结果基于指定的插值方法和轴。

示例

以下是使用 NumPy percentile() 函数计算数组第 50 个百分位数(中位数)的基本示例 -

import numpy as np
# 输入数组
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
# 计算第 50 个百分位数(中位数)
percentile_50 = np.percentile(data, 50)
print("第 50 个百分位数:", percentile_50)

输出

以下是上述代码的输出−

第 50 个百分位数:5.5

示例:沿轴计算百分位数

percentile() 函数可以计算多维数组中沿指定轴的百分位数。在以下示例中,我们计算二维数组沿行(axis=1)的第 90 个百分位数 -

import numpy as np
# 二维数组
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
# 沿行(axis=1)的第 90 个百分位数
percentile_90_rows = np.percentile(data, 90, axis=1)
print("沿行的第 90 个百分位数:", percentile_90_rows)

输出

以下是上述代码的输出 -

沿行的第 90 个百分位数:[ 2.8 5.8 8.8]

示例:'method' 参数的用法

在以下示例中,我们使用 'midpoint' 插值方法计算了数组的第 25 个百分位数 -

import numpy as np
# 输入数组
data = np.array([1, 3, 5, 7])
# 使用"中点法"计算 25% 百分位数
percentile_25_midpoint = np.percentile(data, 25, method='midpoint')
print("25% 百分位数(中点法):", percentile_25_midpoint)

输出

以下是上述代码的输出 -

25% 百分位数(中点法):2.0

示例:使用"percentile()"的多维数组

percentile() 函数也适用于多维数组。在以下示例中,我们计算了二维数组沿列(axis=0)的第 75 个百分位数 -

import numpy as np
# 二维数组
data = np.array([[1, 3, 5], [2, 4, 6], [3, 5, 7]])
# 沿列(axis=0)的第 75 个百分位数
percentile_75_columns = np.percentile(data, 75, axis=0)
print("沿列的第 75 个百分位数:", percentile_75_columns)

输出

以下是上述代码的输出 -

沿列的第 75 个百分位数:[2.5 4.5 6.5]

示例:'percentile()' 的图形表示

在以下示例中,我们绘制了应用于给定数据集的不同插值方法的百分位数。数据集包含值 [0, 1, 2, 3],我们计算了 0100 范围内的百分位数。

我们使用 NumPy 计算了每种指定方法的百分位数,并使用 matplotlib 对结果进行可视化。该图演示了不同的插值方法如何影响百分位数估计值,每种方法都用不同的线型和颜色表示 -

import numpy as np
import matplotlib.pyplot as plt

# 定义输入数据和百分位数
a = np.arange(4) # 数据:[0, 1, 2, 3]
p = np.linspace(0, 100, 6001) # 百分位数:0 到 100,步长为 0.01%

# 创建用于绘图的图形和坐标轴
fig, ax = plt.subplots(figsize=(10, 6))

# 定义插值方法及其样式
lines = [
    ('linear', '-', 'C0'),
    ('inverted_cdf', ':', 'C1'),
    ('averaged_inverted_cdf', '-.', 'C1'),
    ('closest_observation', ':', 'C2'),
    ('interpolated_inverted_cdf', '--', 'C1'),
    ('hazen', '--', 'C3'),
    ('weibull', '-.', 'C4'),
    ('median_unbiased', '--', 'C5'),
    ('normal_unbiased', '-.', 'C6'),
]

# 绘制每种方法的百分位数
for method, style, color in lines:
ax.plot(
p, np.percentile(a, p, method=method),
label=method, linestyle=style, color=color
)

# 配置图
ax.set(
    title=f'不同方法和数据的百分位数:{a}',
    xlabel='百分位数',
    ylabel='估计的百分位数值',
    yticks=a
)
ax.legend(bbox_to_anchor=(1.03, 1), loc='左上')
plt.tight_layout() # 调整布局以适应图例
plt.show()

输出

该图显示了值范围内恒定的第50个百分位线 -

百分位函数可视化

numpy_statistical_functions.html