NumPy 教程

NumPy 首页 NumPy 简介 NumPy 环境

数组

NumPy Ndarray 对象 NumPy 数据类型

创建和操作数组

NumPy 数组创建例程 NumPy 数组操作 NumPy 基于现有数据创建数组 NumPy 基于数值范围创建数组 NumPy 数组迭代 NumPy 重塑数组 NumPy 连接数组 NumPy 堆叠数组 NumPy 拆分数组 NumPy 展平数组 NumPy 转置数组

索引与切片

NumPy 索引 &切片 NumPy 索引 NumPy 切片 NumPy 高级索引 NumPy 高级索引 NumPy 字段访问 NumPy 使用布尔数组切片

数组属性与操作

NumPy 数组属性 NumPy 数组形状 NumPy 数组大小 NumPy 数组步长 NumPy 数组元素大小 NumPy 广播 NumPy 算术运算 NumPy 数组加法 NumPy 数组减法 NumPy 数组乘法 NumPy 数组除法

高级数组运算

NumPy 交换数组的轴 NumPy 字节交换 NumPy 副本和视图 NumPy 逐元素数组比较 NumPy 过滤数组 NumPy 连接数组 NumPy 排序、搜索& 计数函数 NumPy 搜索数组 NumPy 数组并集 NumPy 查找唯一行 NumPy 创建日期时间数组 NumPy 二元运算符 NumPy 字符串函数 NumPy 矩阵库 NumPy 线性代数 NumPy Matplotlib NumPy 使用 Matplotlib 绘制直方图

排序和高级操作

NumPy 数组排序 NumPy 沿轴排序 NumPy 使用花式索引进行排序 NumPy 结构化数组 NumPy 创建结构化数组 NumPy 操作结构化数组 NumPy 记录数组 NumPy 加载数组 NumPy 保存数组 NumPy 将值附加到数组 NumPy 交换列数组 NumPy 将轴插入数组

处理缺失数据

NumPy 处理缺失数据 NumPy 识别缺失值 NumPy 移除缺失数据 NumPy 插补缺失值数据

性能优化

NumPy 使用数组进行性能优化

线性代数

NumPy 线性代数 NumPy 矩阵库 NumPy 矩阵加法 NumPy 矩阵减法 NumPy 矩阵乘法 NumPy 逐元素矩阵运算 NumPy 点积 NumPy 矩阵求逆 NumPy 行列式计算 NumPy 特征值 NumPy 特征向量 NumPy 奇异值分解 NumPy 求解线性方程 NumPy 矩阵范数

元素级矩阵运算

NumPy 总和 NumPy 平均值 NumPy 中位数 NumPy 最小值 NumPy 最大值

集合运算

NumPy 唯一元素 NumPy 交集 NumPy 并集 NumPy 差集

随机数生成

NumPy 随机数生成器 NumPy 排列和重排 NumPy 均匀分布 NumPy 正态分布 NumPy 二项分布 NumPy 泊松分布 NumPy 指数分布 NumPy 瑞利分布 NumPy 逻辑分布 NumPy 帕累托分布 NumPy 使用 Seaborn 可视化分布 NumPy 多项分布 NumPy 卡方分布 NumPy Zipf 分布

文件输入 &输出

NumPy 使用 NumPy 进行 I/O NumPy 从文件读取数据 NumPy 将数据写入文件 NumPy 支持的文件格式

数学函数

NumPy 数学函数 NumPy 三角函数 NumPy 指数函数 NumPy 对数函数 NumPy 双曲函数 NumPy 舍入函数

傅里叶变换

NumPy 离散傅里叶变换 (DFT) NumPy 快速傅里叶变换 (FFT) NumPy 逆傅里叶变换 NumPy 傅里叶级数和变换 NumPy 信号处理应用 NumPy 卷积

多项式

NumPy 多项式表示 NumPy 多项式运算 NumPy 求多项式的根 NumPy 求多项式的根

统计

NumPy 统计函数 NumPy 描述性统计

日期时间函数

NumPy 日期和时间基础知识 NumPy 表示日期和时间 NumPy 日期和时间运算 NumPy 使用日期时间进行索引 NumPy 时区处理 NumPy 时间序列分析 NumPy 处理时间增量 NumPy 闰秒处理 NumPy 矢量化日期时间运算

ufunc

NumPy ufunc 简介 NumPy 创建通用函数 (ufunc) NumPy 算术通用函数 (ufunc) NumPy 小数舍入 ufunc NumPy 对数通用函数(ufunc) NumPy 求和通用函数 (ufunc) NumPy 乘积通用函数 (ufunc) NumPy 差分通用函数 (ufunc) NumPy 寻找最小公倍数 (LCM) NumPy 寻找最大公约数 (GCD) NumPy 三角函数 (ufunc) NumPy 双曲线 (ufunc) NumPy 集合运算(ufunc)

实用资源

NumPy 快速指南 NumPy 备忘单


NumPy - 二项分布

什么是二项分布?

二项分布是一种离散概率分布,它描述在固定次数的独立试验中,每次试验的成功概率相同。

它由两个参数定义:试验次数 (n) 和每次试验的成功概率 (p)。二项分布的概率质量函数 (PMF) 给出在 n 次试验中恰好获得 k 次成功的概率。 PMF 的公式为 −

P(X = k) = C(n, k) * pk * (1 - p)(n - k)

其中 C(n, k) 是二项式系数,计算公式为 −

C(n, k) = n! / (k! * (n - k)!)

NumPy 中的二项分布

NumPy 提供了 numpy.random.binomial() 函数来根据二项分布生成样本。此函数允许您指定试验次数、成功概率以及生成样本的大小。

示例

在此示例中,我们从二项分布中生成 10 个随机样本,该分布包含 10 次试验,成功概率为 0.5 -

import numpy as np

# 从二项分布中生成 10 个随机样本,该分布包含 10 次试验,成功概率为 0.5
samples = np.random.binomial(n=10, p=0.5, size=10)
print("来自二项分布的随机样本:", sample)

以下是获得的输出 -

来自二项分布的随机样本:[5 7 5 7 1 3 5 8 7 5]

二项分布可视化

二项分布可视化有助于更好地理解其性质。我们可以使用 Matplotlib 等库来创建直方图,以显示生成样本的分布。

示例

在下面的示例中,我们首先从二项分布中生成 1000 个随机样本,其中进行了 10 次试验,成功概率为 0.5。然后,我们通过创建直方图来可视化该分布 -

import numpy as np
import matplotlib.pyplot as plt

# 从二项分布中生成 1000 个随机样本,该分布包含 10 次试验,成功概率为 0.5
samples = np.random.binomial(n=10, p=0.5, size=1000)

# 创建直方图来可视化分布
plt.hist(samples, bins=np.arange(12) - 0.5, edgecolor='black', density=True)
plt.title('Binomial Distribution')
plt.xlabel('Number of successes')
plt.ylabel('Frequency')
plt.xticks(range(11))
plt.show()

直方图显示了二项式试验中成功次数的频率。条形表示每种可能结果的概率,构成了二项分布的特征形状 -

二项式分布

二项式分布的应用

二项式分布广泛应用于统计学、医学、质量控制和社会科学等各个领域。以下是一些实际应用 -

  • 质量控制: 用于模拟一批产品中的缺陷品数量。
  • 医学: 用于模拟从一组患者中治愈的患者数量。
  • 调查分析: 用于模拟对调查问题做出积极回应的人数。

生成累积二项分布

有时,我们对二项分布的累积分布函数 (CDF) 感兴趣,它给出了在 n 次试验中获得最多 k 次成功的概率。

NumPy 没有内置二项分布的 CDF 函数,但我们可以使用循环和 scipy.stats.binom.cdf() 函数来计算它。 SciPy 库。

示例

在本例中,我们使用 NumPy 库生成累积二项分布 -

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import binom

# 定义试验次数和成功概率
n = 10
p = 0.5

# 生成累积分布函数 (CDF) 值
x = np.arange(0, n+1)
cdf = binom.cdf(x, n, p)

# 绘制 CDF 值
plt.plot(x, cdf, marker='o', linestyle='-', color='b')
plt.title('累积二项分布')
plt.xlabel('成功次数')
plt.ylabel('累积概率)
plt.grid(True)
plt.show()

该图显示了二项式试验中每次成功次数的累积概率。 CDF 是一个阶跃函数,随着成功次数的增加,其值递增至 1 -

累积概率

二项分布的性质

二项分布有几个关键性质,它们是 -

  • 离散性:二项分布是离散的,这意味着它只接受整数值。
  • 均值:二项分布的均值由 n * p 给出。
  • 方差:二项分布的方差由 n * p * (1 - p) 给出。
  • 对称性:当 p = 0.5 时,二项分布为对称。

二项分布的假设检验

二项分布常用于假设检验,尤其是在比例检验中。

二项分布是一种常见的检验方法,用于确定样本中成功的比例是否与指定比例存在显著差异。以下是使用 scipy.stats.binom_test() 函数的示例。

示例

在此示例中,我们执行二项分布检验来确定成功的比例(10 次中有 8 次)是否与 0.5 存在显著差异。 p值表示假设零假设成立,获得至少与观察结果同样极端的结果的概率 -

from scipy.stats import binom_test

# 成功次数
successes = 8

# 试验次数
trials = 10

# 假设的成功概率
p = 0.5

# 执行二项式检验
p_value = binom_test(successes, trials, p)
print("二项式检验的P值:", p_value)

得到的输出如下所示 -

/home/cg/root/673c4ae169586/main.py:13: DeprecationWarning: 'binom_test' 已弃用,建议使用 'binomtest'从 1.7.0 版本开始,并将在 Scipy 1.12.0 中移除。
p_value = binom_test(successes, trials, p)
二项式检验的 P 值:0.109375

种子设定以确保可重复性

为确保可重复性,您可以在生成二项分布之前设置特定的种子。这样可以确保每次运行代码时都会生成相同的随机数序列。

示例

通过设置种子,可以确保每次执行代码时随机生成的结果都相同,如下例所示 -

import numpy as np

# 设置种子以确保可重复性
np.random.seed(42)

# 从二项分布中生成 10 个随机样本,其中试验次数为 10 次,成功概率为 0.5
samples = np.random.binomial(n=10, p=0.5, size=10)
print("种子为 42 的随机样本:", sample)

生成的结果如下 -

种子为 42 的随机样本:[4 8 6 5 3 3 3 7 5 6]