NumPy 教程

NumPy 首页 NumPy 简介 NumPy 环境

数组

NumPy Ndarray 对象 NumPy 数据类型

创建和操作数组

NumPy 数组创建例程 NumPy 数组操作 NumPy 基于现有数据创建数组 NumPy 基于数值范围创建数组 NumPy 数组迭代 NumPy 重塑数组 NumPy 连接数组 NumPy 堆叠数组 NumPy 拆分数组 NumPy 展平数组 NumPy 转置数组

索引与切片

NumPy 索引 &切片 NumPy 索引 NumPy 切片 NumPy 高级索引 NumPy 高级索引 NumPy 字段访问 NumPy 使用布尔数组切片

数组属性与操作

NumPy 数组属性 NumPy 数组形状 NumPy 数组大小 NumPy 数组步长 NumPy 数组元素大小 NumPy 广播 NumPy 算术运算 NumPy 数组加法 NumPy 数组减法 NumPy 数组乘法 NumPy 数组除法

高级数组运算

NumPy 交换数组的轴 NumPy 字节交换 NumPy 副本和视图 NumPy 逐元素数组比较 NumPy 过滤数组 NumPy 连接数组 NumPy 排序、搜索& 计数函数 NumPy 搜索数组 NumPy 数组并集 NumPy 查找唯一行 NumPy 创建日期时间数组 NumPy 二元运算符 NumPy 字符串函数 NumPy 矩阵库 NumPy 线性代数 NumPy Matplotlib NumPy 使用 Matplotlib 绘制直方图

排序和高级操作

NumPy 数组排序 NumPy 沿轴排序 NumPy 使用花式索引进行排序 NumPy 结构化数组 NumPy 创建结构化数组 NumPy 操作结构化数组 NumPy 记录数组 NumPy 加载数组 NumPy 保存数组 NumPy 将值附加到数组 NumPy 交换列数组 NumPy 将轴插入数组

处理缺失数据

NumPy 处理缺失数据 NumPy 识别缺失值 NumPy 移除缺失数据 NumPy 插补缺失值数据

性能优化

NumPy 使用数组进行性能优化

线性代数

NumPy 线性代数 NumPy 矩阵库 NumPy 矩阵加法 NumPy 矩阵减法 NumPy 矩阵乘法 NumPy 逐元素矩阵运算 NumPy 点积 NumPy 矩阵求逆 NumPy 行列式计算 NumPy 特征值 NumPy 特征向量 NumPy 奇异值分解 NumPy 求解线性方程 NumPy 矩阵范数

元素级矩阵运算

NumPy 总和 NumPy 平均值 NumPy 中位数 NumPy 最小值 NumPy 最大值

集合运算

NumPy 唯一元素 NumPy 交集 NumPy 并集 NumPy 差集

随机数生成

NumPy 随机数生成器 NumPy 排列和重排 NumPy 均匀分布 NumPy 正态分布 NumPy 二项分布 NumPy 泊松分布 NumPy 指数分布 NumPy 瑞利分布 NumPy 逻辑分布 NumPy 帕累托分布 NumPy 使用 Seaborn 可视化分布 NumPy 多项分布 NumPy 卡方分布 NumPy Zipf 分布

文件输入 &输出

NumPy 使用 NumPy 进行 I/O NumPy 从文件读取数据 NumPy 将数据写入文件 NumPy 支持的文件格式

数学函数

NumPy 数学函数 NumPy 三角函数 NumPy 指数函数 NumPy 对数函数 NumPy 双曲函数 NumPy 舍入函数

傅里叶变换

NumPy 离散傅里叶变换 (DFT) NumPy 快速傅里叶变换 (FFT) NumPy 逆傅里叶变换 NumPy 傅里叶级数和变换 NumPy 信号处理应用 NumPy 卷积

多项式

NumPy 多项式表示 NumPy 多项式运算 NumPy 求多项式的根 NumPy 求多项式的根

统计

NumPy 统计函数 NumPy 描述性统计

日期时间函数

NumPy 日期和时间基础知识 NumPy 表示日期和时间 NumPy 日期和时间运算 NumPy 使用日期时间进行索引 NumPy 时区处理 NumPy 时间序列分析 NumPy 处理时间增量 NumPy 闰秒处理 NumPy 矢量化日期时间运算

ufunc

NumPy ufunc 简介 NumPy 创建通用函数 (ufunc) NumPy 算术通用函数 (ufunc) NumPy 小数舍入 ufunc NumPy 对数通用函数(ufunc) NumPy 求和通用函数 (ufunc) NumPy 乘积通用函数 (ufunc) NumPy 差分通用函数 (ufunc) NumPy 寻找最小公倍数 (LCM) NumPy 寻找最大公约数 (GCD) NumPy 三角函数 (ufunc) NumPy 双曲线 (ufunc) NumPy 集合运算(ufunc)

实用资源

NumPy 快速指南 NumPy 备忘单


NumPy - Zipf 分布

什么是 Zipf 分布?

Zipf 分布是一种离散概率分布,用于描述按降序排列的元素的频率。

它遵循元素的频率与其在频率表中的排名成反比的原则,这在自然语言中很常见,其中最常用的单词出现的频率是第二常用单词的两倍,是第三常用单词的三倍,依此类推。

它由参数"s"定义,该参数决定了分布的偏度。示例:大型文本语料库中的词频分布通常遵循 Zipf 分布。从数学上讲,Zipf 分布的概率质量函数 (PMF) 如下:

P(X = k) = (1 / ks) / H(N, s)

其中,k 是秩,s 是表征分布的指数,H(N, s) 是第 N 个广义调和数,用于对分布进行正则化。

在 NumPy 中生成 Zipf 样本

NumPy 提供了 numpy.random.zipf() 函数,用于根据 Zipf 分布生成随机样本。此函数需要两个主要参数:

  • a: 分布参数,也称为指数。
  • size: 要生成的样本数量(可选)。

示例:生成 Zipf 样本

以下示例从指数为 2 的 Zipf 分布中生成 10 个随机样本 -

import numpy as np

# 生成 Zipf 样本
a = 2
samples = np.random.zipf(a, size=10)
print("生成的 Zipf 样本:", sample)

以下是获得的输出 -

生成的 Zipf 样本:[1 3 1 2 1 1 1 1 2 1]

齐普夫分布的性质

齐普夫分布具有几个独特的性质,使其可用于建模现实世界的现象,它们是:-

  • 厚尾:该分布具有厚尾,这意味着少数事件非常常见,而大多数事件则很少见。
  • 幂律:事件发生的概率与其秩的指数次方成反比。
  • 尺度不变:当测量尺度发生变化时,分布保持不变。

示例:可视化齐普夫定律

让我们将齐普夫分布可视化,以更好地理解其性质。我们可以使用 Matplotlib 绘制每个等级的出现频率 -

import numpy as np
import matplotlib.pyplot as plt

# 生成大量样本
a = 2
samples = np.random.zipf(a, size=1000)

# 统计每个等级的出现次数
unique, counts = np.unique(samples, return_counts=True)

# 绘制等级-频率分布
plt.figure(figsize=(10, 6))
plt.loglog(unique, counts, marker="o")
plt.title("Zipf 分布")
plt.xlabel("等级")
plt.ylabel("频率")
plt.show()

我们得到了一个对数-对数图,显示了每个等级的频率,展示 Zipf 分布的厚尾和幂律特性 -

Zipf 分布

Zipf 分布的应用

Zipf 分布在各个领域都有应用,用于模拟少数事物非常常见而许多事物很少见的现象。常见应用包括 -

  • 自然语言处理 (NLP): 在语料库中建模词频。
  • 人口研究: 分析城市人口和规模。
  • 互联网流量: 了解网页访问量和点击量的分布。

示例:文本中的词频

假设我们有一个文本文档,并希望使用 Zipf 分布对词频进行建模 -

import matplotlib.pyplot as plt
from collections import Counter

# 示例文本
text = "the quick brown fox jumps over the lazy dog the quick brown fox"

# 将文本拆分成词
words = text.split()

# 统计词频
word_counts = Counter(words)

# 获取排名和频率
ranks = range(1, len(word_counts) + 1)
frequencies = [count for word, count in word_counts.most_common()]

# 绘制排名-频率分布图
plt.figure(figsize=(10, 6))
plt.loglog(ranks, frequencies, marker="o")
plt.title("词频分布")
plt.xlabel("排名")
plt.ylabel("频率")
plt.show()

我们得到一个对数-对数图,显示了文本中每个单词排名的频率,遵循 Zipf 分布 -

词频

估算 Zipf 指数

在实际应用中,我们经常需要估算 Zipf 分布的指数参数。这可以通过各种统计技术来实现。一种简单的方法是将一条线拟合到秩与频率的对数-对数图上。

示例:估算指数

在下面的示例中,估算的指数接近实际值 (a = 2),证明了估算方法的准确性 -

import numpy as np
from scipy.stats import linregress

# 生成大量样本
a = 2
samples = np.random.zipf(a, size=1000)

# 统计每个秩的出现次数
unique, counts = np.unique(samples, return_counts=True)

# 在对数-对数图上执行线性回归
log_ranks = np.log(unique)
log_counts = np.log(counts)
slope, intercept, r_value, p_value, std_err = linregress(log_ranks, log_counts)

print("估计指数:", -slope)

输出结果如下:-

估计指数:0.8852106553815038

模拟真实场景

让我们使用 Zipf 分布模拟一个真实场景。假设我们要对某个热门新闻网站的访问量分布进行建模。

示例:网站访问量

我们可以从 Zipf 分布中生成大量样本,并分析不同页面的访问量分布 -

import matplotlib.pyplot as plt
import numpy as np

# 生成 Zipf 样本
a = 1.5
samples = np.random.zipf(a, size=10000)

# 统计每次页面访问的次数
unique, counts = np.unique(samples, return_counts=True)

# 绘制排序-频率分布
plt.figure(figsize=(10, 6))
plt.loglog(unique, counts, marker="o")
plt.title("网站访问量分布")
plt.xlabel("页面排名")
plt.ylabel("访问频率")
plt.show()

我们获得了一个对数-对数图,展示了网站访问量的分布,证明了 Zipf 分布的厚尾和幂律特性 -

网站访问量