NumPy 教程

NumPy 首页 NumPy 简介 NumPy 环境

数组

NumPy Ndarray 对象 NumPy 数据类型

创建和操作数组

NumPy 数组创建例程 NumPy 数组操作 NumPy 基于现有数据创建数组 NumPy 基于数值范围创建数组 NumPy 数组迭代 NumPy 重塑数组 NumPy 连接数组 NumPy 堆叠数组 NumPy 拆分数组 NumPy 展平数组 NumPy 转置数组

索引与切片

NumPy 索引 &切片 NumPy 索引 NumPy 切片 NumPy 高级索引 NumPy 高级索引 NumPy 字段访问 NumPy 使用布尔数组切片

数组属性与操作

NumPy 数组属性 NumPy 数组形状 NumPy 数组大小 NumPy 数组步长 NumPy 数组元素大小 NumPy 广播 NumPy 算术运算 NumPy 数组加法 NumPy 数组减法 NumPy 数组乘法 NumPy 数组除法

高级数组运算

NumPy 交换数组的轴 NumPy 字节交换 NumPy 副本和视图 NumPy 逐元素数组比较 NumPy 过滤数组 NumPy 连接数组 NumPy 排序、搜索& 计数函数 NumPy 搜索数组 NumPy 数组并集 NumPy 查找唯一行 NumPy 创建日期时间数组 NumPy 二元运算符 NumPy 字符串函数 NumPy 矩阵库 NumPy 线性代数 NumPy Matplotlib NumPy 使用 Matplotlib 绘制直方图

排序和高级操作

NumPy 数组排序 NumPy 沿轴排序 NumPy 使用花式索引进行排序 NumPy 结构化数组 NumPy 创建结构化数组 NumPy 操作结构化数组 NumPy 记录数组 NumPy 加载数组 NumPy 保存数组 NumPy 将值附加到数组 NumPy 交换列数组 NumPy 将轴插入数组

处理缺失数据

NumPy 处理缺失数据 NumPy 识别缺失值 NumPy 移除缺失数据 NumPy 插补缺失值数据

性能优化

NumPy 使用数组进行性能优化

线性代数

NumPy 线性代数 NumPy 矩阵库 NumPy 矩阵加法 NumPy 矩阵减法 NumPy 矩阵乘法 NumPy 逐元素矩阵运算 NumPy 点积 NumPy 矩阵求逆 NumPy 行列式计算 NumPy 特征值 NumPy 特征向量 NumPy 奇异值分解 NumPy 求解线性方程 NumPy 矩阵范数

元素级矩阵运算

NumPy 总和 NumPy 平均值 NumPy 中位数 NumPy 最小值 NumPy 最大值

集合运算

NumPy 唯一元素 NumPy 交集 NumPy 并集 NumPy 差集

随机数生成

NumPy 随机数生成器 NumPy 排列和重排 NumPy 均匀分布 NumPy 正态分布 NumPy 二项分布 NumPy 泊松分布 NumPy 指数分布 NumPy 瑞利分布 NumPy 逻辑分布 NumPy 帕累托分布 NumPy 使用 Seaborn 可视化分布 NumPy 多项分布 NumPy 卡方分布 NumPy Zipf 分布

文件输入 &输出

NumPy 使用 NumPy 进行 I/O NumPy 从文件读取数据 NumPy 将数据写入文件 NumPy 支持的文件格式

数学函数

NumPy 数学函数 NumPy 三角函数 NumPy 指数函数 NumPy 对数函数 NumPy 双曲函数 NumPy 舍入函数

傅里叶变换

NumPy 离散傅里叶变换 (DFT) NumPy 快速傅里叶变换 (FFT) NumPy 逆傅里叶变换 NumPy 傅里叶级数和变换 NumPy 信号处理应用 NumPy 卷积

多项式

NumPy 多项式表示 NumPy 多项式运算 NumPy 求多项式的根 NumPy 求多项式的根

统计

NumPy 统计函数 NumPy 描述性统计

日期时间函数

NumPy 日期和时间基础知识 NumPy 表示日期和时间 NumPy 日期和时间运算 NumPy 使用日期时间进行索引 NumPy 时区处理 NumPy 时间序列分析 NumPy 处理时间增量 NumPy 闰秒处理 NumPy 矢量化日期时间运算

ufunc

NumPy ufunc 简介 NumPy 创建通用函数 (ufunc) NumPy 算术通用函数 (ufunc) NumPy 小数舍入 ufunc NumPy 对数通用函数(ufunc) NumPy 求和通用函数 (ufunc) NumPy 乘积通用函数 (ufunc) NumPy 差分通用函数 (ufunc) NumPy 寻找最小公倍数 (LCM) NumPy 寻找最大公约数 (GCD) NumPy 三角函数 (ufunc) NumPy 双曲线 (ufunc) NumPy 集合运算(ufunc)

实用资源

NumPy 快速指南 NumPy 备忘单


NumPy - 使用 Seaborn 可视化分布

使用 Seaborn 可视化分布

处理数据时,可视化分布是理解数据特征的重要一步。

Seaborn 构建于 Matplotlib 之上,是一个强大的 Python 可视化库,可以简化创建信息丰富且美观的统计图表的过程。

在本教程中,我们将探索如何使用 Seaborn 可视化不同类型的分布,包括正态分布、均匀分布和其他概率分布。我们还将演示如何使用自定义选项和样式来增强可视化效果。

什么是 Seaborn?

Seaborn 是一个 Python 可视化库,它提供了一个高级接口,用于创建美观且信息丰富的统计图形。它与 Pandas 数据结构完美集成,并提供多种函数来可视化数据的分布、关系和趋势。

其主要优势之一是能够以最少的代码轻松可视化分布、相关性和数据关系。

Seaborn 基于 Matplotlib 构建,并提供更精简的函数来创建复杂的图表。它还能自动处理美观性,例如配色方案和标签,使您的可视化效果更具吸引力,更易于解读。

设置 Seaborn

在开始使用 Seaborn 可视化分布之前,我们需要安装必要的库并设置环境。如果尚未安装 Seaborn,您可以使用 pip 安装,如下所示 -

# 使用 pip 安装 Seaborn
!pip install seaborn

除了 Seaborn,我们还将使用 NumPy 生成分布数据。以下是导入这两个库的典型设置 -

import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

导入库后,我们就可以开始生成和可视化不同类型的分布了。

可视化正态分布

正态分布是统计学中最常用的分布之一,也称为高斯分布。它是对称的钟形分布,常用于对测试分数、身高和测量误差等进行建模。

我们可以使用 NumPy 的 numpy.random.normal() 函数从正态分布中生成随机数据,然后使用 Seaborn 的 seaborn.histplot() 函数来可视化该分布。

示例

在下面的示例中,sns.histplot() 函数自动创建数据的直方图,并通过将 kde 参数设置为 True,在直方图上添加平滑的核密度估计 (KDE) 曲线,以可视化概率密度函数 (PDF) −

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 从正态分布生成随机数据
data = np.random.normal(loc=0, scale=1, size=1000)

# 使用 Seaborn 可视化分布
# kde=True 添加核密度估计曲线
sns.histplot(data, kde=True)
plt.title('正态分布')
plt.xlabel('值')
plt.ylabel('频率')
plt.show()

生成的图将显示钟形曲线,这是正态分布的特征 -

Numpy Distribution with Seaborn

可视化均匀分布

均匀分布是一种所有结果都相等的分布可能性很大。在连续均匀分布中,数据点均匀分布在给定范围内。

我们可以使用 NumPy 的 numpy.random.uniform() 函数生成均匀分布的数据,并使用 Seaborn 进行可视化。

示例

此处,numpy.random.uniform() 函数生成介于指定低值和高值(在本例中为 0 和 10)之间的随机数。直方图呈现平坦分布,表明所有值在指定范围内出现的可能性均等 -

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 生成均匀分布的随机数据
data_uniform = np.random.uniform(low=0, high=10, size=1000)

# 使用 Seaborn 可视化分布
sns.histplot(data_uniform, kde=True)
plt.title('均匀分布')
plt.xlabel('值')
plt.ylabel('频率')
plt.show()

生成的输出将显示均匀分布,其中每个值的频率在整个范围内大致相同 -

均匀 Numpy Seaborn 分布

指数分布可视化

指数分布通常用于对泊松过程中事件间隔时间进行建模。它具有偏向性,小值出现的频率较高,而大值出现较长的尾部。

NumPy 提供了 numpy.random.exponential() 函数,用于根据指数分布生成随机数据。

示例

在下面的示例中,我们将创建一个绘图,该绘图将显示峰值接近零且尾部向右延伸的分布。这是指数分布的一个特征,即某个值出现的概率会随着该值的增加而呈指数下降 -

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 根据指数分布生成随机数据
data_exponential = np.random.exponential(scale=1, size=1000)

# 使用 Seaborn 可视化分布
sns.histplot(data_exponential, kde=True)
plt.title('Exponential Distribution')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()

我们得到如下所示的输出 -

NumPy Seaborn 指数分布

可视化帕累托分布

正如我们之前讨论过的,帕累托分布遵循幂律,在经济学中常用于模拟财富分配。您可以使用 NumPy 的 numpy.random.pareto() 函数生成帕累托分布的数据。

示例

使用 Seaborn 可视化帕累托分布 -

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 从帕累托分布生成随机数据
# 加 1 移动最小值
data_pareto = np.random.pareto(a=2, size=1000) + 1

# 使用 Seaborn 可视化分布
sns.histplot(data_pareto, kde=True)
plt.title('Pareto分布')
plt.xlabel('值')
plt.ylabel('频率')
plt.show()

帕累托分布将显示高度偏斜的直方图,其长尾向右延伸,反映出少数大值在数据集中占主导地位 -

NumPy Seaborn 帕累托分布

自定义 Seaborn 绘图

Seaborn 允许您轻松自定义绘图的外观。例如,您可以调整直方图中的箱数、更改绘图的颜色,甚至修改绘图的样式。以下是自定义外观的几种方法 -

  • 更改箱数: 您可以通过指定 bins 参数来控制直方图中箱数。
  • 更改颜色: 使用 color 参数为绘图设置自定义颜色。
  • 修改样式: Seaborn 提供了几种内置样式(例如 'darkgrid''whitegrid' 等),可以使用 sns.set_style() 应用于绘图。

示例

在下面的示例中,我们将创建一个包含 30 个箱、蓝色和白色网格背景的绘图 -

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 根据正态分布生成随机数据
data = np.random.normal(loc=0, scale=1, size=1000)

# 自定义绘图样式
sns.set_style('whitegrid')

# 使用更多 bins 和自定义颜色进行绘图
sns.histplot(data, bins=30, color='blue', kde=True)
plt.title('自定义正态分布')
plt.xlabel('值')
plt.ylabel('频率')
plt.show()

生成的结果如下 -

NumPy Seaborn 自定义正态分布