NumPy 教程

NumPy 首页 NumPy 简介 NumPy 环境

数组

NumPy Ndarray 对象 NumPy 数据类型

创建和操作数组

NumPy 数组创建例程 NumPy 数组操作 NumPy 基于现有数据创建数组 NumPy 基于数值范围创建数组 NumPy 数组迭代 NumPy 重塑数组 NumPy 连接数组 NumPy 堆叠数组 NumPy 拆分数组 NumPy 展平数组 NumPy 转置数组

索引与切片

NumPy 索引 &切片 NumPy 索引 NumPy 切片 NumPy 高级索引 NumPy 高级索引 NumPy 字段访问 NumPy 使用布尔数组切片

数组属性与操作

NumPy 数组属性 NumPy 数组形状 NumPy 数组大小 NumPy 数组步长 NumPy 数组元素大小 NumPy 广播 NumPy 算术运算 NumPy 数组加法 NumPy 数组减法 NumPy 数组乘法 NumPy 数组除法

高级数组运算

NumPy 交换数组的轴 NumPy 字节交换 NumPy 副本和视图 NumPy 逐元素数组比较 NumPy 过滤数组 NumPy 连接数组 NumPy 排序、搜索& 计数函数 NumPy 搜索数组 NumPy 数组并集 NumPy 查找唯一行 NumPy 创建日期时间数组 NumPy 二元运算符 NumPy 字符串函数 NumPy 矩阵库 NumPy 线性代数 NumPy Matplotlib NumPy 使用 Matplotlib 绘制直方图

排序和高级操作

NumPy 数组排序 NumPy 沿轴排序 NumPy 使用花式索引进行排序 NumPy 结构化数组 NumPy 创建结构化数组 NumPy 操作结构化数组 NumPy 记录数组 NumPy 加载数组 NumPy 保存数组 NumPy 将值附加到数组 NumPy 交换列数组 NumPy 将轴插入数组

处理缺失数据

NumPy 处理缺失数据 NumPy 识别缺失值 NumPy 移除缺失数据 NumPy 插补缺失值数据

性能优化

NumPy 使用数组进行性能优化

线性代数

NumPy 线性代数 NumPy 矩阵库 NumPy 矩阵加法 NumPy 矩阵减法 NumPy 矩阵乘法 NumPy 逐元素矩阵运算 NumPy 点积 NumPy 矩阵求逆 NumPy 行列式计算 NumPy 特征值 NumPy 特征向量 NumPy 奇异值分解 NumPy 求解线性方程 NumPy 矩阵范数

元素级矩阵运算

NumPy 总和 NumPy 平均值 NumPy 中位数 NumPy 最小值 NumPy 最大值

集合运算

NumPy 唯一元素 NumPy 交集 NumPy 并集 NumPy 差集

随机数生成

NumPy 随机数生成器 NumPy 排列和重排 NumPy 均匀分布 NumPy 正态分布 NumPy 二项分布 NumPy 泊松分布 NumPy 指数分布 NumPy 瑞利分布 NumPy 逻辑分布 NumPy 帕累托分布 NumPy 使用 Seaborn 可视化分布 NumPy 多项分布 NumPy 卡方分布 NumPy Zipf 分布

文件输入 &输出

NumPy 使用 NumPy 进行 I/O NumPy 从文件读取数据 NumPy 将数据写入文件 NumPy 支持的文件格式

数学函数

NumPy 数学函数 NumPy 三角函数 NumPy 指数函数 NumPy 对数函数 NumPy 双曲函数 NumPy 舍入函数

傅里叶变换

NumPy 离散傅里叶变换 (DFT) NumPy 快速傅里叶变换 (FFT) NumPy 逆傅里叶变换 NumPy 傅里叶级数和变换 NumPy 信号处理应用 NumPy 卷积

多项式

NumPy 多项式表示 NumPy 多项式运算 NumPy 求多项式的根 NumPy 求多项式的根

统计

NumPy 统计函数 NumPy 描述性统计

日期时间函数

NumPy 日期和时间基础知识 NumPy 表示日期和时间 NumPy 日期和时间运算 NumPy 使用日期时间进行索引 NumPy 时区处理 NumPy 时间序列分析 NumPy 处理时间增量 NumPy 闰秒处理 NumPy 矢量化日期时间运算

ufunc

NumPy ufunc 简介 NumPy 创建通用函数 (ufunc) NumPy 算术通用函数 (ufunc) NumPy 小数舍入 ufunc NumPy 对数通用函数(ufunc) NumPy 求和通用函数 (ufunc) NumPy 乘积通用函数 (ufunc) NumPy 差分通用函数 (ufunc) NumPy 寻找最小公倍数 (LCM) NumPy 寻找最大公约数 (GCD) NumPy 三角函数 (ufunc) NumPy 双曲线 (ufunc) NumPy 集合运算(ufunc)

实用资源

NumPy 快速指南 NumPy 备忘单


NumPy - 缺失数据填充

数组中缺失数据填充

数组中缺失数据填充是指根据现有数据,用估算值或计算值填充缺失值。此过程有以下作用:

  • 保留数据:避免丢失对分析可能重要的信息。
  • 改进分析:确保数据集完整,从而提高分析准确性。
  • 处理缺失数据:解决数据中的缺失问题,如果处理不当,这些缺失问题可能会导致结果失真。

用均值填充缺失数据

用均值填充缺失数据是一种用现有数据的均值填充数据集中缺失值的技术。

平均值,通常称为平均值,是一种集中趋势的度量,它通过找到一组数字的中心值来概括它们。

它的计算方法是将数据集中的所有数字相加,然后将和除以这些数字的数量。

示例

在下面的示例中,我们计算数组中非 NaN 值的平均值,然后使用该平均值替换 NaN 值 -

import numpy as np

# 创建一个包含 NaN 值的数组
arr = np.array([1.0, 2.5, np.nan, 4.7, np.nan, 6.2])

# 计算非 NaN 值的平均值
mean_value = np.nanmean(arr)

# 使用平均值插补 NaN 值
imputed_arr = np.where(np.isnan(arr), mean_value, arr)

print("原始数组:
", arr)
print("平均值:", mean_value)
print("插补数组:
", imputed_arr)

以下是获得的输出 -

原始数组:[1.   2.5 nan 4.7 nan 6.2]
平均值:3.5999999999999996
插补数组:[1.2.5 3.6 4.7 3.6 6.2]

用中位数填补缺失数据

用中位数填补缺失数据是一种用现有数据的中位数填充数据集中缺失值的技术。

中位数是数据集按顺序排列时的中间值;如果数据集的观测值数量为偶数,则中位数是两个中间值的平均值。

示例

在此示例中,我们计算数组中非 NaN 值的中位数,然后使用该中位数替换 NaN 值 -

import numpy as np

# 创建包含 NaN 值的数组
arr = np.array([1.0, 2.5, np.nan, 4.7, np.nan, 6.2])

# 计算非 NaN 值的中位数
median_value = np.nanmedian(arr)

# 使用中位数插补 NaN 值
imputed_arr = np.where(np.isnan(arr), median_value, arr)

print("原始数组:
", arr)
print("中位数:", median_value)
print("插补数组:
", imputed_arr)

这将产生以下结果 -

原始数组:[1.   2.5 nan 4.7 nan 6.2]
中位数:3.6
插补数组:[1.2.5 3.6 4.7 3.6 6.2]

使用常量填充缺失数据

使用常量填充缺失数据是一种用预定义的常量值替换数据集中缺失值的技术。

常量值是指在特定上下文或操作过程中保持不变的固定、不变的数字或值。

示例

在下面的示例中,我们定义了一个用于填充的常量值,并用该常量替换数组中的 NaN 值 -

import numpy as np

# 创建包含 NaN 值的数组
arr = np.array([1.0, 2.5, np.nan, 4.7, np.nan, 6.2])

# 定义用于插补的常量值
constant_value = 0

# 使用常量插补 NaN 值
imputed_arr = np.where(np.isnan(arr), Constant_value, ARR)

print("原始数组:
", ARR)
print("常量值:", Constant_value)
print("插补后的数组:
", Imputed_arr)

以下是上述代码的输出 -

原始数组:[1.   2.5 nan 4.7 nan 6.2]
常量值:0
插补后的数组:[1.2.5 0.  4.7 0.  6.2]

在多维数组中填充缺失数据

在多维数组中填充缺失数据涉及填充多维数组(例如二维矩阵或高维数组)中的缺失值。

示例:在二维数组中填充缺失数据

在以下示例中,我们计算二维数组中每列的平均值,同时忽略 NaN 值。然后将 NaN 值替换为其各自列的平均值 -

import numpy as np

# 创建包含 NaN 值的二维数组
arr_2d = np.array([[1.0, np.nan, 3.5],
                   [np.nan, 5.1, 6.3],
                   [7.2, 8.1, np.nan]])

# 将 NaN 值替换为每列的平均值
column_means = np.nanmean(arr_2d, axis=0)
inds = np.where(np.isnan(arr_2d))

# 将 NaN 值替换为相应列的平均值
arr_2d[inds] = np.take(column_means, inds[1])

print("原始二维数组:
", arr_2d)
print("列平均值:", column_means)
print("插补后的二维数组:
", arr_2d)

输出结果如下 −

原始二维数组:
[[1. 6.6 3.5]
[4.1 5.1 6.3]
[7.2 8.1 4.9]]

列平均值:[4.1 6.6 4.9]

插补后的二维数组:
[[1. 6.6 3.5]
[4.1 5.1 6.3]
[7.2 8.1 4.9]]

示例:在三维数组中插补缺失数据

这里,我们计算三维数组所有切片中每列的中值,同时忽略 NaN。然后将 NaN 值替换为每列对应的中值 -

import numpy as np

# 创建一个包含一些 NaN 值的三维数组
arr_3d = np.array([[[1.0, 2.0, np.nan],
                    [np.nan, 5.0, 6.0],
                    [7.0, np.nan, 9.0]],
                   
                   [[np.nan, 2.0, 3.0],
                    [4.0, np.nan, np.nan],
                    [7.0, 8.0, np.nan]]])

# 计算沿最后一个轴的每个切片的中值,忽略 NaN 值
median_value = np.nanmedian(arr_3d, axis=(0, 1))

# 查找存在 NaN 值的索引
nan_indices = np.isnan(arr_3d)

# 将 NaN 值替换为相应切片的中值
for i in range(arr_3d.shape[2]): # 遍历第三个维度
    arr_3d[:, :, i][nan_indices[:, :, i]] = median_value[i]

print("中位数插补后的三维数组:")
print(arr_3d)

执行上述代码后,我们得到以下输出 -

中位数插补后的三维数组:
[[[1.  2.  6. ]
  [5.5 5.  6. ]
  [7.  3.5 9. ]]
[[5.5 2.  3. ]
  [4.  3.5 6. ]
  [7.  8.  6. ]]]

使用线性插值进行缺失数据插值

使用线性插值对缺失数据进行插值,是指根据缺失值周围的值来估计缺失值。此技术适用于序列或空间数据,因为缺失值可以通过其前后值推断出来。

  • 线性插值是一种估计介于已知值之间的未知值的方法。
  • 对于一维数据,它涉及在两个已知点之间绘制一条直线,并利用这条直线估计中间点的值。
  • 对于多维数据,线性插值可以将这一概念扩展到更高维度。

示例

在下面的示例中,我们使用线性插值来填充一维数组中的缺失值 (NaN)。我们通过根据周围的非 NaN 值估算 NaN 值来实现这一点 -

import numpy as np
from scipy import interpolate

# 创建一个包含 NaN 值的数组
arr = np.array([1.0, np.nan, 3.5, np.nan, 5.0])

# 插入缺失值
nans, x = np.isnan(arr), lambda z: z.nonzero()[0]
arr[nans] = np.interp(x(nans), x(~nans), arr[~nans])

print("原始数组:
", arr)
print("包含插值值的数组:
", arr)

我们得到如下所示的输出 -

原始数组:
[1.   2.25 3.5  4.25 5.  ]
包含插值后的数组:
[1.   2.25 3.5  4.25 5.  ]