NumPy 教程

NumPy 首页 NumPy 简介 NumPy 环境

数组

NumPy Ndarray 对象 NumPy 数据类型

创建和操作数组

NumPy 数组创建例程 NumPy 数组操作 NumPy 基于现有数据创建数组 NumPy 基于数值范围创建数组 NumPy 数组迭代 NumPy 重塑数组 NumPy 连接数组 NumPy 堆叠数组 NumPy 拆分数组 NumPy 展平数组 NumPy 转置数组

索引与切片

NumPy 索引 &切片 NumPy 索引 NumPy 切片 NumPy 高级索引 NumPy 高级索引 NumPy 字段访问 NumPy 使用布尔数组切片

数组属性与操作

NumPy 数组属性 NumPy 数组形状 NumPy 数组大小 NumPy 数组步长 NumPy 数组元素大小 NumPy 广播 NumPy 算术运算 NumPy 数组加法 NumPy 数组减法 NumPy 数组乘法 NumPy 数组除法

高级数组运算

NumPy 交换数组的轴 NumPy 字节交换 NumPy 副本和视图 NumPy 逐元素数组比较 NumPy 过滤数组 NumPy 连接数组 NumPy 排序、搜索& 计数函数 NumPy 搜索数组 NumPy 数组并集 NumPy 查找唯一行 NumPy 创建日期时间数组 NumPy 二元运算符 NumPy 字符串函数 NumPy 矩阵库 NumPy 线性代数 NumPy Matplotlib NumPy 使用 Matplotlib 绘制直方图

排序和高级操作

NumPy 数组排序 NumPy 沿轴排序 NumPy 使用花式索引进行排序 NumPy 结构化数组 NumPy 创建结构化数组 NumPy 操作结构化数组 NumPy 记录数组 NumPy 加载数组 NumPy 保存数组 NumPy 将值附加到数组 NumPy 交换列数组 NumPy 将轴插入数组

处理缺失数据

NumPy 处理缺失数据 NumPy 识别缺失值 NumPy 移除缺失数据 NumPy 插补缺失值数据

性能优化

NumPy 使用数组进行性能优化

线性代数

NumPy 线性代数 NumPy 矩阵库 NumPy 矩阵加法 NumPy 矩阵减法 NumPy 矩阵乘法 NumPy 逐元素矩阵运算 NumPy 点积 NumPy 矩阵求逆 NumPy 行列式计算 NumPy 特征值 NumPy 特征向量 NumPy 奇异值分解 NumPy 求解线性方程 NumPy 矩阵范数

元素级矩阵运算

NumPy 总和 NumPy 平均值 NumPy 中位数 NumPy 最小值 NumPy 最大值

集合运算

NumPy 唯一元素 NumPy 交集 NumPy 并集 NumPy 差集

随机数生成

NumPy 随机数生成器 NumPy 排列和重排 NumPy 均匀分布 NumPy 正态分布 NumPy 二项分布 NumPy 泊松分布 NumPy 指数分布 NumPy 瑞利分布 NumPy 逻辑分布 NumPy 帕累托分布 NumPy 使用 Seaborn 可视化分布 NumPy 多项分布 NumPy 卡方分布 NumPy Zipf 分布

文件输入 &输出

NumPy 使用 NumPy 进行 I/O NumPy 从文件读取数据 NumPy 将数据写入文件 NumPy 支持的文件格式

数学函数

NumPy 数学函数 NumPy 三角函数 NumPy 指数函数 NumPy 对数函数 NumPy 双曲函数 NumPy 舍入函数

傅里叶变换

NumPy 离散傅里叶变换 (DFT) NumPy 快速傅里叶变换 (FFT) NumPy 逆傅里叶变换 NumPy 傅里叶级数和变换 NumPy 信号处理应用 NumPy 卷积

多项式

NumPy 多项式表示 NumPy 多项式运算 NumPy 求多项式的根 NumPy 求多项式的根

统计

NumPy 统计函数 NumPy 描述性统计

日期时间函数

NumPy 日期和时间基础知识 NumPy 表示日期和时间 NumPy 日期和时间运算 NumPy 使用日期时间进行索引 NumPy 时区处理 NumPy 时间序列分析 NumPy 处理时间增量 NumPy 闰秒处理 NumPy 矢量化日期时间运算

ufunc

NumPy ufunc 简介 NumPy 创建通用函数 (ufunc) NumPy 算术通用函数 (ufunc) NumPy 小数舍入 ufunc NumPy 对数通用函数(ufunc) NumPy 求和通用函数 (ufunc) NumPy 乘积通用函数 (ufunc) NumPy 差分通用函数 (ufunc) NumPy 寻找最小公倍数 (LCM) NumPy 寻找最大公约数 (GCD) NumPy 三角函数 (ufunc) NumPy 双曲线 (ufunc) NumPy 集合运算(ufunc)

实用资源

NumPy 快速指南 NumPy 备忘单


NumPy - 加载数组

在 NumPy 中加载数组

NumPy 加载数组是指从外部文件或源读取数据并将其加载到 NumPy 数组中的过程。

此功能允许您处理存储在文本文件、二进制文件或其他格式文件中的数据,并将这些数据带入 NumPy 环境进行分析或操作。以下是 NumPy 中加载数组的常用方法 -

  • 从文本文件加载: 使用 np.loadtxt() 或 np.genfromtxt() 等函数从文本文件读取数据。
  • 从二进制文件加载: 使用 np.fromfile() 函数从二进制文件读取数据。
  • 从 .npy 文件加载: 使用 np.load() 函数从以 NumPy 原生二进制格式保存的文件(.npy 文件)读取数据。

从文本文件加载数组

在 NumPy 中,从文本文件加载数组是将纯文本文件中存储的数据导入 NumPy 数组的常用操作。

NumPy 提供了 np.loadtxt() 函数和np.genfromtxt() 函数用于处理不同的文本文件格式和结构,从而轻松处理各种类型的文本数据,它们是:-

使用 np.loadtxt() 函数

np.loadtxt() 函数用于将数据从文本文件读取到 NumPy 数组中。

此函数通常用于加载以表格格式组织的结构化数据,例如 CSV 文件或空格分隔的文件。它适用于每行包含一行数字且所有行具有相同列数的数据文件。语法如下:

numpy.loadtxt(fname, dtype=<type>, delimiter=<delimiter>, comments=<char>, skiprows=<num>, usecols=<cols>)

其中,

  • fname: 要读取的文件名或文件对象。
  • dtype: 结果数组的数据类型(默认为浮点型)。
  • delimiter: 用于分隔值的字符串或字符(例如,逗号、空格)。
  • comments: 表示注释开头的字符串(例如,#)。
  • skiprows: 文件开头跳过的行数。
  • usecols: 要读取的列的索引(例如,[0, 2] 表示读取第一列和第三列)。

示例

假设您有一个文本文件"data.txt",其中包含以下内容 -

1 2 3
4 5 6
7 8 9

您可以使用 loadtxt() 函数将此数据加载到 NumPy 数组中,如下所示 -

import numpy as np

# 从文本文件加载数据
array_from_text = np.loadtxt('data.txt')

print("从文本文件加载数组:")
print(array_from_text)

使用 np.genfromtxt() 函数

np.genfromtxt() 函数用于将文本文件中的数据读入 NumPy 数组。它对于处理更复杂的文本文件格式非常有用,包括包含缺失值、混合数据类型和不规则结构的文件。语法如下:

numpy.genfromtxt(fname, dtype=<type>, delimiter=<delimiter>, comments=<char>, skip_header=<num>, usecols=<cols>, filling_values=<value>, missing_values=<value>, converters=<dict>, encoding=<str>, names=<bool>)

其中:

  • fname: 要读取的文件名或文件对象。
  • dtype: 结果数组的数据类型。如果未指定,则默认为浮点型。
  • delimiter: 分隔值的字符串或字符(例如,CSV 使用逗号,空格使用空格)。
  • comments: 表示注释开始的字符串(例如 #)。以此字符开头的行将被忽略。
  • skip_header: 文件开头要跳过的行数(用于跳过文件头)。
  • usecols: 要读取的列的索引。例如,[0, 2] 将仅读取第一列和第三列。
  • filling_values: 用于表示缺失数据的值。可以是标量或将列索引映射到填充值的字典。
  • missing_values: 表示文件中缺失数据的值。可以是标量或值列表。
  • converters: 用于将列转换为特定格式的函数字典。
  • encoding: 用于读取文件的编码(默认值为 None,即使用系统默认值)。
  • names: 如果为 True,则假定文件的第一行包含列名。

示例

在此示例中,我们使用 genfromtxt() 函数将"data.txt"文件加载到 NumPy 数组中 -

import numpy as np

# 从文本文件加载数据
array = np.genfromtxt('data.txt')

print("从文本文件加载的数组file:")
print(array)

从二进制文件加载数组

在 NumPy 中,从二进制文件加载数组涉及读取以二进制格式存储的数据,这种格式通常比文本格式更高效地存储和检索数据。

二进制文件包含原始数据,必须根据预期的格式和数据类型正确解释这些数据。NumPy 提供了 np.fromfile() 函数和 np.load() 函数来从二进制文件加载数组。

使用 np.fromfile() 函数

np.fromfile() 函数用于将文件中的二进制数据加载到 NumPy 数组中。此函数需要了解二进制文件的数据类型和格式。语法如下:

numpy.fromfile(file, dtype=<type>, count=-1, offset=0)

其中:

  • file: 要读取的文件名或文件对象。
  • dtype: 结果数组的数据类型(例如,np.float32、np.int32)。
  • count: 要读取的项目数。如果为 -1,则读取所有数据。
  • 偏移量: 文件开头要跳过的字节数。

示例

假设您有一个包含"32 位"浮点数据的二进制文件"data.bin"。该文件可以使用以下代码创建 -

import numpy as np

# 创建一个包含浮点数据的二进制文件
data = np.array([1.1, 2.2, 3.3], dtype=np.float32)
data.tofile('data.bin')
print ('文件已创建!')

现在,要读取此二进制文件,请使用以下代码 -

import numpy as np

# 从二进制文件加载数据
array = np.fromfile('data.bin', dtype=np.float32)

print("从二进制文件加载的数组:")
print(array)

以下是上述代码的输出 -

从二进制文件加载的数组:
[1.1 2.2 3.3]

使用.npy 文件的 np.load() 函数

NumPy 中的 np.load() 函数用于从 NumPy 原生二进制格式 .npy.npz 的文件中加载数组或数据。此格式保留了数组的元数据,例如其形状和数据类型。".npz"格式用于以压缩格式存储多个数组。

语法如下:

numpy.load(file, mmap_mode=None, allow_pickle=False, fix_imports=True, encoding='ASCII')

其中:

  • file: 要读取的文件名或文件对象。这可以是 .npy 文件(用于单个数组)或 .npz 文件(用于多个数组)。
  • mmap_mode: 如果不为 None,则用于对文件进行内存映射,这样就可以读取大型数组而无需将整个文件加载到内存中。有效值为 'r'、'r+'、'w+' 等。
  • allow_pickle: 如果为 True,则允许加载以 Python pickle 格式保存的对象。请谨慎使用此选项,因为它可能执行任意代码并带来安全风险。
  • fix_imports: 如果为 True,则在加载 pickled 数据时尝试检测并修复 Python 2 到 Python 3 的兼容性问题。
  • encoding: 加载 Python 3 文件时用于解码 Python 2 字符串数据的编码。默认值为 'ASCII'。

示例:加载 .npy 文件

这里,我们首先将一个数组保存为".npy"文件格式 -

import numpy as np

# 创建一个 NumPy 数组
array = np.array([[1, 2, 3], [4, 5, 6]], dtype=np.int32)

# 将数组保存到 .npy 文件
np.save('data.npy', array)
print ("Saved!!")

现在,我们使用 NumPy 中的 load() 函数从".npy"文件加载已保存的数组 -

import numpy as np

# 从 .npy 文件加载数组
array = np.load('data.npy')

print("从 .npy 文件加载的数组:")
print(array)

输出结果如下 -

从 .npy 文件加载的数组:
[[1 2 3]
[4 5 6]]

示例:加载 .npz 文件

.npz 格式用于将多个数组保存到一个压缩文件中。它会创建一个 zip 压缩包,其中每个文件都是一个".npy"文件,如下例所示 -

import numpy as np

# 将多个数组保存到 .npz 文件
array1 = np.array([1, 2, 3])
array2 = np.array([[4, 5, 6], [7, 8, 9]])
np.savez('data.npz', array1=array1, array2=array2)

# 从 .npz 文件加载数组
data = np.load('data.npz')

# 使用键访问各个数组
array1_loaded = data['array1']
array2_loaded = data['array2']

print("数组 1 已从.npz 文件:")
print(array1_loaded)

print("数组 2 已从 .npz 文件加载:")
print(array2_loaded)

执行上述代码后,我们得到以下输出 -

数组 1 已从 .npz 文件加载:
[1 2 3]
数组 2 已从 .npz 文件加载:
[[4 5 6]
 [7 8 9]]