NumPy 教程

NumPy 首页 NumPy 简介 NumPy 环境

数组

NumPy Ndarray 对象 NumPy 数据类型

创建和操作数组

NumPy 数组创建例程 NumPy 数组操作 NumPy 基于现有数据创建数组 NumPy 基于数值范围创建数组 NumPy 数组迭代 NumPy 重塑数组 NumPy 连接数组 NumPy 堆叠数组 NumPy 拆分数组 NumPy 展平数组 NumPy 转置数组

索引与切片

NumPy 索引 &切片 NumPy 索引 NumPy 切片 NumPy 高级索引 NumPy 高级索引 NumPy 字段访问 NumPy 使用布尔数组切片

数组属性与操作

NumPy 数组属性 NumPy 数组形状 NumPy 数组大小 NumPy 数组步长 NumPy 数组元素大小 NumPy 广播 NumPy 算术运算 NumPy 数组加法 NumPy 数组减法 NumPy 数组乘法 NumPy 数组除法

高级数组运算

NumPy 交换数组的轴 NumPy 字节交换 NumPy 副本和视图 NumPy 逐元素数组比较 NumPy 过滤数组 NumPy 连接数组 NumPy 排序、搜索& 计数函数 NumPy 搜索数组 NumPy 数组并集 NumPy 查找唯一行 NumPy 创建日期时间数组 NumPy 二元运算符 NumPy 字符串函数 NumPy 矩阵库 NumPy 线性代数 NumPy Matplotlib NumPy 使用 Matplotlib 绘制直方图

排序和高级操作

NumPy 数组排序 NumPy 沿轴排序 NumPy 使用花式索引进行排序 NumPy 结构化数组 NumPy 创建结构化数组 NumPy 操作结构化数组 NumPy 记录数组 NumPy 加载数组 NumPy 保存数组 NumPy 将值附加到数组 NumPy 交换列数组 NumPy 将轴插入数组

处理缺失数据

NumPy 处理缺失数据 NumPy 识别缺失值 NumPy 移除缺失数据 NumPy 插补缺失值数据

性能优化

NumPy 使用数组进行性能优化

线性代数

NumPy 线性代数 NumPy 矩阵库 NumPy 矩阵加法 NumPy 矩阵减法 NumPy 矩阵乘法 NumPy 逐元素矩阵运算 NumPy 点积 NumPy 矩阵求逆 NumPy 行列式计算 NumPy 特征值 NumPy 特征向量 NumPy 奇异值分解 NumPy 求解线性方程 NumPy 矩阵范数

元素级矩阵运算

NumPy 总和 NumPy 平均值 NumPy 中位数 NumPy 最小值 NumPy 最大值

集合运算

NumPy 唯一元素 NumPy 交集 NumPy 并集 NumPy 差集

随机数生成

NumPy 随机数生成器 NumPy 排列和重排 NumPy 均匀分布 NumPy 正态分布 NumPy 二项分布 NumPy 泊松分布 NumPy 指数分布 NumPy 瑞利分布 NumPy 逻辑分布 NumPy 帕累托分布 NumPy 使用 Seaborn 可视化分布 NumPy 多项分布 NumPy 卡方分布 NumPy Zipf 分布

文件输入 &输出

NumPy 使用 NumPy 进行 I/O NumPy 从文件读取数据 NumPy 将数据写入文件 NumPy 支持的文件格式

数学函数

NumPy 数学函数 NumPy 三角函数 NumPy 指数函数 NumPy 对数函数 NumPy 双曲函数 NumPy 舍入函数

傅里叶变换

NumPy 离散傅里叶变换 (DFT) NumPy 快速傅里叶变换 (FFT) NumPy 逆傅里叶变换 NumPy 傅里叶级数和变换 NumPy 信号处理应用 NumPy 卷积

多项式

NumPy 多项式表示 NumPy 多项式运算 NumPy 求多项式的根 NumPy 求多项式的根

统计

NumPy 统计函数 NumPy 描述性统计

日期时间函数

NumPy 日期和时间基础知识 NumPy 表示日期和时间 NumPy 日期和时间运算 NumPy 使用日期时间进行索引 NumPy 时区处理 NumPy 时间序列分析 NumPy 处理时间增量 NumPy 闰秒处理 NumPy 矢量化日期时间运算

ufunc

NumPy ufunc 简介 NumPy 创建通用函数 (ufunc) NumPy 算术通用函数 (ufunc) NumPy 小数舍入 ufunc NumPy 对数通用函数(ufunc) NumPy 求和通用函数 (ufunc) NumPy 乘积通用函数 (ufunc) NumPy 差分通用函数 (ufunc) NumPy 寻找最小公倍数 (LCM) NumPy 寻找最大公约数 (GCD) NumPy 三角函数 (ufunc) NumPy 双曲线 (ufunc) NumPy 集合运算(ufunc)

实用资源

NumPy 快速指南 NumPy 备忘单


NumPy - 将数据写入文件

使用 NumPy 将数据写入文件

将数据写入文件涉及将信息从程序保存到存储介质,例如文本文件、CSV 或二进制文件。此过程允许保存、共享和重用数据。

在本教程中,我们将探索使用 NumPy 将数据写入文件的各种方法,包括以文本和二进制格式保存数据、使用不同的分隔符以及处理大型数据集。

为什么将数据保存到文件?

我们将数据保存到文件的原因如下:

  • 保存数据: 存储数据以供将来分析或记录。
  • 共享数据: 以标准格式与他人共享数据。
  • 效率: 通过保存中间结果或最终结果来避免重新计算结果。
  • 备份: 创建重要数据的备份以防止数据丢失。

将数据写入文本文件

文本文件是一种常见的格式用于存储数据,因为它们易于阅读且易于共享。NumPy 提供了多个函数用于将数组写入文本文件。

使用 numpy.savetxt() 函数

numpy.savetxt 函数用于将 NumPy 数组写入文本文件。它允许自定义输出文件的分隔符、格式和标头信息。

示例

在下面的示例中,我们将创建一个示例二维 NumPy 数组,并使用 np.savetxt() 函数将其写入文本文件。数组的内容保存在文件"data.txt"中 -

import numpy as np

# 创建示例 NumPy 数组
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 将数组写入文本文件
np.savetxt('data.txt', data)
print("数据已写入"data.txt".")

以下是输出结果 -

数据已写入"data.txt"。

指定分隔符

您可以指定分隔符来分隔文本文件中的元素,以便稍后更轻松地解析数据。例如,设置 delimiter=',' 将使用逗号分隔值。

示例

在以下示例中,我们将创建一个二维 NumPy 数组,并使用 np.savetxt() 函数将其写入文本文件,并使用逗号分隔符 -

import numpy as np

# 创建二维数组
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 将数组写入文本文件,并使用逗号分隔符
np.savetxt('data_comma.txt', data, delimiter=',')
print("数据已写入 'data_comma.txt'.")

输出结果如下如下所示 -

数据已写入"data_comma.txt"。

格式化数据

您还可以使用 fmt 参数格式化数据。当您想要控制数据的外观(例如小数位数、列宽或每个元素的特定格式)时,此功能非常有用。

示例

在此示例中,我们创建一个二维 NumPy 数组,并使用 np.savetxt() 将其与格式化数据一起写入文本文件。数组元素保存在文件"data_formatted.txt"中,保留两位小数 -

import numpy as np

# 创建二维数组
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 将数组写入格式化数据的文本文件
np.savetxt('data_formatted.txt', data, fmt='%0.2f')
print("数据已写入"data_formatted.txt".")

执行上述代码后,我们得到以下输出 -

数据已写入"data_formatted.txt"。

将数据写入 CSV 文件

CSV(逗号分隔值)文件是存储表格数据的常用格式。虽然 numpy.savetxt() 函数可以通过指定逗号分隔符来写入 CSV 文件,但 numpy.genfromtxt() 函数更适用于将 CSV 文件读回 NumPy 数组。

示例:使用 numpy.savetxt() 函数

在下面的示例中,我们创建一个二维 NumPy 数组,并使用 np.savetxt() 函数(以逗号分隔符)将其写入 CSV 文件 -

import numpy as np

# 创建二维数组
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 将数组写入 CSV 文件文件
np.savetxt('data.csv', data, delimiter=',')
print("数据已写入 'data.csv'.")

结果如下:-

数据已写入 'data.csv'.

示例:使用 numpy.genfromtxt() 函数

在下面的示例中,我们将创建一个二维 NumPy 数组并将其保存到 CSV 文件。然后,我们使用 np.genfromtxt() 函数将 CSV 文件读回 NumPy 数组 -

import numpy as np

# 创建二维数组
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 将 CSV 文件读回 NumPy 数组
data_from_csv = np.genfromtxt('data.csv', delimiter=',')
print( data_from_csv)

我们得到如下所示的输出 -

[[1. 2. 3.]
[4. 5. 6.]
[7. 8. 9.]]

将数据写入二进制文件

二进制文件更适合存储大型数据集,因为它们占用更少的空间,并且读写速度更快。NumPy 提供了将数组写入 .npy.npz 格式的二进制文件的函数。

使用 numpy.save() 函数

numpy.save 函数用于将单个 NumPy 数组写入 .npy 格式的二进制文件。这种格式非常紧凑,并且保留了数组的数据类型和结构。

示例

在此示例中,numpy.save() 函数将数组写入二进制 .npy 文件,然后 numpy.load() 函数将其加载回来 -

import numpy as np

# 创建二维数组
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 将数组保存到二进制文件
np.save('data.npy', data)

# 从二进制文件加载数据
loaded_data = np.load('data.npy')

print("从二进制文件加载的数据file:")
print(loaded_data)

以下是得到的输出 −

从二进制文件加载的数据:
[[1 2 3]
[4 5 6]
[7 8 9]]

使用 numpy.savez() 函数

numpy.savez 函数用于将多个数组写入压缩的 .npz 文件。 它允许您高效地存储和检索具有自定义名称的多个数组。

示例

在下面的示例中,我们将创建两个 NumPy 数组,并使用 np.savez() 函数将它们保存到一个 .npz 文件中,这两个数组分别存储在自定义名称"array1"和"array2"下 −

import numpy as np

# 创建数组
array1 = np.array([1, 2, 3])
array2 = np.array([[4, 5, 6], [7, 8, 9]])

# 将数组保存到 NPZ 文件
np.savez('data.npz', array1=array1, array2=array2)
print("数组已保存到 'data.npz'.")

这将产生以下结果 -

数组已保存到 'data.npz'.

使用 numpy.load() 函数

numpy.load() 函数从二进制文件(通常为 .npy 或 .npz 格式)加载 NumPy 数组。它允许您恢复已保存的数组并访问其数据以进行进一步处理。

示例

在以下示例中,我们使用 np.load() 函数从 data.npz 文件加载数组,并通过自定义名称"array1"和"array2"访问它们 -

import numpy as np

# 从 NPZ 文件加载数组
data = np.load('data.npz')

# 访问并打印数组
print("Loaded array1:")
print(data['array1'])
print("Loaded array2:")
print(data['array2'])

以下是上述代码的输出 -

Loaded array1:
[1 2 3]
已加载数组2:
[[4 5 6]
[7 8 9]]

处理大型数据集

处理大型数据集时,可能会遇到内存限制。为了处理这种情况,NumPy 提供了多种方法,包括使用内存映射文件。

内存映射文件允许您访问存储在磁盘上的大型文件的一小部分,而无需将整个文件一次性加载到内存中。这种方法在处理大型数据集时可以更高效地管理内存。

示例

在以下示例中,我们创建一个内存映射文件来存储一个大型数组,向其中写入数据,然后读取数据,而无需一次性将整个文件加载到内存中 -

import numpy as np

# 创建一个内存映射文件来存储一个大型数组
large_array = np.memmap('large_data.dat', dtype='float32', mode='w+', shape=(10000, 10000))

# 将随机数据写入内存映射文件
large_array[:] = np.random.rand(10000, 10000)

# 从内存映射文件中访问数据
large_array_read = np.memmap('large_data.dat', dtype='float32', mode='r', shape=(10000, 10000))

# 打印从内存映射文件读取的数组形状
print("内存映射数组的形状:", large_array_read.shape)

输出结果如下:-

内存映射数组的形状:(10000, 10000)

编写自定义数据格式

在许多情况下,处理数据需要将其保存为特定格式,该格式会根据您正在使用的应用程序或系统的需求进行更改。

NumPy 提供了 numpy.ndarray.tofile() 函数和 numpy.fromfile()用于编写自定义数据格式的函数,允许您定义数据的存储和检索方式。

使用 numpy.ndarray.tofile() 函数

numpy.ndarray.tofile() 函数用于将 NumPy 数组的内容写入二进制文件。它允许您指定文件名和数据存储格式。

此函数可用于将大型数组保存为二进制格式,以实现高效的存储和检索。

示例

在下面的示例中,我们将创建一个包含整数值的简单 NumPy 数组,并使用 tofile() 函数将其写入二进制文件 -

import numpy as np

# 创建一个示例 NumPy 数组
data = np.array([1, 2, 3, 4, 5], dtype='int32')

# 将数组写入二进制文件
data.tofile('data_binary.dat')
print("数组已写入二进制文件:", data)

结果如下 -

数组已写入二进制文件:[1 2 3 4 5]

使用 numpy.fromfile() 函数

numpy.fromfile 函数用于从文件读取二进制数据并将其加载到 NumPy 数组中。它允许您指定要读取的数组的数据类型 (dtype) 和形状。

此方法通常用于加载以二进制格式存储的大型数据集。

示例

在此示例中,我们将二进制文件"data_binary.dat"读入指定数据类型为"int32"的 NumPy 数组。由于二进制文件包含 5 个元素,我们将它们加载到一维数组中,而无需对其进行整形 -

import numpy as np

# 从二进制文件中读取数组并对其进行整形以匹配可用数据
data_from_binary = np.fromfile('data_binary.dat', dtype='int32')

# 打印加载的数组(由于元素数量不匹配,因此无需进行整形)
print("从二进制文件读取的数组:", data_from_binary)

我们得到如下所示的输出 -

从二进制文件读取的数组:[1 2 3 4 5]