NumPy 教程

NumPy 首页 NumPy 简介 NumPy 环境

数组

NumPy Ndarray 对象 NumPy 数据类型

创建和操作数组

NumPy 数组创建例程 NumPy 数组操作 NumPy 基于现有数据创建数组 NumPy 基于数值范围创建数组 NumPy 数组迭代 NumPy 重塑数组 NumPy 连接数组 NumPy 堆叠数组 NumPy 拆分数组 NumPy 展平数组 NumPy 转置数组

索引与切片

NumPy 索引 &切片 NumPy 索引 NumPy 切片 NumPy 高级索引 NumPy 高级索引 NumPy 字段访问 NumPy 使用布尔数组切片

数组属性与操作

NumPy 数组属性 NumPy 数组形状 NumPy 数组大小 NumPy 数组步长 NumPy 数组元素大小 NumPy 广播 NumPy 算术运算 NumPy 数组加法 NumPy 数组减法 NumPy 数组乘法 NumPy 数组除法

高级数组运算

NumPy 交换数组的轴 NumPy 字节交换 NumPy 副本和视图 NumPy 逐元素数组比较 NumPy 过滤数组 NumPy 连接数组 NumPy 排序、搜索& 计数函数 NumPy 搜索数组 NumPy 数组并集 NumPy 查找唯一行 NumPy 创建日期时间数组 NumPy 二元运算符 NumPy 字符串函数 NumPy 矩阵库 NumPy 线性代数 NumPy Matplotlib NumPy 使用 Matplotlib 绘制直方图

排序和高级操作

NumPy 数组排序 NumPy 沿轴排序 NumPy 使用花式索引进行排序 NumPy 结构化数组 NumPy 创建结构化数组 NumPy 操作结构化数组 NumPy 记录数组 NumPy 加载数组 NumPy 保存数组 NumPy 将值附加到数组 NumPy 交换列数组 NumPy 将轴插入数组

处理缺失数据

NumPy 处理缺失数据 NumPy 识别缺失值 NumPy 移除缺失数据 NumPy 插补缺失值数据

性能优化

NumPy 使用数组进行性能优化

线性代数

NumPy 线性代数 NumPy 矩阵库 NumPy 矩阵加法 NumPy 矩阵减法 NumPy 矩阵乘法 NumPy 逐元素矩阵运算 NumPy 点积 NumPy 矩阵求逆 NumPy 行列式计算 NumPy 特征值 NumPy 特征向量 NumPy 奇异值分解 NumPy 求解线性方程 NumPy 矩阵范数

元素级矩阵运算

NumPy 总和 NumPy 平均值 NumPy 中位数 NumPy 最小值 NumPy 最大值

集合运算

NumPy 唯一元素 NumPy 交集 NumPy 并集 NumPy 差集

随机数生成

NumPy 随机数生成器 NumPy 排列和重排 NumPy 均匀分布 NumPy 正态分布 NumPy 二项分布 NumPy 泊松分布 NumPy 指数分布 NumPy 瑞利分布 NumPy 逻辑分布 NumPy 帕累托分布 NumPy 使用 Seaborn 可视化分布 NumPy 多项分布 NumPy 卡方分布 NumPy Zipf 分布

文件输入 &输出

NumPy 使用 NumPy 进行 I/O NumPy 从文件读取数据 NumPy 将数据写入文件 NumPy 支持的文件格式

数学函数

NumPy 数学函数 NumPy 三角函数 NumPy 指数函数 NumPy 对数函数 NumPy 双曲函数 NumPy 舍入函数

傅里叶变换

NumPy 离散傅里叶变换 (DFT) NumPy 快速傅里叶变换 (FFT) NumPy 逆傅里叶变换 NumPy 傅里叶级数和变换 NumPy 信号处理应用 NumPy 卷积

多项式

NumPy 多项式表示 NumPy 多项式运算 NumPy 求多项式的根 NumPy 求多项式的根

统计

NumPy 统计函数 NumPy 描述性统计

日期时间函数

NumPy 日期和时间基础知识 NumPy 表示日期和时间 NumPy 日期和时间运算 NumPy 使用日期时间进行索引 NumPy 时区处理 NumPy 时间序列分析 NumPy 处理时间增量 NumPy 闰秒处理 NumPy 矢量化日期时间运算

ufunc

NumPy ufunc 简介 NumPy 创建通用函数 (ufunc) NumPy 算术通用函数 (ufunc) NumPy 小数舍入 ufunc NumPy 对数通用函数(ufunc) NumPy 求和通用函数 (ufunc) NumPy 乘积通用函数 (ufunc) NumPy 差分通用函数 (ufunc) NumPy 寻找最小公倍数 (LCM) NumPy 寻找最大公约数 (GCD) NumPy 三角函数 (ufunc) NumPy 双曲线 (ufunc) NumPy 集合运算(ufunc)

实用资源

NumPy 快速指南 NumPy 备忘单


NumPy - 从文件读取数据

NumPy 中的文件读取

从文件读取数据包括打开文件并提取其内容以供进一步使用。在 Python 中,NumPy 和 Pandas 等库提供了从各种文件格式(例如文本、CSV 和二进制)加载数据的函数。这使得我们可以轻松访问存储的信息进行分析或处理。

在 Python 中,文件可以分为多种类型,包括文本文件、CSV 文件和二进制文件。NumPy 可以轻松地将这些文件中的数据加载到数组中,然后用于分析或处理。

NumPy 提供了多个从文件读取数据的函数,使我们能够将数据加载到 NumPy 数组中以供进一步处理和分析。我们将介绍的主要函数包括:-

用于读取数据的 NumPy 函数

以下是 NumPy 中用于从文件读取数据的函数:-

  • numpy.loadtxt(): 从文本文件中读取数据,其中值由空格、逗号或其他分隔符分隔。
  • numpy.genfromtxt():loadtxt() 函数类似,但更灵活,允许您处理缺失值和不同的数据类型。
  • numpy.load(): 从 .npy 或 .npz 文件读取二进制数据。
  • numpy.memmap(): 高效地将大型二进制文件映射到内存,而无需将整个文件加载到内存中。

从文本中读取数据文件

文本文件简单且广泛用于存储数据。这些文件可能包含用空格、制表符或逗号分隔的数字数据。让我们探索如何使用 NumPy 从文本文件中读取数据。

使用 loadtxt() 函数读取简单文本文件

numpy.loadtxt() 函数用于读取简单、结构良好的文本文件。默认情况下,它假定文件中的数据为数字,并且可以自动使用空格或自定义分隔符分隔值。

示例:从文本文件中读取数据

在这里,我们创建了一个包含三行数字的文件。 numpy.loadtxt() 函数读取文件并返回一个二维数组,其中每一行对应文本文件中的一行 -

import numpy as np

# 创建示例文本文件
with open('data.txt', 'w') as f:
    f.write("1 2 3
4 5 6
7 8 9
")

# 从文本文件读取数据
data = np.loadtxt('data.txt')

print("从文本文件加载的数据:")
print(data)

以下是得到的输出 -

从文本文件加载的数据:
[[1. 2. 3.]
[4. 5. 6.]
[7. 8. 9.]]

使用 loadtxt() 函数自定义分隔符

如果您的数据由逗号、制表符或其他字符分隔,您也可以使用 numpy.loadtxt() 函数指定自定义分隔符。

示例

在此示例中,文件使用逗号作为分隔符,我们在 loadtxt() 函数中指定了 ',' 分隔符 -

import numpy as np

# 创建类似 CSV 的文本文件
with open('data.csv', 'w') as f:
   f.write("1,2,3
4,5,6
7,8,9
")

# 以逗号作为分隔符加载数据
data = np.loadtxt('data.csv', delimiter=',')

print("从 CSV 文件加载的数据:")
print(data)

这将产生以下结果 -

从 CSV 文件加载的数据:
[[1. 2. 3.]
[4. 5. 6.]
[7. 8. 9.]]

使用 genfromtxt() 函数处理缺失数据

有时,数据集包含缺失或不完整的值。 numpy.genfromtxt() 函数比 loadtxt() 函数更灵活,可以处理缺失数据或更复杂的文件结构。

示例:读取包含缺失值的数据

此处,第二行的缺失值被替换为 nan(非数字)。这在处理实际数据集中缺失数据很常见时非常有用 -

import numpy as np

# 创建包含缺失值的文本文件
with open('data_with_missing.csv', 'w') as f:
   f.write("1,2,3
4,,6
7,8,9
")

# 加载数据,指定缺失值
data = np.genfromtxt('data_with_missing.csv', delimiter=',', filling_values=np.nan)

print("加载后的缺失值数据:")
print(data)

以下是上述代码的输出 -

加载后的缺失值数据:
[[ 1. 2. 3.]
[ 4. nan 6.]
[ 7. 8. 9.]]

从二进制文件读取数据

二进制文件通常用于存储数据,因为它们在空间和速度方面更高效。NumPy 支持使用 numpy.load()numpy.save() 函数读取和写入二进制文件。这些函数针对以二进制格式存储 NumPy 数组进行了优化,扩展名为 .npy。

示例

在此示例中,numpy.save() 函数将数组写入二进制 .npy 文件,numpy.load() 函数将其加载回来。这种格式紧凑,并且保留了数组的数据类型和结构 -

import numpy as np

# 创建示例数组
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 将数组保存到二进制文件
np.save('data.npy', data)

# 从二进制文件加载数据
loaded_data = np.load('data.npy')

print("从二进制文件加载的数据:")
print(loaded_data)

输出结果如下 -

从二进制文件加载的数据:
[[1 2 3]
[4 5 6]
[7 8 9]]

使用 memmap() 函数的内存映射文件

为了处理内存无法容纳的大型数据集,NumPy 使用 numpy.memmap() 函数提供了内存映射数组。此函数允许您读取和写入大型二进制文件,而无需将整个文件加载到内存中。

示例:使用内存映射文件

内存映射非常适合大型数据集,因为它允许您直接访问文件的某些部分,而无需将整个文件加载到内存中 -

import numpy as np

# 创建一个大型二进制文件
data = np.arange(1e7)
np.save('large_data.npy', data)

# 对二进制文件进行内存映射
mmapped_data = np.memmap('large_data.npy', dtype='float64', mode='r', shape=(int(1e7),))

# 访问数据切片
print("内存映射数据的前 10 个元素:")
print(mmapped_data[:10])

执行上述代码后,我们得到以下输出 -

内存映射数据的前 10 个元素:
[1.87585069e-309 1.17119999e+171 5.22741680e-037 8.44740097e+252
2.65141232e+180 9.92152605e+247 2.16209968e+233 1.39837001e-076
5.89250072e-096 6.01347002e-154]

使用 CSV 文件

CSV(逗号分隔值)文件通常用于存储表格数据。NumPy 提供了读取和写入 CSV 文件的函数。 numpy.genfromtxt() 函数可以处理 CSV 文件,numpy.savetxt() 函数可用于将数据写入 CSV。

示例:将数据写入 CSV

在下面的示例中,我们创建一个二维 NumPy 数组,并使用 np.savetxt() 函数将其写入 CSV 文件。数据以逗号分隔符保存,并格式化为整数 -

import numpy as np

# 创建二维数组
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 将数据写入 CSV 文件
np.savetxt('output.csv', data, delimiter=',', fmt='%d')

print("数据已写入 'output.csv'.")

结果如下 -

数据已写入 'output.csv'.