PyTorch - 数据集

在本章中,我们将更多地关注 torchvision.datasets 及其各种类型。 PyTorch 包括以下数据集加载器 −

  • MNIST
  • COCO (Captioning and Detection)

数据集包括下面给出的两种函数中的大多数 −

  • Transform − 一个接收图像并返回标准内容的修改版本的函数。 这些可以与变换组合在一起。

  • Target_transform − 获取目标并对其进行转换的函数。 例如,接受标题字符串并返回世界索引的张量。


MNIST

以下是 MNIST 数据集的示例代码 −

dset.MNIST(root, train = TRUE, transform = NONE, 
target_transform = None, download = FALSE)

参数如下 −

  • root − 已处理数据所在的数据集的根目录。

  • train − True = 训练集,False = 测试集

  • download − True = 从 Internet 下载数据集并将其放在根目录中。


COCO

这需要安装 COCO API。 以下示例用于演示使用 PyTorch 实现数据集的 COCO −

import torchvision.dataset as dset
import torchvision.transforms as transforms
cap = dset.CocoCaptions(root = ‘ dir where images are’, 
annFile = ’json annotation file’,
transform = transforms.ToTensor())
print(‘Number of samples: ‘, len(cap))
print(target)

实现的输出如下 −

Number of samples: 82783
Image Size: (3L, 427L, 640L)