当前位置：首页 > news >正文

Pytorch学习--DataLoader的使用

news 2025/8/23 4:43:51

在这里插入图片描述

一、DataLoader简介

DataLoader官网
在这里插入图片描述
重要参数：画红框的参数

dataset:
- 作用：表示要加载的数据集。DataLoader通过该参数从数据集中读取数据。
- 类型：Dataset，即PyTorch定义的Dataset类，用于封装数据并提供数据索引的功能。
batch_size:
- 作用：指定每次加载的数据样本数量（即每个批次的数据量）。默认值为1。
- 类型：int（可选），默认为1。设置为大于1的值时，可以加速训练，因为数据将被批量处理。
shuffle:
- 作用：是否在每个epoch结束后打乱数据顺序。如果设置为True，数据会在每个epoch重新随机排列。默认值是False，即数据不打乱。
- 类型：bool（可选），是否打乱数据。
sampler:
- 作用：定义从数据集中提取数据的策略。可以传入一个Sampler类的实例，自定义数据抽样的方式。注意，如果指定了sampler，则不能再使用shuffle。
- 类型：Sampler或Iterable（可选），用于控制数据抽样。
batch_sampler:
- 作用：与sampler类似，但batch_sampler返回的是一批次的索引，而不是单个样本索引。此参数与batch_size、shuffle和drop_last互斥，不能同时使用。
- 类型：Sampler或Iterable（可选），专门用于批次索引的抽样。
num_workers:
- 作用：指定用于数据加载的子进程数量。0表示在主进程中进行数据加载。较大的值可以加速数据加载，但需要在进程间共享数据。
- 类型：int（可选），默认为0。
drop_last:
- 作用：是否丢弃最后一个未满批次的数据。当数据集的大小不能整除batch_size时，最后一个批次的大小可能会小于batch_size。如果将drop_last设为True，则丢弃这个不完整的批次。
- 类型：bool（可选），默认为False。

二、代码初识

import torchvision.datasets
from torch.utils.data import DataLoadertrain_data=torchvision.datasets.CIFAR10(root="datasets",train=False,transform=torchvision.transforms.ToTensor(),download=True)
train_loader=DataLoader(dataset=train_data,batch_size=4,shuffle=True)img,target=train_data[0]
print(img.shape)
print(target)for data in train_loader:imgs,targets=dataprint(imgs.shape)print(targets)

在这里插入图片描述
因为这里采取的是随机抽样

三、使用tensorboard可视化

import torchvision.datasets
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWritertrain_data=torchvision.datasets.CIFAR10(root="datasets",train=False,transform=torchvision.transforms.ToTensor(),download=True)
#shuffle会在epoch中表现出来
train_loader=DataLoader(dataset=train_data,batch_size=4,shuffle=True)img,target=train_data[0]
writer=SummaryWriter("logs")step=0for epoch in range(2):for data in train_loader:imgs,targets=data#注意：这里是add_images，不是add_imagewriter.add_images("epoch{}".format(epoch),imgs,step)step+=1
writer.close()