当前位置: 首页 > news >正文

datasets库之load_dataset

目录

  • 问题
  • 解决方案

问题

使用peft用lora微调blip2时用到了一个足球数据集,如下:
在这里插入图片描述
原始代码如下

dataset = load_dataset("ybelkada/football-dataset", split="train")

然而这需要梯子才能下载,服务器较难用VPN所以使用autodl的学术加速,然而下载后是这样的
在这里插入图片描述
下载后和源数据不一样,服务器端代码无法直接加载autodl解析的数据,并且直接从网页下载源数据集不能像预训练模型那样直接加载。

解决方案

将源数据下载到本地,并执行下面一行代码:

dataset = load_dataset('parquet', data_files='/home/mayunchuan/.cache/huggingface/datasets/ybelkada/football-dataset/data/train-00000-of-00001-fc7c825a21687306.parquet',split='train')

即可加载,注意datasets的版本,低版本的无法加载本地数据,我用的datasets版本是3.1.0,解析的数据如下
在这里插入图片描述

加载后的数据可以保存到disk上:

dataset.save_to_disk('your path')

下次可以直接调用

# 从磁盘加载数据集
dataset = load_from_disk(dataset_path)

也可以直接加载解析的数据

train_dataset_path = "/home/mayunchuan/.cache/huggingface/datasets/parquet/default-d3b5e02210aa68e5/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec"
dataset = load_dataset(train_dataset_path, split="train")

另外,加不加split都不会影响数据集的解析,如果不加split=‘train’:
在这里插入图片描述
加了:
在这里插入图片描述

http://www.lryc.cn/news/506438.html

相关文章:

  • React Router常见面试题目
  • sequelize-cli 封装登录接口
  • 使用 Elasticsearch 查询和数据同步的实现方法
  • QTday1作业设置简易登录界面
  • RC低通滤波器和LR低通滤波器,LC低通滤波器该怎么选择
  • 芯旺微KF32A156芯片ADC配置
  • 【Token】校验、会话技术、登录请求、拦截器【期末实训】实战项目学生和班级管理系统\Day15-后端Web实战(登录认证)\讲义
  • [Unity Shader] 【游戏开发】【图形渲染】Shader数学基础3:矢量与标量的乘法与除法详解
  • javalock(四)AQS派生类之Semphore逐行注释
  • 【C语言】头文件”“和<>的详解
  • Elasticsearch:什么是信息检索?
  • Spark-Streaming容错语义
  • 2024年12月陪玩系统-仿东郊到家约玩系统是一种新兴的线上预约线下社交、陪伴系统分享-优雅草央千澈-附带搭建教程
  • GUI07-学工具栏,懂MVC
  • 【进程篇】04.进程的状态与优先级
  • ElasticSearch 数据聚合与运算
  • 科研学习|论文解读——智能体最新研究进展
  • 面试小札:Java后端闪电五连鞭_8
  • java error(2)保存时间带时分秒,回显时分秒变成00:00:00
  • 计算机毕业设计python+spark+hive动漫推荐系统 漫画推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 知识图谱 大数据毕设
  • 数字IC后端设计实现篇之TSMC 12nm TCD cell(Dummy TCD Cell)应该怎么加?
  • (8)YOLOv6算法基本原理
  • LNMP+discuz论坛
  • 在linux系统的docker中安装GitLab
  • Python面试常见问题及答案12
  • 从0-1开发一个Vue3前端系统页面-9.博客页面布局
  • [手机Linux] 六,ubuntu18.04私有网盘(NextCloud)安装
  • 白话java设计模式
  • 助力 Tuanjie OpenHarmony 开发:如何使用工具包 Hilog 和 SDK Kits Package?
  • NSDT 3DConvert:高效实现大模型文件在线预览与转换