当前位置: 首页 > news >正文

【NLP学习笔记】load_dataset加载数据

除了常见的load_dataset(<hf上的dataset名>)这种方式加载HF上的所有数据外,还有其他custom的选项。

  1. 加载HF上部分数据
from datasets import load_dataset
c4_subset = load_dataset("allenai/c4", data_files="en/c4-train.0000*-of-01024.json.gz")
c4_subset = load_dataset("allenai/c4", data_dir="en")# 还可以通过 split=xxx 来切分为train or validation
data_files = {"validation": "en/c4-validation.*.json.gz"}
c4_validation = load_dataset("allenai/c4", data_files=data_files, split="validation")
  1. 加载本地的数据
    本地的数据可以是本地自己构建的,也可以是从HF上下载的
    https://huggingface.co/docs/datasets/loading#local-and-remote-files
from datasets import load_dataset
dataset = load_dataset("csv", data_files="my_file.csv")

以csv为例,需要在第一个选项指定 'csv’格式,其他格式的数据也需要指定其他格式,HF上的格式基本在HF官网点进去可以知道,如:
parquet格式
json格式

http://www.lryc.cn/news/391414.html

相关文章:

  • 企业如何选择好用的供应商管理系统
  • 震惊!运气竟能如此放大!运气的惊人作用,你了解吗?
  • 记录一次Apache Tomcat 处理返回自定义的404页面
  • 【piania 的用法】
  • 上海计算机考研炸了,这所学校慎报!上海大学计算机考研考情分析!
  • 面对全球新能源汽车合作发展创维汽车如何实现共赢
  • 安全和加密常识(1)对称加密和非对称加密以及相应算法
  • afrog-漏洞扫描(挖洞)工具【了解安装使用详细】
  • c++类模板--无法解析的外部符号
  • Postman介绍
  • 以智能化为舵手,引领现代计算机系统架构新航向
  • 揭秘品牌成功秘诀:品牌营销策略的核心要素大公开
  • java如何把list转换成map
  • vite typescript 配置跨域代理
  • ArcGIS Pro SDK (七)编辑 10 捕捉
  • 开始尝试从0写一个项目--后端(一)
  • STM32第十二课:ADC检测烟雾浓度(MQ2)
  • 1975react社区问答管理系统开发mysql数据库web结构node.js编程计算机网页源码
  • SSL/CA 证书及其相关证书文件解析
  • 鸿蒙小案例-自定义键盘
  • STM32智能农业监控系统教程
  • 分子AI预测赛笔记
  • 003 线程的暂停和中断
  • mysql在部署时的问题
  • Flutter集成高德导航SDK(Android篇)(JAVA语法)
  • 代码随想录Day76(图论Part11)
  • 工程化:Commitlint / 规范化Git提交消息格式
  • 电脑有线网卡和无线网卡的MAC地址
  • 代码随想录-DAY②-数组——leetcode 977 | 209
  • 稀疏数组搜索