当前位置: 首页 > news >正文

大语言模型数据处理方法(基于llama模型)

文章目录

  • 前言
  • 一、基于huggingface的DataCollatorForSeq2Seq方法解读
    • 1、DataCollatorForSeq2Seq方法
    • 2、batch最长序列填充
    • 3、指定长度填充
  • 二、构建大语言模型数据加工模块
    • 1、数据读取
    • 2、数据加工
      • 1、数据格式
      • 2、预训练(pretrain)数据加工
      • 3、微调(sft)数据加工
        • ①、sft数据加工代码
        • ②、sft数据变换内容
    • 3、数据dataloader方法


前言

本文使用huggingface方法来构建大模型数据加工方法!当然,这些方法也可以为其它大模型使用!。


一、基于huggingface的DataCollatorForSeq2Seq方法解读

1、DataCollatorForSeq2Seq方法

该方法是类似collan_fn函数,就是torch的dataloader对batch包装函数处理,而输入字典给input_ids与labels就好了,这个方法会自动给你添加attention_mask内容,而attention_mask若有pad填充值是0。这个也是huggingface提供内容,而我这里想介绍如何自动填充。

该方法是一个类,其示意源码如下:

class DataCollatorForSeq2Seq:tokenizer:
http://www.lryc.cn/news/469094.html

相关文章:

  • 爱奇艺大数据多 AZ 统一调度架构
  • 【C++篇】栈的层叠与队列的流动:在 STL 的韵律中探寻数据结构的优雅之舞
  • 使用 Flask 实现简单的登录注册功能
  • 计算机毕业设计Python+大模型微博情感分析 微博舆情预测 微博爬虫 微博大数据 舆情分析系统 大数据毕业设计 NLP文本分类 机器学习 深度学习 AI
  • CTF--Misc题型小结
  • 深度学习系列——RNN/LSTM/GRU,seq2seq/attention机制
  • 通过call指令来学习指令摘要表的细节
  • 10分钟使用Strapi(无头CMS)生成基于Node.js的API接口,告别繁琐开发,保姆级教程,持续更新中。
  • 创建插件 DLL 项目
  • OpenCV双目相机外参标定C++
  • 【GESP】C++一级练习BCQM3055,4位数间隔输出
  • 纯血鸿蒙的最难时刻才开始
  • 记一个mysql的坑
  • Java中的设计模式:单例模式详解
  • NanoTrack原理与转tensorrt推理
  • YOLO11改进 | 卷积模块 | 卷积模块替换为选择性内核SKConv【附完整代码一键运行】
  • CentOS进入单用户模式进行密码重置
  • bitpoke- mysql-operator cluster
  • 第5课 基本数据类型
  • OceanBase 首席科学家阳振坤:大模型时代的数据库思考
  • 国内知名的几个镜像源
  • 海外著名新闻门户媒体软文发稿之华盛顿独立报-大舍传媒
  • 青少年编程与数学 02-002 Sql Server 数据库应用 13课题、函数的编写
  • 关于LaTeX的floatrow包导入后标题无法直接放到浮动体上方
  • Flutter Image和Text图文组件实战案例
  • 使用 xlrd 和 xlwt 库进行 Excel 文件操作
  • 03.04、化栈为队
  • Coppelia Sim (v-REP)仿真 机器人3D相机手眼标定与实时视觉追踪 (二)
  • 苏州金龙技术创新赋能旅游新质生产力
  • ceph pg stale 恢复