当前位置: 首页 > news >正文

[论文笔记] pai-megatron-patch Qwen2-72B/7B/1.5B 长文本探路

[论文笔记] Pai-megatron-patch cpu-offload 改到 Qwen2-CSDN博客

Pai-Megatron-Patch (mcore代码)

长文本限制:

开SP之后,72B能开到16K,7B能开到32K。

但是72B开16K,或者7B开32K时,如果训练时训练样本中有长文本的话,则还是会OOM。

code:

相对于原repo加了一些代码适配性的问题。 

Release tokenize code update · Carrie-Yi/pai-megatron-patch-xin · GitHub

解决方案:

1、cpu-offload

这个repo中给Qwen2-CT改了yarn和cpu-offload,但是还没测试

http://www.lryc.cn/news/405825.html

相关文章:

  • 【SpringCloud】微服务远程调用OpenFeign
  • MySQL零散拾遗(四)
  • 大语言模型-检索测评指标
  • Zookeeper集群中节点之间数据是如何同步的
  • HTTPServer改进思路2(mudou库核心思想融入)
  • Kubernetes Secret 详解
  • docker笔记4-部署
  • 有监督学习基础
  • 揭开 AI 绘画提示词的神秘密码!
  • macOS 10.15中屏蔽Microsoft Edge浏览器的更新提示
  • Qt 实战(3)数据类型 | 3.2、QVariant
  • Docker中安装的postgresql14在启用vector扩展的时候,找不到该扩展的控制文件。
  • JS防抖和节流
  • OpenWrt 为软件包和docker空间扩容
  • 重要的工作任务,怎么在电脑桌面设置倒计时?
  • Failed to build get_cli:get:的解决方案
  • 短视频矩阵源码技术分享
  • 轮播图自定义内容
  • 大数据-44 Redis 慢查询日志 监视器 慢查询测试学习
  • Istio_01_Istio初识
  • leetcode日记(47)螺旋矩阵Ⅱ
  • centos系统mysql主从复制(一主一从)
  • IEDA怎么把springboot项目 启动多个
  • Vue 3项目安装Element-Plus
  • Git下载安装
  • linux中的目录操作函数
  • JSON 文件第一段飘红
  • go使用gjson操作json数据
  • Mac 下华为鸿蒙 :DevEco Studio 开发工具下载
  • C进阶—动态内存管理