当前位置: 首页 > news >正文

[论文笔记] PAI-Megatron中qwen和mistral合并到Megtron-LM

一、千问

        关于tokenizer的改动:

1.1、更改build_tokenizer中tokenizer类的加载。

        /mnt/nas/pretrain/code/Megatron-LM/megatron/tokenizer/__init__.py 或者 tokenizer.py

        在build_tokenizer.py函数中:

​elif args.tokenizer_type == "QwenTokenizer":assert args.tokenizer_name_or_path is not Nonefrom .tokenization_qwen import QWenTokenizertokenizer = QWenTokenizer.from_pretrained(args.tokenizer_name_or_path,model_max_length=args.seq_length,padding_side='right',use_fast=False,)tokenizer.pad_token_id = tokenizer.pad_idtokenizer.eos_token_id = tokenizer.eod_idargs.padded_vocab_size = tokenizer.vocab_size + args.extra_vocab_size​

 1.2、dlc时创建主函数.sh文件 or debug时更改主函数参数命名

        debug时

http://www.lryc.cn/news/279494.html

相关文章:

  • python设计模式有哪几种
  • C语言从入门到实战——数据在内存中的存储方式
  • 高效便捷的远程管理利器——Royal TSX for Mac软件介绍
  • Docker 部署后端项目自动化脚本
  • MySQL从0到1全教程【2】SQL语言的通用语法及分类
  • 【npm link】Node命令中的npm link命令的使用,还有CLI全局命令的使用,开发命令行工具必不可少的部分
  • Unity组件开发--相机跟随角色和旋转
  • JavaScript系列——Proxy(代理)
  • QT第三天
  • Jetpack Compose -> 声明式UI Modifier
  • windows10 装docker和docker compose
  • 第二次面试总结 - 宏汉科技 - Java后端开发
  • GPT-4:人工智能的新纪元与未来的无限可能
  • 2.右值引用和移动语义
  • 深入浅出线程原理
  • openssl3.2 - 官方demo学习 - saccept.c
  • JavaScript基础(26)_dom增删改练习
  • mac上部署单体hbase
  • 【RV1126 学习】SDK/ U-Boot/kernel/rootfs 编译学习
  • Golang 使用 AST 获取方法和参数名以及应用举例
  • DC-DC变换集成电路芯片B34063——工作电压范围宽,静态电流小
  • 强力推荐:本地文件加密软件—超详细加密步骤来了!
  • 在qml中,ListModel可以与WorkerScript一起使用,从多个线程访问列表模型
  • rocketmq实现延迟消息
  • vue倒计时60秒改变按钮状态效果demo(整理)
  • 多区域isis配置实验
  • Ubuntu 22.04.3 LTS arm64 aarch64 ISO jammy-desktop-arm64.iso 下载
  • 软件测试面试必备知识
  • 4.4 媒资管理模块 - 分布式任务处理介绍、视频处理技术方案
  • K8S集群重新初始化--详细过程