当前位置: 首页 > news >正文

大模型增量预训练参数说明

在增量预训练过程中通常需要设置三类或四类参数,模型参数,数据参数,训练参数,额外参数。

下面分别针对这四种参数进行说明。

欢迎关注公众号

模型参数

  1. model_type

模型类型,例如bloom,llama,baichuan,qwen等。

  1. model_name_or_path

模型名称或者路径。

  1. tokenizer_name_or_path

分词器名称或者路径。如果进行了词表扩充或裁剪,则tokenizer_name_or_pathmodel_name_or_path不同。

  1. load_in_8bit

是否以8bit加载模型。

  1. load_in_4bit

是否以4bit加载模型。

  1. use_fast_tokenizer

是否使用快速分词器。

  1. torch_dtype

张量数值类型

  1. device_map

设置指定设备(也就是在哪张显卡上)

数据参数

  1. dataset_name

数据集的名称&#

http://www.lryc.cn/news/240914.html

相关文章:

  • 成为AI产品经理——模型评估概述
  • 内存屏障与JVM指令
  • 深入理解JVM 类加载机制
  • SpringCloud微服务 【实用篇】| Eureka注册中心、Ribbon负载均衡
  • SpringSecurity+JWT权限认证
  • Tomcat实现WebSocket即时通讯 Java实现WebSocket的两种方式
  • 安全框架springSecurity+Jwt+Vue-2(后端开发)
  • 6.1.webrc媒体协商
  • Android WebView中打开外部超链接无反应
  • JMeter集结点的使用场景以及如何使用?
  • 2023最新面试题
  • shell 脚本的函数和数组
  • 【RocketMq系列-02】RocketMq的架构解析和高性能设计
  • 【数据结构/C++】线性表_单链表的基本操作
  • flink1.13.6版本的应用程序(maven版)
  • 深度学习之四(循环神经网络Recurrent Neural Networks,RNNs)
  • 【论文精读】HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face
  • 安装gitlab
  • Nginx模块开发之http handler实现流量统计(1)
  • JSP编写自己的第一个WebServlet实现客户端与服务端交互
  • 三、Keil安装芯片包、下载固件库、建立STM32工程模板
  • 微信相框M1-03花屏抢救照片数据
  • 小程序可拖拽按钮
  • ARM裸机-19(NandFlash和iNand)
  • 机器学习/sklearn笔记:MeanShift
  • opencv-简单图像处理
  • Linux(Kali\Ubuntu\CentOS\arm-Linux)安装Powershell
  • ubuntu20.04安装多版本cuda,切换版本
  • 网络渗透测试(wireshark 抓取QQ图片)
  • gRPC之gRPC负载均衡(客户端负载均衡)(etcd)