当前位置: 首页 > news >正文

多模态基础模型训练笔记-第一篇InternVL-g

一、TL;DR

  1. 将之前所有训练过的大模型的过程都总结和回忆一下,遇到的坑别忘了

二、问题记录

还是注意镜像的选择,选择社区最火的镜像,然后下载好对应的数据,主要显卡的选择,这个时候4090已经带不动了,必须选择32G的V100或者40G的A100了:

2.1 train_head:

batchsize=32

这里其实是代码有点小迷惑点哈,你选择4卡4090其实是没问题的,他会选择平摊显存,但是单卡的话,它会将所有的现存都堆到第一张卡里面去,设计上可能有点问题,显卡占用情况如下所示:

具体的实现自己去看代码吧

2.2 train_lora:

使用lora的训练方法明显是不同的,训练参数量如下所示:

loss的数值如下所示:

基本上内存也已经吃满了:

将batchsize设为16,则显存占用如下所示:

http://www.lryc.cn/news/538366.html

相关文章:

  • MyBatis:动态SQL高级标签使用方法指南
  • 使用grafana v11 建立k线(蜡烛图)仪表板
  • ubuntu 安装 Redis
  • 利用docker-compose一键创建并启动所有容器
  • mysql开启gtid并配置主从
  • redis sentinel模式 与 redis 分片集群 配置
  • 2025最新在GitHub上搭建个人图床,保姆级图文教程,实现图片高效管理
  • Web后端 - Maven管理工具
  • 【python语言应用】最新全流程Python编程、机器学习与深度学习实践技术应用(帮助你快速了解和入门 Python)
  • 《探秘Windows 11驱动开发:从入门到实战》
  • 搭建Deepseek推理服务
  • Golang GC 三色标记法
  • 重新出发的LLM本地部署——DeepSeek加持下的Ollama+OpenWebUI快速部署
  • 【第3章:卷积神经网络(CNN)——3.5 CIFAR-10图像分类】
  • Django后台新建管理员
  • 【第12章:深度学习与伦理、隐私—12.2 数据隐私保护与差分隐私技术的实现与应用】
  • 索引----数据库
  • 【ISO 14229-1:2023 UDS诊断全量测试用例清单系列:第十七节】
  • nodejs:express + js-mdict 网页查询英汉词典,能显示图片
  • matlab汽车动力学半车垂向振动模型
  • 2025.2.16
  • 图像生成GAN和风格迁移
  • 【06】泛型
  • 1-13 tortoiseGit忽略文件与文件夹
  • ASR强力模型「Whisper」:解密Whisper:AI驱动的语音识别新时代 -
  • 【机器学习】向量化使得简单线性回归性能提升
  • 【kafka系列】消费者
  • HackerRank C++面试,中等难度题目 - Attribute Parser
  • 【ARM】解决ArmDS Fast Models 中部分内核无法上电的问题
  • 节目选择器安卓软件编写(针对老年人)