当前位置: 首页 > news >正文

【视频笔记】基于PyTorch从零构建多模态(视觉)大模型 by Umar Jamil【持续更新】

视频链接:
基于PyTorch从零构建多模态(视觉)大模型 by Umar Jamil
从头编写一个视觉语言模型:PloyGamma,是谷歌的一个模型
在这里插入图片描述
1:原始图像
2:视觉编码器(本文是viT),通过对比学习进行训练。这个对比学习最开始是CLIP,后来被谷歌改成了SigLIP
3:线性投影层
4:如何将图像tokens的嵌入与文本token的嵌入结合起来
5:文本提示
6:Tokenizer
7:语言模型本身,基于transformer
8:如何利用条件生成输出

接下来的内容:
1)Vision Transformer
2)对比学习(CLIP、SigLip)
3)多模态语言模型(Gemma):如何把视觉和文本结合起来
4)KV-cache:希望这个模型用于推理,希望以优化的方式来实现,最佳方法就是使用KV-cache
5࿰

http://www.lryc.cn/news/515917.html

相关文章:

  • 解决 C++ 中头文件相互引用和解耦问题
  • 河马剧场(短剧)APP的邀请码怎么填写
  • 01:C语言的本质
  • 第1章:数据库基础
  • C++教程 | string类的定义和初始化方法
  • React中的合成事件
  • [SMARTFORMS] 创建FORM
  • 成都和力九垠科技有限公司九垠赢系统Common存在任意文件上传漏洞
  • 基于Python的考研学习系统
  • 『SQLite』几种向表中插入数据的方法
  • 什么是Kafka的重平衡机制?
  • pdf预览 报:Failed to load module script
  • AI 角色扮演法的深度剖析与实践
  • weblogic问题
  • Qt仿音乐播放器:客户端唯一化
  • ceph文件系统
  • 【数据结构-堆】力扣2530. 执行 K 次操作后的最大分数
  • Java jdk8新特性:Stream 流
  • 房产销售系统(源码+数据库+文档)
  • Vue 项目自动化部署:Coding + Jenkins + Nginx 实践分享
  • 从零开始开发纯血鸿蒙应用之实现起始页
  • CG顶会论文阅读|《科技论文写作》硕士课程报告
  • 【Python运维】使用Python与Docker进行高效的容器化应用管理
  • 【人工智能】基于Python与OpenCV构建简单车道检测算法:自动驾驶技术的入门与实践
  • 实时数仓: Hudi 表管理、Flink 性能调优或治理工具脚本
  • Kotlin 数据类与密封类
  • 大模型推理加速调研(框架、方法)
  • C语言进阶(3)--字符函数和字符串函数
  • 微服务拆分的艺术:构建高效、灵活的系统架构
  • 记录一次电脑被入侵用来挖矿的过程(Trojan、Miner、Hack、turminoob)