当前位置：首页 > news >正文

【视频笔记】基于PyTorch从零构建多模态（视觉）大模型 by Umar Jamil【持续更新】

news 2025/7/8 17:02:38

视频链接：
基于PyTorch从零构建多模态（视觉）大模型 by Umar Jamil
从头编写一个视觉语言模型：PloyGamma，是谷歌的一个模型
在这里插入图片描述
1：原始图像
2：视觉编码器（本文是viT），通过对比学习进行训练。这个对比学习最开始是CLIP，后来被谷歌改成了SigLIP
3：线性投影层
4：如何将图像tokens的嵌入与文本token的嵌入结合起来
5：文本提示
6：Tokenizer
7：语言模型本身，基于transformer
8：如何利用条件生成输出

接下来的内容：
1）Vision Transformer
2）对比学习（CLIP、SigLip）
3）多模态语言模型（Gemma）：如何把视觉和文本结合起来
4）KV-cache：希望这个模型用于推理，希望以优化的方式来实现，最佳方法就是使用KV-cache
5࿰

http://www.lryc.cn/news/515917.html

相关文章：

解决 C++ 中头文件相互引用和解耦问题

河马剧场(短剧)APP的邀请码怎么填写

01：C语言的本质

第1章：数据库基础

C++教程 | string类的定义和初始化方法

React中的合成事件

[SMARTFORMS] 创建FORM

成都和力九垠科技有限公司九垠赢系统Common存在任意文件上传漏洞

基于Python的考研学习系统

『SQLite』几种向表中插入数据的方法

什么是Kafka的重平衡机制？

pdf预览报：Failed to load module script

AI 角色扮演法的深度剖析与实践

Qt仿音乐播放器：客户端唯一化

ceph文件系统

【数据结构-堆】力扣2530. 执行 K 次操作后的最大分数

Java jdk8新特性：Stream 流

房产销售系统(源码+数据库+文档)

Vue 项目自动化部署：Coding + Jenkins + Nginx 实践分享

从零开始开发纯血鸿蒙应用之实现起始页

CG顶会论文阅读｜《科技论文写作》硕士课程报告

【Python运维】使用Python与Docker进行高效的容器化应用管理

【人工智能】基于Python与OpenCV构建简单车道检测算法：自动驾驶技术的入门与实践

实时数仓： Hudi 表管理、Flink 性能调优或治理工具脚本

Kotlin 数据类与密封类

大模型推理加速调研（框架、方法）

C语言进阶(3)--字符函数和字符串函数

微服务拆分的艺术：构建高效、灵活的系统架构

记录一次电脑被入侵用来挖矿的过程（Trojan、Miner、Hack、turminoob）