当前位置: 首页 > news >正文

论文阅读:TinyGPT-V 论文阅读及源码梳理对应

!!!目前只是初稿,静待周末更新

引言

TinyGPT-V来自论文:TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones,是一篇基于较小LLM作为backbone的多模态工作。相关工作已经开源,地址为:Github

之所以选择这篇文章,是因为比较具有落地意义,且便于本地运行,查看和调试。

整体结构图
推理流程
训练阶段
Q & A
QFormer作用?

QFormer来自论文BCLI2工作中,用来弥补Frozen Image encoder和Frozen LLM之间的gap。
基于Bert作为初始化的。

推理结构图
Image
blip2_image_eval
QFormer
Liner
Linear
get_context_emb
prompt
Give the following image: <Img>ImageContent</Img>. "
"You will be able to see the image once I provide it to you. Please answer my questions.

融合方法:
先将图像转为向量。将prompt除Image部分其他部分依次转为向量。
再将两者mix,得到最终向量。

def get_context_emb(self, prompt, img_list):device = img_list[0].deviceprompt_segs = prompt.split("<ImageHere>")assert (len(prompt_segs) == len(img_list) + 1), "Unmatched numbers of image placeholders and images."seg_tokens = [self.llama_tokenizer(seg, return_tensors="pt", add_special_tokens=i == 0).to(device).input_ids  # only add bos to the first segfor i, seg in enumerate(prompt_segs)]seg_embs = [self.embed_tokens(seg_t) for seg_t in seg_tokens]# TODO: 这里具体如何混合在一起的,需要Debug查看mixed_embs = [emb for pair in zip(seg_embs[:-1], img_list) for emb in pair] + [seg_embs[-1]]mixed_embs = torch.cat(mixed_embs, dim=1)return mixed_embs
http://www.lryc.cn/news/278595.html

相关文章:

  • XCTF:MISCall[WriteUP]
  • 【MIdjourney】图像角度关键词
  • 使用 Jamf Pro 和 Okta 工作流程实现自动化苹果设备管理
  • 根能抵达的节点(二分法、DFS)C++
  • 一天一个设计模式---桥接模式
  • OpenHarmony4.0Release系统应用常见问题FAQ
  • Skywalking UI页面中操作的各种实用功能汇总
  • springboot摄影跟拍预定管理系统源码和论文
  • 【python】python新年烟花代码【附源码】
  • 书生·浦语大模型实战营-学习笔记1
  • ELF解析03 - 加载段
  • Mysql——索引相关的数据结构
  • 无代码DIY图像检索
  • Elasticsearch--Master选举
  • 微服务实战系列之Filter
  • 使用GPT大模型调用工具链
  • C语言实现bmp图像底层数据写入与创建
  • 基于BP神经网络的定位算法,基于BP神经网络定位预测
  • Java Http各个请求类型详细介绍
  • python函数装饰器参数统计调用时间和次数
  • 机器学习之集成学习AdaBoost
  • 行云部署成长之路 -- 慢 SQL 优化之旅 | 京东云技术团队
  • Windows权限提升
  • win系统搭建Minecraft世界服务器,MC开服教程,小白开服教程
  • word2vec中的CBOW和Skip-gram
  • 在ios上z-index不起作用问题的总结
  • 力扣labuladong一刷day59天动态规划
  • pyenv环境找不到sqlite:No module named _sqlite3
  • Histone H3K4me2 Antibody, SNAP-Certified™ for CUTRUN
  • 我用 Laf 开发了一个非常好用的密码管理工具