当前位置: 首页 > news >正文

【论文笔记】【强化微调】综述 - Think With Image

[2506.23918] Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers

近两年来,强化微调已经火得不像话了,相关论文每个月就有好几篇挂在 Arxiv 上,看都看不过来。

一篇将视觉强化微调的各种方法总结起来的综述被提出来了,这篇综述将对图像的思考分成了两种:Think About Image 和 Think With Image

前者仅仅是把图像静态输入给大模型,作为一次上下文;后者是动态输入图片,类似看 - 想 - 看的迭代式思考。

本博客仅仅提供一个简要概述,并不会将所有综述提到的论文都放上来。

综述将 Think With Image 分成了 3 个阶段:

  1. 静态工具调用:首先定义一组静态的工具,比如缩放裁剪。最后模型在对图进行思考的时候,对当前的子任务选择合适的工具。比如说针对家具布置问题,模型可能首先调用 “目标检测工具” 来识别房间内的各件物品,再用 “距离估计工具” 测量可用空间。基于这些工具输出,模型会得出 “当前空隙 1.5 米,而新沙发需要 2.0 米,因此放不下” 的结论。该方法在定向数据获取上非常有效,但受制于预设工具的静态能力
  2. 动态程序生成:自动生成可执行代码来完成定制化视觉分析。面对同样的家具布置问题,模型可以生成一段 Python 脚本(例如使用 Matplotlib),在脚本中绘制房间的俯视平面图,并将每件家具表示为不同形状。然后,模型便可在这个抽象的可视化空间里,程序化地测试各种家具摆放方案。生成的代码既灵活,又能作为可审计的思考记录。唯一限制是仍需依赖外部环境来运行这些脚本
  3. 内生视觉想象:这是最先进的阶段,模型通过内生想象实现了完全的认知自主。它依托统一的生成式架构,直接在内部生成新图像,作为中间推理步骤,而无需外部执行。为寻找最佳房间布局,模型可以生成一张 “沙发已放好” 的真实感效果图,显示家具重新布置后的房间。这个内部生成的图像就像思维假设或心理模拟,模型再将其输入自身进行评估,可能立刻发现 “通道被堵住了” 。整个过程在封闭的认知回路里无缝进行,突破了前两阶段的架构瓶颈。

http://www.lryc.cn/news/580236.html

相关文章:

  • 【入门级-C++程序设计:1、程序基本概念-头文件与名字空间的概念】
  • Android-自定义View的实战学习总结
  • 深入理解JVM垃圾回收机制:引用计数法与可达性分析算法
  • 暑期数据结构第一天
  • Docker Desktop 安装到D盘(包括镜像下载等)+ 汉化
  • 【狂飙AGI】第8课:AGI-行业大模型(系列2)
  • springboot整合腾讯云cos对象存储,获取临时密钥,前端直传图片文件
  • web网页,在线%电商,茶叶,商城,网上商城系统%分析系统demo,于vscode,vue,java,jdk,springboot,mysql数据库
  • 数据结构---线性表理解(一)
  • JAVA-springboot 整合Redis
  • 本地搭建区块链服务的详细指南
  • csgo道具整理
  • 网闸内部架构设计:分层与微服务的生死博弈
  • 浅层神经网络:原理与Python实现
  • Android Studio-Git的使用指南
  • 指数分布的Python计算与分析
  • CMD 实用命令大全
  • 【网络与系统安全】强制访问控制——Biba模型
  • Assistant API的原理及应用
  • 深入MIPI DSI显示技术栈 (四) DSI物理层——高速传输的基石
  • HLS基础(1):循环展开与存储分块
  • 深入剖析MYSQL MVCC多版本并发控制+ReadView视图快照规避幻读问题
  • Kuberrnetes 服务发布
  • AI领域新趋势:从提示(Prompt)工程到上下文(Context)工程
  • Spring Boot + 本地部署大模型实现:优化与性能提升
  • 【排序算法】
  • 模型部署与推理--利用libtorch模型部署与推理
  • 前端捕获异常的全面场景及方法
  • MYSQL 服务正在启动或停止中,请稍候片刻后再试一次。
  • Java 与 MySQL 性能优化:MySQL全文检索查询优化实践