rs-agent论文精读
摘要:mllms有进展,展现了通过语言和视觉输入与人类交互以执行下游任务(如视觉问答和场景理解)的强大潜力。然而这些模型受限于基本指令跟随或描述性任务。在需要专业工具和知识的复杂现实遥感应用中面临挑战。为突破这些限制,我们提出rs-agent——一种能与人类交互并自主调用专业模型以满足现实遥感应用需求的智能体。rs-agent集成四大核心组件:基于llm的中央控制器、动态工具包 用于工具执行、面向任务专家指导的解决方案空间以及支持领域级推理的知识空间,使其能解析用户查询并协调工具完成精准遥感任务。我们引入两项创新机制:任务感知检索 通过专家引导规划提升工具选择准确性,双路径检索增强生成DualRAG 一种基于加权双路径检索的方法 增强知识相关性。
引言:最新研究表明,基于llm的智能体框架,通过模块化设计,在协调多工具、分解复杂任务及适配多样化目标方面展现出强大潜力。这类智能体可弥合高层语义指令与底层工具执行之间的鸿沟。本文提出rs-agent包含四大核心组件:中央控制器(基于llm解析用户查询、规划任务、执行工具、记忆交互历史并检索相关知识)动态工具包(集成遥感领域sota方法)解决方案空间(提供任务专家指导 优化工具选择与执行流程)知识空间(存储领域专业知识与理论支持)
相关工作:
mllm的:现有 MLLM 模型仍存在泛化能力不足的问题,通常仅针对特定影像模态或固定任务组,缺乏统一解决方案。此外,引入新任务时往往需昂贵重训练,限制了可扩展性。为此,我们提出 RSAgent——一种支持多模态动态工具编排、任务规划和专家级推理的可扩展智能体框架。
agent:但这些智能体的工具库较窄,难以满足复杂领域需求,且在任务规划和工具选择上存在局限性。为此,RS-Agent 通过以下改进:丰富工具库:集成多样化遥感工具以支持复杂任务;任务感知检索:通过预定义任务解决方案提升工具使用效率;知识图谱增强检索(RAG):扩展遥感领域知识库,提升多任务处理能力。
RAG:我们提出 DualRAG,通过双检索策略(整体查询+分解关键词检索)和动态权重分配机制,提升复杂查询的检索效果。
----没写完 先这样提交了吧----