当前位置：首页 > news >正文

《Foundations and Recent Trends in Multimodal Mobile Agents: A Survey》论文精读笔记

news 2025/8/14 8:54:40

论文链接：https://arxiv.org/pdf/2411.02006

摘要

文章首先介绍了核心组件，并探讨了移动基准和交互环境中的关键代表性作品，旨在全面理解研究重点及其局限性。

接着，将这些进展分为两种主要方法：

基于提示的方法，利用大型语言模型（LLMs）进行指令式任务执行；
以及基于训练的方法，对多模态模型进行微调以适应移动特定应用。

最后，与现有综述不同，文章专注于比较这两种范式的部署成本和效果，总结它们的优缺点及适用的应用场景。

引言

Mobile Agent从简单的基于规则的系统发展到能够处理多模态数据和复杂决策的高级模型。

Mobile Agent在移动界面、自动导航和智能助手等应用中扮演着重要角色，支持更高效和智能的任务执行。

基础模型（如大型语言模型和多模态模型）对提升代理理解和适应能力方面至关重要。

评估方法：为了捕捉现实世界移动任务的动态和互动性，开发了诸如AndroidEnv和Mobile-Env等基准，用于在更逼真、互动的移动环境中评估代理，重点在于适应性和任务性能。

多模态移动代理研究的最新进展可以分为基于提示和基于训练的方法。

基于提示的方法利用大型语言模型（LLMs），如ChatGPT和GPT-4，通过指令提示和思维链（CoT）推理来处理复杂任务。AppAgent和AutoDroid等著名作品展示了基于提示系统在交互式移动环境中的潜力，尽管可扩展性和鲁棒性仍然是持续存在的挑战。

另一方面，基于训练的方法专注于针对移动应用对多模态模型进行微调，如LLaVA和Qwen-VL。这些模型通过整合视觉和文本输入来处理丰富的多模态数据，提高了它们执行界面导航和任务执行等任务的能力。

Mobile Agent的组成

四个基本组成部分：感知、规划、行动和记忆。

这些组成部分共同使代理能够在动态移动环境中进行感知、推理和执行任务，动态调整其行为以提高任务效率和鲁棒性。

感知

感知是移动代理从其周围环境中收集和解释多模态信息的过程。

在Mobile Agent中，感知组件侧重于处理来自不同环境的多模态信息，提取相关信息以支持规划和任务执行。近年来，关于移动代理感知方法的研究大致可分为两类：

（1）仅依赖视觉输入的视觉方法;

（2）结合移动特定上下文信息（如UI结构或API）的场景感知方法。

视觉方法

视觉方法旨在解决现实世界移动环境中的泛化挑战，在这些环境中，由于加密、动态渲染或平台限制，结构化UI表示（如布局树或元数据）通常不可访问或不可靠。因此，研究人员转向依赖原始屏幕输入的视觉为中心的解决方案，这种方法模仿了人类交互并提供了更好的跨平台适用性。

早期的研究使用简单模型从图像或音频生成文本描述，但往往产生冗余或不相关的内容，影响后续的计划。大型语言模型中的输入长度限制进一步加剧了这个问题。

为了改善移动环境中的视觉理解，最近的研究通过改进模型架构、构建专家流水线、设计有针对性的训练策略以及构建专为移动交互场景量身定制的数据集，增强了视觉编码器识别和处理关键UI元素（如图标和按钮）的能力。

场景感知方法

在结构化UI信息可用的情况下，最近的方法开始将DOM级别的线索与功能API结合，以增强自主代理的感知和执行能力。这些方法不仅解析和排名DOM元素，使大型语言模型能够更准确地识别和理解交互组件，还利用API访问动态信息，如应用程序的内部状态和可调用功能。

DOM文档对象模型（Document Object Model）

是一种用于 HTML 和 XML 文档的编程接口，允许脚本语言（如 JavaScript）动态地访问和更新文档的内容、结构和样式。

DOM 将文档表示为由节点构成的树结构，每个节点对应文档的一部分，例如元素、属性或文本。通过 DOM，开发者可以修改页面上的内容和样式，响应用户事件，动态更新页面等。这使得网页能够具备动态和交互功能。

通过结合界面的结构化表示，这些方法超越了仅依赖视觉输入的局限，支持更准确和高效地理解和与移动UI交互。

此外，Octopus v2引入了专门的功能标记以抽象和简化API的使用，显著提高了设备上模型的效率，同时减少了推理延迟和计算开销。

静态结构和动态接口访问的结合为代理在现实世界场景中提供了更大的控制力和可扩展性。

规划

规划是移动代理的核心机制，使其能够在处理多模态输入的同时，在动态环境中制定行动策略。

规划策略通常分为静态和动态两类。

静态规划将任务分解为子目标，但缺乏错误校正机制；

动态规划则根据实时反馈进行调整，允许代理回溯并重新规划。

在提示工程方面的最新进展进一步增强了规划能力。OmniAct通过结构化多模态输入来改善推理，使agent能够动态集成外部工具并调整输出格式，以更高效地执行任务。

行动

行动组件展示了代理如何在移动环境中通过利用三个关键方面来执行任务：屏幕交互、API调用和agent交互。

通过屏幕交互，agent可以在图形用户界面（GUI）上进行点击、滑动或输入，模仿人类行为来导航应用程序。它们还可以通过API调用访问更深层次的系统功能，例如发出命令来自动化超出GUI的任务。此外，通过与其他agent的协作，它们增强了适应复杂任务的能力，确保在不同环境中高效执行任务。

屏幕交互

在移动环境中，交互通常涉及在虚拟界面上进行点击、滑动或输入等操作。如AiTW、AITZ和AMEX等agents，通过模拟人类交互执行基于GUI的操作，确保它们能够顺利地与本地应用程序协作。这些操作超越了简单手势，包括需要agent动态适应变化或新输入的复杂多步骤过程。

API调用

移动代理依赖各种方法来与GUI交互并执行需要深入集成移动操作系统的任务，其中API调用是基础。基于API调用，移动代理可以进一步利用HTML和XML数据来访问核心功能、修改设备设置、检索传感器数据以及自动化应用程序导航，将其能力扩展到超越基于GUI的输入。通过整合这些方法，agent可以高效地完成任务，同时对其环境有更全面的理解。

记忆

记忆机制对于mobile agent至关重要，允许它们在任务间保留和使用信息。目前的研究将上下文学习映射到短期和长期记忆，并连接到外部向量存储。

短期记忆

有效的任务连续性需要短期记忆，以保留和推理最近的上下文。Auto-UI结合历史文本以改善决策，而最近的研究则存储视觉记忆。与单模态代理不同，多模态代理必须跨文本、图像和交互管理短期记忆。

长期记忆

管理长期、复杂的信息涉及结合参数记忆和向量数据库。参数记忆捕获隐含的语义，而向量存储则保留最近的情节性知识。一些方法将多模态输入转换为统一的文本以简化检索和整合。

Mobile数据集和基准

基准为评估mobile agent在UI自动化、任务完成和实际应用等任务上的表现提供了标准化环境。

大多数现有的GUI基准依赖于静态数据集，其中固定的动作序列充当标准答案。这种严格的评估忽视了多样化的有效策略，并经常对正确但非标准的解决方案进行惩罚。

交互式基准如AndroidArena提供了更具动态性的设置，但仍然严重依赖于动作序列的相似性，限制了它们评估泛化和推理能力的能力。

最近的研究探讨了基于LLM或人类的评估，但这些方法通常在不受控制的环境中进行，缺乏可重复性和一致的评估标准。因此，研究人员开始认识到，仅改善评估指标是不够的。需要对环境进行更系统的分类，以建立一个健全的基准框架。

接下来，我们将审视静态数据集、模拟环境和现实环境三种主要环境类型，以更好地理解当前的趋势和mobile agent基准测试中出现的挑战。

静态数据集

静态数据集提供了一组受控和预定义的任务及带注释的标准解决方案，使其成为在固定环境中评估移动agent的重要工具。它们主要用于评估任务自动化，要求agent遵循特定的动作或命令来完成指定任务。

早期的工作集中在将指称表达链接到UI元素，每个实例包含一个屏幕、低级命令和相应的UI元素。例如，RicoSCA数据集使用合成命令，而MiniWoB++则包括用于多步骤任务的低级动作序列。最近的努力转向了任务导向的指令，每个情节包括动作-观察对以及截图和结构化表示，如Android的视图层次结构或基于网页的文档对象模型。

PixelHelp数据集包含187个高层次任务目标，并附有Pixel Phone帮助页面的逐步说明，而UGIF则在多种语言中扩展了类似的查询。MoTIF提供了4700个任务演示，每个任务平均有6.5个步骤和276个独特的任务描述。规模更大的AITW数据集包含715,142个情节和30,378个独特提示，一些灵感来自先前的基准。

模拟环境

模拟环境提供了动态的、实时交互的平台，对于在复杂和不断变化的场景中评估agent至关重要。与静态数据集不同，这些环境支持持续的适应和反馈，使其成为测试agent灵活性和决策能力的重要工具。

在LLM-based agents出现之前，研究集中在强化学习（RL）系统上，如Android-Env，依赖于预定义的动作和奖励。

随着LLM的进步，注意力转向了能够进行自然语言理解和生成的agent，使其在应用程序自动化等任务中表现得更灵活、更具人性化。

最近的努力，如Mobile-Env，强调了基于LLM的agent在最小依赖于手动脚本的情况下自主探索多步骤任务的潜力，强调了在实际环境中的适应性。

现实环境

现实环境为解决封闭强化学习设置的一个主要限制提供了重要机会：无法完全捕捉现实交互的复杂性和多样性。

虽然受控环境对于训练和测试agent很有用，但它们往往错过了现实场景中的动态元素，如内容变化、不可预测的用户行为和多样的设备配置等因素。

为克服这些挑战，研究人员越来越多地探索开放的、现实的环境来研究基于LLM的GUI agent，使其能够学习和适应实时系统和不断变化的情境中的复杂性。

然而，在开放世界环境中部署agent会引入若干风险。这些包括安全问题、结果不可重复性以及可能的不公平比较。为了减轻这些问题并确保公平、可重复的评估，研究人员倡导在评估期间采用固定动态在线内容和重放机制等策略。这些方法有助于即使在开放世界部署的更广泛范围内，也能创建更受控的测试环境。

评估方法

在评估agent性能时，轨迹评估和结果评估是两种主要方法。

轨迹评估关注agent行动与预定义路径的对齐程度。

结果评估强调agent是否达成最终目标，关注结果而非具体过程。

以下部分将探讨这两个领域的最新研究进展，指出如何通过更全面的评估策略提升我们对agent在复杂环境中性能的理解。

轨迹评估

最近对GUI交互基准的改进集中在逐步评估上，通过比较预测的动作与参考动作轨迹，以评估agent性能的有效性。虽然这种方法在许多情况下是有效的，但任务完成通常有多种有效解决方案，agent可能会探索不同的路径，而不一定遵循预定义的轨迹。为了提高这些评估的灵活性和稳健性，Mobile-Env评估了来自中间状态环境的一部分信号，能够在更广泛的任务范围内提供可靠的评估。

结果评估

通过评估agent是否达到期望的最终状态来确定其成功，将任务目标视为隐藏状态的子集，而不考虑为实现这些目标所采取的路径。这些最终状态可以通过各种系统信号来识别。

依赖单一信号类型可能无法捕捉所有相关的状态转换，因为某些动作（如表单提交）可能仅在GUI中可见，而在系统日志或数据库中不可见。转向基于结果的评估并使用多种信号可以使GUI交互基准更可靠、更具适应性，允许agent在不同场景中展示其全部能力。

性能比较

由于当前基准的局限性、实现方法的差异以及平台的变化，在统一的评估环境中对所有方法进行比较具有挑战性。同时，基于提示和基于训练的方法由于评估指标的不一致性，导致跨研究比较变得复杂。

方法如AppAgent和AutoDroid引入了他们自己的基准和指标，但仅在这些基准内进行测试，并与GPT-4等模型进行比较。这些差异使得目前直接的实验比较不切实际。

因此，在审查不同研究的实验结果后，我们比较了AITW和MobileAgentbench基准。

AITW测量指令准确性，而MobileAgentbench测量成功率。有关更多细节，请参见附录中的表4和表7，并了解未来研究中对标准化基准的需求。

Mobile Agent的分类

本节介绍了移动agent的分类，将其分为两大类：基于提示的方法和基于训练的方法。

如表9所示，基于提示的agent利用LLM（大规模语言模型）的进步，通过自然语言处理来解释和执行指令，通常侧重于需要与GUI动态交互的任务；

基于训练的方法则涉及微调模型或应用强化学习，以增强agent的决策能力和随着时间的适应能力。

基于提示的方法

最近在LLM方面的进展展示了发展自主GUI agent的巨大潜力，尤其是在需要遵循指令的任务中以及链式思维（CoT）提示中。

CoT提示特别有效，能够使LLM处理分步流程、做出决策并执行动作。这些能力在涉及GUI控制的任务中表现出极大的好处。

感知工具

使LLM能够与GUI交互是至关重要的，因为这些模型主要设计用于处理自然语言而非视觉元素。

感知工具在弥合这一差距上发挥着关键作用，通过文本命令允许LLM解释和交互视觉元素，使模型能够处理和响应图形界面组件。

这种多模态集成显著提高了移动agent在复杂环境中的效率和灵活性。像图标识别和OCR等技术被用来分析GUI元素，然后将解析的元素转化为HTML布局。然而，这种方法严重依赖于外部工具和特定应用程序接口，经常导致推理过程中的低效和错误。

虽然一些研究已经探索了多模态架构以处理不同类型的输入，但这些方法仍依赖于详细的环境解析以获得最佳性能。鉴于准确的GUI对接的重要性，较新的研究开始探索预训练方法来提高agent在GUI任务中的表现。

记忆机制

在基于提示的方法中，有效的任务执行依赖于强大的记忆机制来保留和使用相关信息。

在像AppAgen这样的agent中，agent使用探索阶段来进行记忆，允许其通过存储先前探索的交互来学习和适应新应用。这种方法使得agent能够保留知识而无需额外的训练数据。MobileAgent通过分析带有感知工具的屏幕截图来自动化移动应用操作，避免依赖系统代码。

基于训练的方法

与基于提示的方法相对，基于训练的方法涉及显式的模型优化。这些agent通过收集指令跟随数据来微调大型语言模型如LLama或多模态模型如LLaVA，以获取指令信息。

预训练的视觉语言模型（VLMs）

在移动环境中，预训练的VLMs已成为决策和交互的强大工具。像LLaVA和Qwen-VL这样的模型，在大规模通用数据集上进行预训练，能够有效捕捉视觉和语言信息。然而，它们在移动环境中的适用性受到对移动数据特定交互元素缺乏敏感性的限制。

为提高预训练模型对移动数据交互元素的响应能力，CogAgent收集了大规模移动数据集用于预训练表示。CogAgent整合了GUI agent的视觉和文本输入，使用VLMs改善与复杂移动UI的交互。

Spotlight是一个用于移动UI任务的视觉语言模型，仅依赖于截图和特定区域，支持多任务和小样本学习，基于大规模数据集进行训练。

VUT使用双塔Transformer进行多任务UI建模，以更少的模型和较低的计算成本实现了具有竞争力的性能。

微调

通过视觉指令调优方法利用大规模移动数据集（如AitW）促进了具有常识推理能力的预训练VLMs的微调过程。

现有方法主要涉及两个方面：数据集增强和训练策略改进。

ScreenAI和AMEX专注于使用合成数据和多层次注释来精确识别和描述移动界面上的UI元素，为复杂的问题回答和导航任务提供高质量的数据集。

另一方面，Auto-GUI、UIVLM、COCO-Agent、Octo-planner和AutoDroid通过策略如直接界面交互、任务指令和元素布局改进以及将规划与执行分离来显著提高模型性能。

这些技术不仅优化了自动化过程，还提高了模型在实际应用中的预测准确性和操作效率。

强化学习

强化学习提供了一种动态训练移动agent的方法，使其能够从与环境的交互中学习。

这种方法在agent必须适应序列决策任务或根据奖励优化其行为的场景中特别有效。WoB平台通过允许agent使用类似人类的动作与网站交互，实现了在真实环境中的强化学习。

同时（Shi et al., 2017）将动作预测转化为问答，提高了不同环境中的任务泛化能力。MiniWoB++引入了工作流程引导探索，将专家工作流程与任务特定动作相结合，加速学习并提高动作预测任务的效率。

DigiRL结合了离线和在线强化学习来训练设备控制代理。它利用VLM-based评估器支持与64个安卓模拟器的实时交互，提高了基于RL的agent训练的效率。

分析

为了评估基于提示和基于训练的方法之间的实际权衡，我们进行了系列的真实应用自动化任务。

这些任务包括自动监控电子商务页面上的价格信息，聚合和总结产品数据，分析相对于用户偏好的性价比，以及完成结帐过程。

我们的观察揭示了在部署成本、推理速度、操作费用和数据隐私方面两种范式的显著区别。

基于提示的agent依赖于GPT-4V和Gemini等商业API，不需要本地部署，并且能够以最小的维护进行快速原型制作。然而，每个任务的成本相对较高（大约0.70至1.20美元），推理速度较慢（每步5到25秒），并且所有用户数据都在外部处理——引发了隐私问题。

相比之下，基于训练的agent需要预先访问专用基础设施，例如配置了两个A100 GPU的服务器。虽然购买成本约为30,000美元，但我们在长达56天的评估期间选择了基于租赁的设置，总租赁费用约为4,000美元。一旦部署，基于训练的agent提供显著较低的每任务成本（$0.01到$0.05），更快的推理（每步1到3秒），并且对数据隐私拥有完全的控制。然而，这种方法需要更多的工程努力进行部署、微调和持续的系统维护。

总体而言，基于提示的解决方案更适合轻量级或快速变化的任务，而基于训练的agent在高频率或对延迟敏感的应用中提供了更优的长期效率、隐私和可扩展性。

结论

本文综述提供了多模态移动agent技术的全面概述。首先，我们讨论了感知、规划、行动和记忆等核心组件，这些组件使移动agent能够适应其环境，构成其功能的基础。接下来，我们回顾了移动agent基准的进展，这些进展改善了移动agent的评估，但仍需要更全面的方法来捕捉现实动态。然后，我们提出了移动agent的分类，区分了基于提示和基于训练的方法，每种方法在可扩展性和适应性方面各有优劣。

最后，我们强调了未来的研究方向，聚焦于安全性、适应性和多agent协作，以推进移动agent的能力。

限制

本综述重点关注基于LLM的移动agent的最新进展，但对传统的非LLM系统的覆盖有限。对旧的基于规则的agent缺乏讨论可能限制了移动agent技术发展的更广泛背景。

附录

A.1 未来研究方向

在本综述中，我们展示了移动agent领域的最新进展。尽管取得了显著进步，但仍有许多挑战尚未解决。基于当前的研究现状，我们提出以下未来研究方向：

模型架构优化：
在优化移动agent性能时，必须重视对接能力（grounding ability）对动作预测任务的影响。

为此，模型需要增强在UI元素定位上的对接能力，同时有效适应动作预测任务并做出高效决策。

专家混合（Mixture of Experts, MOE）架构在此过程中的作用至关重要。通过引入多个专家模块，MOE允许模型根据任务动态选择最适合的专家模块，在处理多领域任务时尤为有效，从而提高任务适应性和表现。因此，采用MOE架构可以在增强对接能力的同时，确保在复杂任务中具备强大的决策能力，从而提升多领域任务的表现。

结合强化学习：
提高移动agent适应动态和不可预测环境的能力至关重要。移动agent的任务本质上是决策任务，而不仅仅是预测任务。

通过指令微调训练可以改进动作空间内的预测，但在虚拟机或模拟器中，由预测结果引起分布变化的决策数据场景中，这种方法效果有限。

这些场景需要通过强化学习来完成序列决策任务。然而，这一领域的研究仍处于早期阶段。目前的探索，如Digirl、Distrl和RL4VLM，尚未实现该领域的端到端对齐。

未来的研究应探索如何更好地利用强化学习，将多变的交互环境与多模态大语言模型相结合，实现实时行为调整。

安全性与隐私：
在开放环境中，移动agent面临安全风险。无论是AITW和AMEX数据集中涉及在潜在空间中决策的任务，还是AITZ等通过链式思维完成决策的任务，模型的安全性及其伦理性都会影响决策表现。未来的研究应优先开发更强的安全机制，以防止恶意行为和数据泄露。此外，还需要开发隐私保护技术和伦理改进机制，以确保agent交互过程中的安全和伦理操作。

多agent协作：
集体智能通过分布式控制简化复杂问题，通过冗余设计增强系统的鲁棒性，并通过协调操作优化资源利用，在处理大规模、复杂任务时表现出显著的效率和适应性。提高多个移动agent之间的协作能力仍是一项关键挑战。

目前，多agent系统的研究仍局限于角色扮演、标准操作流程以及与专家模型协作。总体规模较小，对通信和组织结构的探索不足。未来的研究应聚焦于高效的通信和协作机制，使agent能够动态组建团队，完成任务更高效。

模型轻量化：
移动设备的计算资源有限，这对模型的部署和推理提出了更高的要求。因此，量化和推理加速变得尤为重要。现有方法如SphAgent、CogAgent和SeeClick仍然存在参数规模过大，难以在移动设备上部署的问题。

最新的研究如LiMAC，通过减少微调成本而不压缩模型参数进行优化。未来的研究应专注于优化移动agent的模型尺寸并加速推理过程，以在资源受限的情况下确保高性能。

此外，改进推理管道以增强实时决策能力也是至关重要的，这涉及更高效的计算算法和硬件加速，以实现更快的响应并降低能耗。

A.2 补充技术

有效的补充技术对于提升移动agent的性能和可用性至关重要，除了基准、VLM模型、微调方法和先进推理技能等关键组件外。这些技术促进了与移动环境的无缝互动，使agent能够高效地适应、学习和执行复杂任务。

UIED使用计算机视觉和深度学习检测和分类GUI元素，支持交互式编辑。

WebGPT通过模仿学习和人类反馈微调GPT-3用于基于网页的问题回答。

WebVLN训练AI agent通过问题指导导航网站，结合HTML以更深入地理解。

A.3 可用相关技术

此外，OmniACT为评估跨各种桌面应用程序和自然语言任务的任务自动化提供了综合平台。

WebVoyager引入了一种使用GPT-4V的自动化评估协议，在导航过程中捕捉截图，并实现了与人类判断85.3%的一致性。

此外，Widget Captioning为改善UI可访问性和交互设定基准，提供162,859个人工注释短语，以描述来自多模态输入的UI元素，为自然语言生成任务的进步铺平了道路。最重要的是，利用多样的系统信号集提供了更全面和准确的agent性能评估。

在桌面平台上，研究集中在评估LLM-based agents如何利用API和软件工具完成文件管理和演示等任务。AgentBench提供了一个灵活、可扩展的框架用于评估agent任务，

而PPTC Benchmark则针对评估LLM-based agents在PowerPoint相关任务中的表现。

A.4 GUI Agent性能比较

在安卓GUI基准上，GUI agent在静态和对接任务中展示了竞争性的性能。

在表4（AITW静态评估）中，CogAgent和SeeClick达到较强的整体准确性，CogAgent达到76.88%，SeeClick达到76.20%，表现优于大多数非GUI agent，显示出在涉及复杂界面的决策场景中的稳健性。

值得注意的是，这些GUI agent集成了布局或多模态特征以增强UI理解，CoCo-LLAMA和MobileVLM在大多数拆分中也实现了70%+的准确性。

在对接任务基准ScreenSpot（表5）中，GUI agent如CogAgent、SeeClick和UGround-V1也表现出竞争力。UGround-V1实现了73.3%的平均准确性，SeeClick达到53.4%。CogAgent在AITW上的动作准确性很强，但在ScreenSpot的对接表现较低（47.4%），这可能表明其在基于截图的设置下对接能力的不足。

总体而言，具有布局感知监督或多模态视觉编码的GUI agent持续优于零样本基准如Qwen2-VL和Qwen2.5-VL。

其中，UI-R1-3B，一个为GUI交互设计的基于规则的强化学习agent，在ScreenSpot上达到了最佳平均准确性（83.3%），展示了在GUI环境中结合结构化提示、精细视觉对接和布局推理的有效性。

查看全文

http://www.lryc.cn/news/619697.html