当前位置: 首页 > news >正文

MM DEMO-2025 | 北航新融合LLM与多模态交互的无人机导航系统!AirStar,智能空中助手等你来体验

  • 作者:Ziqin Wang, Jinyu Chen, Xiangyi Zheng, Qinan Liao, Linjiang Huang, Si Liu

  • 单位:北京航空航天大学

  • 论文标题:Hi AirStar, Guide Me to the Badminton Court

  • 论文链接:https://www.arxiv.org/pdf/2507.04430

  • 项目主页:https://buaa-colalab.github.io/airstar.github.io/

主要贡献

  • 提出了无人机系统AirStar,将无人机的高机动性与大型语言模型(LLM)的认知能力相结合,使无人机能够理解自然语言指令并执行复杂任务。

  • 通过LLM任务规划器,AirStar能够将复杂任务分解为可执行的技能序列,并动态调整任务执行过程中的失败情况。

  • AirStar支持基于地理信息的长距离导航和基于视觉语义的短距离导航,提高了导航的准确性和灵活性。

  • 提供了多种交互功能,包括手势控制、目标跟踪、智能问答等,使用户能够通过语音和手势与无人机进行自然交互。

  • 提出了高度可扩展的框架,支持无缝集成新功能,为开发通用的、指令驱动的智能无人机代理奠定了基础。

研究背景

  • 无人机的优势:无人机具有高机动性、三维移动能力,能够在复杂环境中快速接近目标并执行多种任务,如探索、检查、空中成像和日常协助。然而,大多数现有的无人机仍然依赖于手动操作,智能化程度有限。

  • 现有无人机的局限性:尽管一些无人机具备自主功能,但通常仅限于单一任务,如检测或导航,无法实现全面的场景感知、理解和决策。

  • AirStar的创新点:AirStar通过将无人机的机动性与LLM驱动的决策能力相结合,克服了现有无人机的局限性,实现了全面的场景感知和智能决策。

系统框架

LLM任务规划器

  • 知识库查询:在处理用户指令之前,系统会查询一个包含历史计划、导航记录、地标描述和最新互联网信息的知识库,以获取与任务相关的知识。

  • 任务分解:LLM任务规划器通过链式推理将复杂任务分解为可执行的技能序列,并为每个技能分配相应的参数。

  • 任务执行与重规划:无人机执行技能序列以完成用户指令。如果执行失败,任务规划器会根据执行历史和失败原因重新规划任务。

导航库

  • 地理空间感知导航:用于长距离导航任务,基于离线地图建模和地标信息。系统通过A*算法计算关键航点,并使用Ego-Planner生成平滑可行的轨迹。

  • 目标引导导航:用于短距离导航任务,基于视觉语言理解。系统使用Qwen2.5-VL预测目标点,并将其转换为3D世界坐标,然后通过Ego-Planner进行精确导航。

技能库

  • 手势控制:用户可以通过手势命令(如上下左右前后)调整无人机的视角。

  • 目标跟踪:支持通过指令或交互式点击初始化目标,并通过LightTrack进行实时目标跟踪。

  • 搜索与问答:无人机导航到与问题相关的区域后,通过计算候选视角并评估其与地标相关名词的相似性,生成最佳视角。

系统工作流程与基础设施

  • 用户交互:用户可以通过智能手机应用程序与系统交互,支持文本和语音命令。

  • 任务执行:接收到导航指令后,无人机执行由AirStar协调的一系列API调用,以完成指定任务。

  • 通信与计算:无人机通过Wi-Fi与智能手机通信,并通过5G与基站连接。由于无人机的计算能力有限,轻量级算法(如避障、目标跟踪和手势识别)在无人机上运行,而计算密集型的LLM相关算法则托管在基站上。

总结

  • AirStar通过将无人机的机动性与LLM的认知能力相结合,提供了一个高度智能的空中助手平台。

  • 它不仅支持复杂的任务规划和执行,还具备多种交互功能,能够满足用户在不同场景下的需求。

  • 此外,其高度可扩展的框架为未来无人机系统的进一步发展提供了广阔的空间。

http://www.lryc.cn/news/618576.html

相关文章:

  • 前端/在vscode中创建Vue3项目
  • NoC设计中Router Table的作用
  • Day05 店铺营业状态设置 Redis
  • 【C++】迭代器失效问题
  • THCV215一种高速视频数据收发器,采用低电压差分信号(LVDS)技术支持高速串行数据传输,支持1080p/60Hz高分辨率传输
  • 软考备考(三)
  • 2-1〔O҉S҉C҉P҉ ◈ 研记〕❘ 漏洞扫描▸理论基础与NSE脚本
  • 26 届秋招建议指南
  • Git与CI/CD相关知识点总结
  • [激光原理与应用-251]:理论 - 几何光学 - 长焦与短焦的比较
  • k8s-scheduler 解析
  • 【Java项目与数据库、Maven的关系详解】
  • 正向传播与反向传播(神经网络思维的逻辑回归)
  • Gradient Descent for Logistic Regression|逻辑回归梯度下降
  • B站 韩顺平 笔记 (Day 16)
  • 微软发布GPT-5赋能的Copilot:重构办公场景的智能革命
  • MODBUS RTU协议:工业物联网的“普通话“(Android开发实战指南)
  • C++ Rust与Go
  • LeetCode算法领域经典入门题目之“Two Sum”问题
  • Springboot3多数据源案例
  • Springboot注册过滤器的三种方式(Order 排序)
  • 亚马逊后台功能风险解构:“清除并替换库存” 的致命陷阱与全链路防控策略
  • 第五章 特征值与特征向量
  • Wireshark专家模式定位网络故障:14种TCP异常深度解剖
  • 【Altium designer】快速建立原理图工程的步骤
  • 深度学习-卷积神经网络-NIN
  • Nginx反向代理功能
  • 【实时Linux实战系列】复杂实时系统中的需求管理
  • 【无标题】centos 配置阿里云的yum源
  • CS2服务器是何方神圣