当前位置：首页 > news >正文

字节开源了一款具备长期记忆能力的多模态智能体：M3-Agent

news 2025/8/20 14:19:25

猫头虎AI分享｜字节开源了一款具备长期记忆能力的多模态智能体：M3-Agent

近年来，多模态大模型的发展迅猛，但如何赋予智能体类似人类的长期记忆能力，一直是研究中的核心挑战。字节跳动开源的 M3-Agent，正是面向这一问题提出的创新解决方案。本文将从系统原理、技术特点、基准测试结果以及本地运行方式等方面，为大家详细解读。

猫头虎开源 fork GitHub: https://github.com/MaoTouHU/byte-m3-agent

文章目录

猫头虎AI分享｜字节开源了一款具备长期记忆能力的多模态智能体：M3-Agent
- 一、M3-Agent 简介
- 二、系统原理
- 三、M3-Bench：长视频问答基准
- 四、实验与结果
- 五、本地运行指南
- - 环境配置
  - 视频切分（示例）
  - 生成记忆图谱
  - 可视化
- 六、总结

一、M3-Agent 简介

M3-Agent 是一款具备长期记忆能力的多模态智能体，能够实时处理视觉与听觉输入，并将其转化为长期记忆。它不仅可以存储情景记忆，还能进一步抽取和积累语义记忆，从而逐步形成世界知识。

其核心创新在于：记忆系统以实体为中心。这意味着与某个实体相关的多模态信息（例如一个人的面部、声音、相关知识）会被统一组织成图谱结构，帮助模型实现更深入和一致的环境理解。

主要能力包括：

实时多模态输入：处理视频、音频等流数据。
长期记忆：支持情景记忆与语义记忆的积累。
跨模态推理：利用实体中心图谱进行多轮迭代推理。
任务执行：从长期记忆中检索相关信息，辅助完成复杂任务。

二、系统原理

M3-Agent 的系统由两个并行过程组成：

Memorization（记忆生成）
- 实时处理视频与音频流，生成情景记忆。
- 在此基础上提炼出语义记忆，构建长期图谱。
Control（推理与执行）
- 接收指令后，迭代思考并从长期记忆中检索信息。
- 基于记忆与推理结果，生成最终行动或回答。

M3-Agent Architecture

这种 多模态图谱化的记忆结构，让 M3-Agent 更接近人类的认知模式。

三、M3-Bench：长视频问答基准

为评估多模态智能体的记忆与推理能力，M3-Agent 团队构建了 M3-Bench 基准数据集，包括两个子集：

M3-Bench-robot：100 个真实机器人视角的长视频。
M3-Bench-web：920 个来自网络的多样化视频。

这些数据配套有开放式问答标注，用于考察智能体的人类理解、知识抽取、跨模态推理等关键能力。

M3-Bench

实验表明，M3-Agent 在 M3-Bench 和 VideoMME-long 等任务上显著优于基线模型，尤其在需要长期记忆的场景中表现突出。

Benchmark Results

四、实验与结果

在与强基线模型（Gemini-1.5-pro 和 GPT-4o 提示式代理）对比中，M3-Agent 在多个测试集上均取得领先：

M3-Bench-robot：+8.2%
M3-Bench-web：+7.7%
VideoMME-long：+5.3%

这些结果证明了长期记忆与跨模态图谱推理的有效性。

五、本地运行指南

M3-Agent 提供了完整的开源代码，研究者可在本地运行。以下是主要步骤：

环境配置

bash setup.sh
pip install git+https://github.com/huggingface/transformers@f742a644ca32e65758c3adb36225aef1731bd2a8
pip install qwen-omni-utils==0.0.4

视频切分（示例）

#!/bin/bash
video="robot/bedroom_01"
input="data/videos/$video.mp4"
mkdir -p "data/clips/$video"
duration=$(ffprobe -v error -show_entries format=duration -of default=noprint_wrappers=1:nokey=1 "$input")
duration_seconds=$(echo "$duration" | awk '{print int($1)}')segments=$((duration_seconds / 30 + 1))
for ((i=0; i<segments; i++)); dostart=$((i * 30))output="data/clips/$video/$i.mp4"ffmpeg -ss $start -i "$input" -t 30 -c copy "${output}"
done

生成记忆图谱

python data_preparation/generate_memory_qwen.py \--data_file data/data.jsonl

可视化

python visualization.py \--mem_path data/memory_graphs/robot/bedroom_01.pkl \--clip_id 1

更多运行与训练说明，请参考官方仓库。

六、总结

M3-Agent 展示了具备长期记忆的多模态智能体的可行路径。其核心亮点在于：

实体为中心的多模态记忆图谱，保证了理解的一致性与深度。
支持情景与语义记忆，逐步积累长期知识。
基于记忆的迭代推理，在跨模态任务中表现卓越。

这一框架不仅推动了多模态智能体研究，更为未来人机交互和智能助手的发展提供了重要参考。

猫头虎开源 fork GitHub: https://github.com/MaoTouHU/byte-m3-agent

查看全文

http://www.lryc.cn/news/626142.html

洛谷 P2834 纸币问题 3-普及-

Flink原理与实践 · 第三章总结

第5.6节：awk字符串运算

【驱动】RK3576：桌面操作系统基本概念

L2TP虚拟局域网

快速傅里叶变换：数字信号处理的基石算法

Orange的运维学习日记--47.Ansible进阶之异步处理

数据库-MYSQL配置下载

go链路追踪

微算法科技（NASDAQ: MLGO）研究利用PBFT中的动态视图变换机制，实现区块链系统高效运转

不同语言的并发模型对比：Go、Java与Python

Go高效复用对象：sync.Pool详解

机器学习中的「损失函数」：模型优化的核心标尺

决策树算法详解

【完整源码+数据集+部署教程】鳄梨表面缺陷检测图像分割系统源码和数据集：改进yolo11-MLCA

QT聊天项目DAY19

广东省省考备考（第八十一天8.19）——资料分析、数量（强化训练）

第5.5节：awk算术运算

基于深度学习的森林火灾图像识别实战

【撸靶笔记】第七关：GET - Dump into outfile - String

浙江电信IPTV天邑TY1613_高安版_晶晨S905L3SB_安卓9_原厂固件自改_线刷包

Linux中Docker k8s介绍以及应用

windows电脑对于dell(戴尔)台式的安装，与创建索引盘，系统迁移到新硬盘

微信小程序连接到阿里云物联网平台

高等数学 8.6 空间曲线及其方程

添加右键菜单项以管理员权限打开 CMD

DNS有关知识（根域名服务器、顶级域名服务器、权威域名服务器）

【C语言16天强化训练】从基础入门到进阶：Day 3

Vue 2 项目中快速集成 Jest 单元测试（超详细教程）

【矢量数据】1:250w中国地质图地断层数据/岩性shp数据