当前位置：首页 > news >正文

LLM之Agent（三）：HuggingGPT根据用户需求自动调用Huggingface合适的模型

news 2025/7/27 16:25:58

浙大和微软亚洲研究院开源的HuggingGPT，又名JARVIS，它可以根据用户的自然语言描述的需求就可以自动分析需要哪些AI模型，然后去Huggingface上直接调用对应的模型，最终给出用户的解决方案。

一、HuggingGPT的工作流程

它的工作流程包括四个阶段:

任务规划：ChatGPT将用户的需求解析为任务列表，并确定任务之间的执行顺序和资源依赖关系；
模型选择：ChatGPT根据HuggingFace上托管的各专家模型的描述，为任务分配合适的模型；
任务执行：混合端点（包括本地推理和HuggingFace推理）上被选定的专家模型根据任务顺序和依赖关系执行分配的任务，并将执行信息和结果给到ChatGPT；
响应生成：最后，由ChatGPT总结各模型的执行过程日志和推理结果，给出最终的输出。

下表展示了HuggingGPT的具体细节：

不同任务的任务规划评估，如下表所示：

任务规划的格式是： [{"task": task, "id", task_id, "dep": dependency_task_ids, "args": {"text": text, "image": URL, "audio": URL, "video": URL}}]，参数的详细解释，如下表所示：

二、HuggingGPT的示例

假设我们有如下请求，来看一下HuggingGPT的完整流程：

请求：请生成一个女孩正在看书的图片，她的姿势与example.jpg中的男孩相同。然后请用你的声音描述新图片。

可以看到HuggingGPT是如何将它拆解为6个子任务，并分别选定模型执行得到最终结果的。

三、HuggingGPT不同任务的实验效果

参考文献：

[1] https://github.com/microsoft/JARVIS

[2] https://huggingface.co/spaces/microsoft/HuggingGPT

[3] https://arxiv.org/abs/2303.17580

[4] https://twitter.com/DrJimFan/status/1642563455298473986

http://www.lryc.cn/news/256066.html

相关文章：

【上海大学数字逻辑实验报告】五、记忆元件测试

yaml工作常用语法总结

bash中通过变量中的内容获取对应的关联数组

Redis Geo操作地理位置

市面上的AR眼镜：优缺点分析

2024年湖南省职业院校技能竞赛高职组电子与信息专业类软件测试赛项竞赛规程及样题

10、pytest通过assert进行断言

Webpack技术入门与实践

HarmonyOS开发(九)：数据管理

acwing-Linux学习笔记

Python渗透测试——一、数据包的编辑工具——Scapy

使用webstrom编写vue开启提示

linux远程桌面管理工具（xrdp）、向日葵

【力扣100】8.找到字符串中所有字母异位词

圆通速递查询，圆通速递单号查询，用表格导出查询好的物流信息

FLStudio中文2024中文最新汉化安装包下载

AI：大语言模型训练方法 - 机器学习

Linux（17）：认识与分析登录档

STM32上模拟CH340芯片的功能（一）

图论——最小生成树

C++基础 -42- STL库之list链表

Backend - Python 序列化

初级数据结构（一）——顺序表

实现：切换页面切换标题，扩展 vue-router 的类型

已通过考试和认证注册以及后续计划表

开源计算机视觉库OpenCV详解

使用pytorch查看中间层特征矩阵以及卷积核参数

HarmonyOS4.0从零开始的开发教程09页签切换

大电流H桥电机驱动电路的设计与解析（包括自举电路的讲解，以IR2104+LR7843为例）

windows11 windows 11 (win11 win 11) 怎么安装 Python3 ? numpy? sounddevice? 声音信号处理库？