当前位置: 首页 > news >正文

GPT OSS 双模型上线,百度百舸全面支持快速部署

GPT OSS 是 OpenAI 推出的重量级开放模型,专为强推理能力、智能体任务及多样化开发场景设计,标志着大模型在开放性与实用性上的重要突破。

该系列包含两款高性能模型:参数规模为 117B 的 GPT‑OSS‑120B 和 21B 的 GPT‑OSS‑20B。二者皆采用 MoE 架构,并在 MoE 权重上创新性地使用 4‑bit 量化方案 MXFP4,显著降低资源占用,同时实现更高效的推理速度。得益于更少的激活参数,模型在保持强大性能的同时,具备更低的部署成本和更高的响应效率。

目前,百度百舸平台已经同步支持这 2 款模型的快速部署,为企业提供一站式 AI 服务,实现大模型落地「快稳省」的要求。

当前,百度百舸的推理服务支持部署 LLM、MLLM、VLA 等多种模型的高效推理,广泛服务于线教育、AIGC、医疗、具身智能等行业客户,助力客户实现推理业务的大规模、高稳定性运行。

推理服务快速部署流程

登录百度百舸·AI 异构计算平台,在「快速开始」找到 GPT-OSS-20B 模型。

图片

点击模型卡片的「一键部署」启动模型部署流程。

目前 GPT‑OSS 系列模型支持 vLLM 推理加速方式。百度百舸平台已集成 vLLM 推理加速框架,并会根据模型特性(例如,部署 GPT‑OSS‑20B 推荐配置为 1 卡 GPU、12 核 CPU、36GB 内存)智能推荐最优资源配置,用户可按需调整。

点击【确定】即可一键部署到百度百舸平台。

图片

部署服务时,可以使用「云原生网关」接入流量,支持查看 Token 用量监控、消费者鉴权、流量控制等功能,实现业务的高效、安全运营。

部署成功后,可以通过「在线服务」列表获取服务请求地址和 Token 调用信息,快速接入应用。

图片

百度百舸·AI 异构计算平台,是面向大模型训推一体化的基础设施,提供领先的 AI 工程加速能力,从资源准备、模型开发、模型训练到模型部署,为 AI 工程全周期提供丰富特性和极致易用体验。

http://www.lryc.cn/news/614173.html

相关文章:

  • 创建MyBatis-Plus版的后端查询项目
  • SQL Server 2019搭建AlwaysOn高可用集群
  • 模块 PCB 技术在未来通信领域的创新突破方向
  • Cisco 2018-2023年度互联网报告深度解析:数字化转型时代的网络发展趋势与战略洞察
  • kafka 为什么需要分区?分区的引入带来了哪些好处
  • SpringMVC(四)
  • 前后端日期交互方案|前端要传时间戳还是字符串?后端接收时是用Long还是Date还是String?
  • 机器学习 SVM支持向量机
  • 虚幻基础:场景actor与角色的碰撞
  • (0️⃣基础)程序控制语句(初学者)(第3天)
  • Javase-异常
  • Idea配置——build system的选项区别
  • SpringBoot激活指定profile的方式
  • 灰狼算法+四模型对比!GWO-CNN-LSTM-Attention系列四模型多变量时序预测
  • 《汇编语言:基于X86处理器》第12章 浮点数处理与指令编码(2)
  • 准确----SFTP新增用户
  • 三步完成,A100本地vLLM部署gpt-oss,并启动远程可访问api
  • 串口转以太网实战:S7-200驱动大棚温湿度监控、HMI与通风设备
  • Vue框架进阶
  • FPGA实现Aurora 64B66B数据回环传输,基于GTX高速收发器,提供2套工程源码和技术支持
  • 机器学习支持向量机(SVM)
  • 论文精读(二)| 开源软件漏洞感知技术综述
  • 深度学习·MAFT
  • Linux中的内核同步源码相关总结
  • 2025华数杯数学建模A题【 多孔膜光反射性能的优化与控制】原创论文分享
  • 提升LLM服务效率的秘密武器——vLLM!
  • 【MongoDB学习笔记2】MongoDB的索引介绍
  • [GESP202309 五级] 2023年9月GESP C++五级上机题题解,附带讲解视频!
  • 【具身智能】具身智能的革命——人形机器人如何重塑人类日常生活
  • VIOO IQOO7手机 解锁BL ROOT教程