当前位置：首页 > news >正文

猫头虎AI分享｜智谱直播开源其最新视觉模型：GLM-4.5V，多模态，支持图像、视频输入

news 2025/8/13 16:25:51

猫头虎AI分享｜智谱直播开源其最新视觉模型：GLM-4.5V，多模态，支持图像、视频输入

在人工智能的不断演化中，视觉语言模型（VLM）已经成为智能系统的核心组成部分。随着现实世界任务的复杂性不断增加，VLMs不仅需要增强基础的多模态感知能力，还要在推理、准确性、全面性以及智能化方面实现突破。最近，智谱AI发布了其最新的开源多模态视觉模型——GLM-4.5V，该模型基于GLM-4.5-Air底座，继续了GLM-4.1V-Thinking的技术路线，并在多个标准基准测试中取得了同规模模型的最先进性能。GLM-4.5V能够处理图像、视频、文档理解等常见任务，还支持GUI代理操作，是一款多功能、适应性强的视觉语言模型。
在这里插入图片描述

文章目录

猫头虎AI分享｜智谱直播开源其最新视觉模型：GLM-4.5V，多模态，支持图像、视频输入
- GLM-4.5V概述
- - 核心能力
  - 性能表现
- 模型实现与训练
- - 预训练、SFT与RL三阶段训练
  - 价格与速度
  - 训练方式
  - GitHub与开源资源
  - 体验截图
- 性能对比与基准测试
- 快速开始
- - 1. 环境安装
  - 2. 启动推理
  - 3. 使用SGLang
- 模型微调
- 总结

GLM-4.5V概述

GLM-4.5V 是基于智谱AI的下一代旗舰文本基础模型GLM-4.5-Air（106B参数，12B活跃参数）的多模态版本。该模型通过引入混合训练方法，不仅能够处理图像和视频输入，还能够进行复杂的场景理解、事件识别以及GUI任务等。GLM-4.5V的技术亮点包括：
在这里插入图片描述

图像推理：场景理解、复杂多图像分析、空间识别。
视频理解：长视频分割、事件识别。
GUI任务：屏幕阅读、图标识别、桌面操作协助。
复杂图表和长文档解析：研究报告分析、信息提取。
精确的视觉元素定位：包括图像中物体的精确定位与识别。

GLM-4.5V在42个公开的视觉语言基准测试中表现出色，继续推动了视觉推理和长文本理解的技术进步。

核心能力

图像推理：GLM-4.5V可以理解复杂的图像，处理场景分析、多个图像的整合分析，以及进行空间关系识别。
视频理解：它能够处理长视频的分割和事件识别，支持对视频内容的深入分析。
GUI任务：在GUI任务中，GLM-4.5V能够有效进行屏幕阅读、图标识别和桌面操作协助，大大提高了计算机与用户的交互能力。
长文档解析：GLM-4.5V能够解析复杂的研究报告和文档，提取关键信息，适用于大量信息的理解与分析。
精准的视觉元素定位：该模型能够精确地识别和定位图像中的各类元素，确保视觉任务的高精度执行。

性能表现

GLM-4.5V的技术优化包括显式的COT（Chain-of-Thought）引入和强化学习阶段结合RLVR与RLHF（强化学习与人类反馈）。这使得它不仅在标准的视觉语言任务上表现优异，还在复杂的推理任务和多模态任务上有显著优势。以下是一些典型的功能实现：
在这里插入图片描述

长视频分割与事件识别：对多小时长的视频内容进行分割，识别其中的关键事件，为智能监控、内容分析等应用提供支持。
GUI代理操作：可以识别屏幕中的图标，理解桌面操作，帮助用户进行桌面自动化操作，提升工作效率。
复杂文档解析：能够处理结构复杂的长文档，帮助用户快速提取关键信息，应用于学术研究和企业数据分析等场景。

模型实现与训练

预训练、SFT与RL三阶段训练

GLM-4.5V的训练分为三个阶段：预训练、SFT（监督微调）、强化学习阶段（RL）。在SFT阶段，显式的COT（Chain-of-Thought）被引入，强化学习阶段结合RLVR和RLHF来优化模型，使其具备更强的多模态推理和任务处理能力。

价格与速度

API输入：2元/百万tokens
API输出：6元/百万tokens
速度：60-80 tokens/s

训练方式

SFT阶段：引入显式COT，使得模型在推理过程中能够自我纠正，提升推理的准确性与可信度。
强化学习阶段：结合RLVR（Visual Reasoning）与RLHF（Human Feedback）来优化模型的多模态理解能力。

GitHub与开源资源

GLM-4.5V已开源，开发者可以通过以下链接访问源代码，并进行二次开发：

GitHub：GLM-4.5V GitHub Repository
魔搭社区：GLM-4.5V魔搭社区链接
体验链接：GLM-4.5V体验（选择GLM-4.5V模型即可使用）

体验截图

以下是用户在使用GLM-4.5V时的一些截图，展示了其强大的多模态输入能力，包括图像、视频、PDF和PPT文件的理解。

体验截图

性能对比与基准测试

GLM-4.5V在多个标准基准测试中表现出色，以下是其在部分视觉语言基准上的跑分数据：

模型跑分数据

快速开始

要在NVIDIA GPU上使用GLM-4.5V进行推理，开发者可以按照以下步骤进行环境配置：

1. 环境安装

# 安装依赖
pip install -r requirements.txt# 安装vLLM
pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
pip install transformers-v4.55.0-GLM-4.5V-preview

2. 启动推理

vllm serve zai-org/GLM-4.5V \--tensor-parallel-size 4 \--tool-call-parser glm45 \--reasoning-parser glm45 \--enable-auto-tool-choice \--served-model-name glm-4.5v \--allowed-local-media-path / \--media-io-kwargs '{"video": {"num_frames": -1}}'

3. 使用SGLang

python3 -m sglang.launch_server --model-path zai-org/GLM-4.5V \--tp-size 4 \--tool-call-parser glm45 \--reasoning-parser glm45 \--served-model-name glm-4.5v \--port 8000 \--host 0.0.0.0

模型微调

GLM-4.5V支持基于LLaMA-Factory的微调，开发者可以根据自己的需求微调模型。在微调过程中，可以利用图像与文本配对的方式进行定制化训练，提高模型在特定任务上的表现。

例如，以下是微调时使用的示例数据集格式：

[{"messages": [{"content": "<image>Who are they?","role": "user"},{"content": "<think>\nUser asked me to observe the image and find the answer. I know they are Kane and Goretzka from Bayern Munich.</think>\n<answer>They're Kane and Goretzka from Bayern Munich.</answer>","role": "assistant"}],"images": ["mllm_demo_data/1.jpg"]}
]

总结

智谱AI的GLM-4.5V作为一款全新的多模态视觉语言模型，凭借其强大的视觉推理能力、灵活的多模态支持以及精确的元素定位，成为AI开发者和研究者在图像、视频、文档解析等任务中的得力工具。通过开源和共享，GLM-4.5V将继续推动人工智能领域的技术进步，为智能应用的开发和创新提供更多可能性。如果你对这项技术感兴趣，欢迎访问我们的GitHub和魔搭社区，获取更多信息并开始体验。

查看全文

http://www.lryc.cn/news/619179.html