当前位置：首页 > news >正文

多模态大模型部署：结合dify

news 2025/7/16 19:29:21

文章目录

前言
minicpm-v
Dify
测试一下
总结
- - 部署过程回顾
  - 集成与测试
  - 实验结果分析
  - 展望未来

前言

上回说道，我们用ollama部署了一个多模态的大模型，也就是minicpm-v：
在这里插入图片描述
但这玩意儿感觉只能打字啊。
怎么给它发图片呢？

minicpm-v

MiniCPM-V 是面壁智能推出的一个开源多模态大模型系列，它专注于图文理解，并且能够在端侧设备（例如智能手机、平板电脑等）上运行。这个系列的模型接受图像和文本输入，并能够提供高质量的文本输出。

自2024年2月以来，MiniCPM-V 系列共发布了多个版本模型，旨在实现领先的性能和高效的部署。其中，最引人注目的是 MiniCPM-V 2.6 模型，这是该系列中最新且性能最佳的模型，拥有8亿参数。MiniCPM-V 2.6 基于 SigLip-400M 和 Qwen2-7B 构建，相较于之前的版本，在单图、多图以及视频理解方面有了显著的性能提升，并引入了新的功能。

MiniCPM-V 模型的特点包括但不限于：

高效推理和低内存占用：这使得它们非常适合在移动设备或个人电脑等资源有限的环境中使用。
强大的OCR能力：这意味着它可以准确地识别并处理图像中的文字信息。
多语言支持：能够理解和生成多种语言的文本，提高了模型的通用性和适用范围。
实时视频理解：MiniCPM-V 2.6 成为了首个能够在iPad等端侧设备上进行实时视频理解的多模态大模型，这一特性对于需要即时反馈的应用场景尤为重要。

此外，MiniCPM-V 还强调了其在多模态文档检索增强生成（RAG）中的应用，展示了它在处理包含复杂图文交错内容的文档时的强大能力。

MiniCPM-V 的设计考虑到了实际应用场景的需求，如智能手机和平板电脑上的图片和视频内容的实时理解和处理，以及支持多轮对话的能力，这些都极大地扩展了它的实用价值。

综上所述，MiniCPM-V 是一个集成了图像和文本处理能力的强大工具，它不仅在技术性能上有所突破，同时也为开发者提供了丰富的可能性，以便在其基础上开发出更多创新的应用和服务。如果你有兴趣深入了解如何使用或者部署 MiniCPM-V，可以参考相关的GitHub项目页面或其他官方提供的教程和指南。

Dify

我们直接把这个模型注册到dify的模型供应商里：

在这里插入图片描述
因为咱之前用过这个ollama，所以只需要增加模型即可。

在这里插入图片描述
是否支持视觉？
选择是

在这里插入图片描述
不错，成功了。

测试一下

在这里插入图片描述
还是熟悉的配方

在这里插入图片描述
选到咱的多模态大模型。

在这里插入图片描述

增加选择图片的功能。

在这里插入图片描述

不是很智能的样子。

总结

在本篇文章中，我们探讨了如何使用 Ollama 部署 MiniCPM-V 这个多模态大模型，并通过 Dify 平台来测试其功能。MiniCPM-V 作为一款专注于图文理解的模型，它不仅能够处理文本输入，还能接受图像作为输入，并提供高质量的文本输出。这使得它成为处理多模态数据的理想选择，特别是在需要实时反馈的应用场景中，如智能手机和平板电脑上的图片和视频内容的理解。

部署过程回顾

首先，我们成功地利用 Ollama 部署了 MiniCPM-V 模型，这是一个开源的大模型管理工具，允许用户便捷地运行多种大型开源模型。通过 Ollama 的命令行界面或前端界面，我们可以轻松地下载并运行 MiniCPM-V 模型，从而为后续的实验提供了基础平台。

集成与测试

接下来，我们将这个模型集成到了 Dify 平台上。Dify 提供了一个直观的界面，使得即使是对技术不太熟悉的用户也能快速上手。我们特别关注了是否支持视觉输入这一点，因为这是 MiniCPM-V 的一大亮点。经过简单的配置后，我们确认该模型确实支持图像输入，这意味着它可以用于处理更复杂的任务，比如图像描述生成、基于图像的问答等。

实验结果分析

尽管初步测试显示模型的表现可能未达到预期的智能水平，但这并不意味着模型本身存在问题。相反，这可能是由于测试条件或者使用的数据集不够理想所导致。对于任何机器学习模型来说，性能往往依赖于训练数据的质量和多样性以及具体的调优策略。因此，进一步优化模型参数、增加更多的训练样本或改进数据预处理方法都可能提升模型的表现。