当前位置：首页 > news >正文

【DeepSeek-R1 +1.5B】2060显卡ollama本地部署+open-webui界面使用

news 2025/9/17 0:41:38

https://github.com/open-webui/open-webui

Deepseek开源R1系列模型，纯RL助力推理能力大跃升！

2060显卡下使用deepseek-r1-1.5B

deepseek开源小模型需要的显存（根据显存来选模型大小） ，图from: DeepSeek本地部署，保姆级教程，带你打造最强AI-CSDN博客

ollama官方下载（可能卡住，往下看）

ollama pull deepseek-r1:1.5b

国内源下载

ollama serve
ollama run modelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-1.5B-GGUF

下载成功

二、类似chatgpt界面使用（需要先安装python管理软件anaconda）

open-webui

python相关环境安装

conda create -n open-webui python=3.11 -y

激活环境

 conda activate open-webui

安装open-webui的关键

pip install open-webui -i  https://mirrors.aliyun.com/pypi/simple/

启动open-webui

open-webui serve

启动成功后获得浏览器的ip

类似chatgpt的界面

http://127.0.0.1:8080/

实际测试

扩散模型的原理

给出伪代码

给出的

思维过程可显示

我现在需要理解扩散模型（Diffusion Model）的原理。扩散模型听起来和图像生成有关，可能用于生成高分辨率的图像，比如电影或游戏角色。那它到底是怎么工作的呢？让我一步步来分析。

首先，我记得扩散模型是一种生成式模型，通过某种过程让数据逐渐扩散到中间层，最后在输出层形成最终的图像。这可能涉及到热扩散或者类似物理扩散的过程，但具体细节我不太清楚。

扩散模型通常包括几个步骤：训练和测试阶段。训练的时候，它随机初始化了一些变量，然后按照一定规则逐步“扩散”这些变量，直到它们达到某个平衡状态。这个过程可能类似于机器学习中的损失函数优化，通过调整每个变量的值来最小化某种损失。

让我看看具体是怎么操作的。训练模型时，数据可能会被“扩散”，比如先让低分辨率图像变得更像高分辨率图像。这可能涉及到在中间层进行一些变化或添加，使得最终的结果接近真实图像。这样做的目的是让生成的图像越来越接近真实数据分布。

然后，在测试阶段，模型生成一个新的数据点。这个过程应该和训练阶段类似，只是直接从数据开始扩散，生成新的样本。这样得到的样本可能比训练阶段的数据更接近真实数据，从而作为最终的输出。

我还记得，扩散模型可能使用了神经网络来处理这些变量。在每个步骤中，网络会处理当前的状态，并将其传递到下一个步骤。这可能涉及到一些数学变换或优化过程。

扩散模型的一个关键点是热扩散过程，或者说是基于随机游走的过程。这让我联想到物理中的热扩散，数据是如何逐步被“扩散”到中间层的。每个层次的数据是前面层次的某种函数，通过调整参数来生成最终的图像。

另外，扩散模型可能使用了不同的方法来优化训练过程。比如，他们可能会用概率分布来建模生成的过程，并尝试最小化一个损失函数，这涉及到KL散度等概念。这样可以让生成的结果更接近真实数据分布。

我还不太明白具体是如何进行热扩散的。可能在每个步骤中，数据会被随机扰动或调整，以逐渐趋近于高分辨率图像。这种随机性如何确保最终结果的有效性呢？是不是通过多次模拟来获得一个概率分布，然后取其平均值？

还有一个问题，扩散模型是否涉及到对偶训练方式。也就是说，在训练阶段生成模型的变量，而在测试阶段直接使用这些变量生成新的样本。这可能减少了一些中间步骤的计算负担，同时也能更好地利用数据间的相似性。

我还需要弄清楚扩散模型的具体方程是什么样的。比如，是否有参数θ，使得每个中间层的条件分布p(x_{t}|x_{t+1})或者类似的结构？这样模型就可以通过优化这些参数来调整生成过程，使其逼近真实数据分布。

最后，扩散模型的应用场景有哪些呢？除了生成图像外，可能还有其他如视频生成、音频合成或者其他高分辨率数据的生成。这些应用需要支持的计算资源和算法效率也很重要，所以扩散模型设计时应该考虑如何高效地进行训练和生成过程。

综上所述，扩散模型通过一个从低分辨率到高分辨率的数据扩散过程，使用神经网络来调整参数，并根据概率分布优化生成结果。这样就能在测试阶段生成高质量的高分辨率样本。

附录

下载gguf后导入为ollama格式（用于无法直接拉，手动加载，有bug，会胡言乱语）

魔搭社区汇聚各领域最先进的机器学习模型，提供模型探索体验、推理、训练、部署和应用的一站式服务。https://modelscope.cn/models/unsloth/DeepSeek-R1-Distill-Qwen-1.5B-GGUFhttps://modelscope.cn/models/unsloth/DeepSeek-R1-Distill-Qwen-1.5B-GGUF先安装modelscioe命令

pip install modelscope

下载 DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf

modelscope download --model unsloth/DeepSeek-R1-Distill-Qwen-1.5B-GGUF DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf --local_dir ./

gguf转化为ollama读取形式

创建一个Modelfile文件（无后缀），写入以下内容

FROM ./DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf

转为为ollama模型

ollama create deepseek-r1-qwen-1.5b-Q4_K_M  -f Modelfile

导入结果

运行

ollama run  deepseek-r1-qwen-1.5b-Q4_K_M

查看全文

http://www.lryc.cn/news/532708.html

《翻转组件库之发布》

在深度学习中，样本不均衡问题是一个常见的挑战，尤其是在你的老虎机任务中，某些的中奖倍数较高

语言月赛 202311【基因】题解（AC）

unity学习26：用Input接口去监测: 鼠标，键盘，虚拟轴，虚拟按键

GB/T 43698-2024 《网络安全技术软件供应链安全要求》标准解读

ASP.NET Core与EF Core的集成

【AI大模型】Ubuntu18.04安装deepseek-r1模型+服务器部署+内网访问

SpringAI系列 - 使用LangGPT编写高质量的Prompt

Github - 记录一次对“不小心包含了密码的PR”的修复

【玩转 Postman 接口测试与开发2_014】第11章：测试现成的 API 接口（下）——自动化接口测试脚本实战演练 + 测试集合共享

前后端通过docker部署笔记

五十天精通硬件设计第四天-场效应管知识及选型

了解 ALV 中的 field catalog （ABAP List Viewer）

【基于SprintBoot+Mybatis+Mysql】电脑商城项目之修改密码和个人资料

十一、CentOS Stream 9 安装 Docker

FreeRTOS学习 --- 中断管理

如何在Intellij IDEA中识别一个文件夹下的多个Maven module？

机器学习模型--线性回归、逻辑回归、分类

gitlab个别服务无法启动可能原因

react的antd表格数据回显在form表单中

深度分析：网站快速收录与网站内容多样性的关系

feign 远程调用详解

【Android】jni开发之导入opencv和libyuv来进行图像处理

【Elasticsearch】terms聚合误差问题

深入理解 `box-sizing: border-box；`：CSS 布局的利器

【原子工具】快速幂快速乘

Apache SeaTunnel 整体架构运行原理

Nginx如何实现 TCP和UDP代理？

蓝桥杯思维训练营(三）

开箱即用的.NET MAUI组件库 V-Control 发布了!

ollama官方下载 （可能卡住，往下看）

二、类似chatgpt界面使用 （需要先安装python管理软件anaconda）