当前位置: 首页 > news >正文

RAG实战基础篇/windows电脑快速部署qwen3:14B

现阶段,在本地部署ollama非常简单,准备好一个有GPU的电脑,十分钟轻松部署qwen3:14b。实现本地的大模型部署。

我这里为了方便起见,直接使用windows电脑下载一个ollama。

访问ollama GIthub地址:ollama开源地址

直接下载安装包:

双击安装;

安装完毕后,我们在windows终端中输入:ollama --version

出现版本号就安装成功了:

然后,我们用ollama在本地拉取一个qwen3:14b下来:

ollama run qwen3:14b

我们等待完成

运行成功就可以对话了:

我们用nvidia-smi查看一下显存:

14B(int4量化)占用了11.5G的显存。

我们可以测试一下API是否能够正常调用:

我们请求本地接口:http://localhost:11434/v1/chat/completions

选择POST方法

请求体输入:

{"model": "qwen3:14b","messages": [{"role": "user","content": "你现在是一个翻译,我发你一段文字,你翻译成日语。"},{"role": "assistant","content": "好的"},{"role": "user","content": "今天天气怎样?"}],"stream": false
}

可以看到本地大模型已经通了。

如果需要流式输出,将stream字段修改为true即可。

现在我们已经准备好本地的大模型环境了,后续我们将基于本地的大模型搭建一个小型RAG应用,实现自己个人知识库的问答。

http://www.lryc.cn/news/574195.html

相关文章:

  • Python Arrow 库详解:更智能的日期时间处理
  • 制造业B端页面个性化设计案例:生产流程监控的专属布局打造
  • 探秘 Java 安全利器 ——JVMTI
  • 揭开 Git 裸仓库的神秘面纱:`git clone --mirror` 详解与使用指南
  • idea 报错:java: 非法字符: ‘\ufeff‘
  • Node.js特训专栏-实战进阶:7.Express模板引擎选型与使用
  • 大数据时代UI前端的变革:从静态展示到动态交互
  • 数字孪生:为UI前端设计带来沉浸式交互新体验
  • 【机器学习深度学习】偏置项(Bias)概念
  • 常用终端命令(Linux/macOS/bash 通用)分类速查表
  • Elasticsearch 如果保证读写一致
  • Milvus【工具 01】milvus_cli和可视化工具attu安装使用
  • 【Linux学习笔记】进程间通信之共享内存
  • Three.js 中自定义 UV 坐标贴图详解
  • Ntfs!_LFCB结构如何构建出来的--从Ntfs!NtfsMountVolume到Ntfs!LfsAllocateLfcb
  • CentOS 上安装snmp
  • 如何在 Python 中连接 Elasticsearch 并使用 Qwen3 来实现 RAG
  • AI编程再突破,文心快码发布行业首个多模态、多智能体协同AI IDE
  • 【深度学习加速探秘】Winograd 卷积算法:让计算效率 “飞” 起来
  • SpringCloud系列(33)--使用Hystrix进行通配服务降级
  • 前缀树进阶-经典案例详解
  • Ubuntu20.04安装录屏工具OBS
  • 【Leetcode】有效的括号、用栈实现队列、用队列实现栈
  • Spring Boot + Logback MDC 深度解析:实现全链路日志追踪
  • 从数据到洞察:UI前端如何利用大数据优化用户体验
  • 用Fiddler抓包工具优化API联调流程:与Postman、Wireshark协作实践分享
  • Zynq + FreeRTOS + YAFFS2 + SQLite3 集成指南
  • 在Ubuntu上设置Firefox自动化测试环境:指定Marionette端口号
  • SpringBoot+Vue自习室座位预约系统
  • Lamp和友点CMS一键部署脚本(Rocky linux)