当前位置: 首页 > news >正文

Ollama系列---【ollama使用gpu运行大模型】

一、安装CudaToolkit

使用控制台命令查看当前显卡驱动中的cuda版本

nvidia-smi

二、下载CudaToolkit

注意:CudaToolkit版本要低于上面的显卡Cuda版本。
Cuda各版本下载地址:CUDA Toolkit Archive | NVIDIA Developer
下载好之后,一路下一步,一直默认即可。
如果安装到了自定义的位置,记得加环境变量。这里我安装到了D盘,下面是我添加的环境变量。

三、验证是否安装成功

nvcc --version

安装成功,如下图:

四、设置Ollama环境变量

Ollama安装好后,为了让推理跑在GPU上,可以按照如下步骤 设置环境变量:
在“系统变量”中,点击“新建”按钮。
添加以下环境变量:
变量名:OLLAMA_GPU_LAYER
变量值:cuda
如果需要指定特定的 GPU,可以添加以下环境变量:
变量名:CUDA_VISIBLE_DEVICES
变量值:GPU的UUID(按编号有时找不到,所以使用UUID)
在控制台输入nvidia-smi -L,即可查看GPU的UUID

五、查看ollama是否使用了gpu

通过观察PROCESSOR就能看到,大模型是用的cpu还是gpu,还是混合的。

ollama ps

经验证:8G的显卡,跑8b的模型可以100%用GPU,非常流畅。跑14b的cpu和gpu基本4/6开,可以观察SIZE模型运行需要的大小。

http://www.lryc.cn/news/534369.html

相关文章:

  • 使用C语言实现MySQL数据库的增删改查操作指南
  • 【Golang学习之旅】Go + Redis 缓存设计与优化(项目实战)
  • 2、k8s 二进制安装(详细)
  • 安卓开发,底部导航栏
  • CWOI-N RER 1 > 2 Solution
  • 字节跳动后端一面
  • Dify 框架连接 PGSQL 数据库与 Sandbox 环境下的 Linux 系统调用权限问题
  • ModuleJS 与 CommonJS 混用的两种解决方案
  • 代码随想录--977有序数组的平方
  • Win11下搭建Kafka环境
  • MacBook Pro M2安装deepseek
  • springboot的http请求不通原因
  • 【Windows】PowerShell 缓存区大小调节
  • 使用python脚本批量删除redis缓存
  • Python截图轻量化工具
  • Android图片加载框架Coil,Kotlin
  • 重生之我要当云原生大师(十四)分析和存储日志
  • C++基础知识学习记录—补充
  • Linux常用命令——磁盘管理类
  • 【AI学习】DeepSeek为什么强?
  • 【快应用】原生广告下载状态监听案例
  • C++语言的软件工程
  • 计算机网络结课设计:通过思科Cisco进行中小型校园网搭建
  • 无人机避障——基于ESDF地图的JPS算法前端路径规划
  • 【MQ】RabbitMQ 高可用延时功能的探究
  • Maven入门核心知识点总结
  • 【力扣】138.随机链表的复制
  • 编程语言的深度剖析:从语法到性能优化
  • 台湾精锐APEX减速机在半导体制造设备中的应用案例
  • Rocketmq 和 Rabbitmq ,在多消费者的情况下,可以实现顺序消费吗