当前位置: 首页 > article >正文

华为昇腾使用ollama本地部署DeepSeek大模型

文章目录

  • 前言
  • 一、本次使用的硬件资源
  • 二、Ollama介绍
  • 三、Ollama在arm64位的芯片的安装及使用方法
  • 总结

前言

本次打算在华为昇腾上面使用ollama进行部署DeepSeek大模型。

一、本次使用的硬件资源

存储资源
在这里插入图片描述
内存资源
在这里插入图片描述
cpu资源
在这里插入图片描述

二、Ollama介绍

Ollama 是一个开源的大型语言模型(LLM)平台,旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互。以下是关于 Ollama 的详细介绍:
核心功能与特点

1.多种预训练语言模型支持:Ollama 提供了多种开箱即用的预训练模型,如 Llama3.1、Gemma2、Qwen2 等,用户可以轻松加载并使用这些模型进行文本生成、情感分析、问答等任务。

2,易于集成和使用:Ollama 提供了命令行工具(CLI)和 Python SDK,简化了与其他项目和服务的集成。开发者无需担心复杂的依赖或配置,可以快速将 Ollama 集成到现有的应用中。

3.本地部署与离线使用:Ollama 允许开发者在本地计算环境中运行模型,脱离对外部服务器的依赖,保证数据隐私,并且对于高并发的请求,离线部署能提供更低的延迟和更高的可控性。

4.支持模型微调与自定义:用户不仅可以使用 Ollama 提供的预训练模型,还可以在此基础上进行模型微调。根据自己的特定需求,开发者可以使用自己收集的数据对模型进行再训练,从而优化模型的性能和准确度。

5.性能优化:Ollama 关注性能,提供了高效的推理机制,支持批量处理,能够有效管理内存和计算资源。这让它在处理大规模数据时依然保持高效。

6.跨平台支持:Ollama 支持在多个操作系统上运行,包括 Windows、macOS 和 Linux。这样无论是开发者在本地环境调试,还是企业在生产环境部署,都能得到一致的体验。

7.开放源码与社区支持:Ollama 是一个开源项目,这意味着开发者可以查看源代码,进行修改和优化,也可以参与到项目的贡献中。此外,Ollama 有一个活跃的社区,开发者可以从中获取帮助并与其他人交流经验。
Ollama开源git地址
ollama下载地址

三、Ollama在arm64位的芯片的安装及使用方法

可以使用下面这条命令一键安装

curl -fsSL https://ollama.com/install.sh | sh

也可以进行手动安装

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

这里需要换成ARM64位的版本

curl -L https://ollama.com/download/ollama-linux-arm64.tgz -o ollama-linux-arm64.tgz
sudo tar -C /usr -xzf ollama-linux-arm64.tgz

使用虚拟机下载ARM64位的安装包版本。
在这里插入图片描述
将下载的ARM64位的版本通过U盘拷贝至华为昇腾芯片上面。
解压至指定的文件夹,这一步会进行自动安装。
在这里插入图片描述

tar -C ollama -xzf ollama-linux-arm64.tgz

可以查看一下ollama的目录结构
在这里插入图片描述
Ollama的版本信息
在这里插入图片描述

然后启动ollama服务
在这里插入图片描述
在服务开启的情况下使用ollama list可以查看当前使用ollama下载的模型文件。
在这里插入图片描述
llama可以支持的大预言模型可以通过如下链接地址进行查看
根据本次的硬件资源,我们选择列表中的deepseek-r1大模型

在这里插入图片描述
在这里插入图片描述
等待校验结束进入命令行。

在这里插入图片描述
进入命令行进行测试使用。
在这里插入图片描述
可以看见初步尝试很卡顿。这个模型在端侧的部署。
在这里插入图片描述
在这里插入图片描述
基本上CPU的使用率已经跑满了。
在这里插入图片描述

总结

本次使用华为昇腾用ollama部署适配deepseek的入门轻量级deepseek-r1:1.5b大模型。进行一个简单的模型部署尝试。实际运行这个入门版的参数量,芯片的CPU的占用率很高。速度比较慢。

http://www.lryc.cn/news/2385442.html

相关文章:

  • 多态的总结
  • Windows 高分辨率屏幕适配指南:解决界面过小、模糊错位问题
  • tvalid寄存器的理解
  • C++八股 —— 手撕定时器
  • K8S-statefulset-mysql-ha
  • 【方案分享】展厅智能讲解:基于BLE蓝牙Beacon的自动讲解触发技术实现
  • web常见的攻击方式有哪些?如何防御?
  • 力扣:《螺旋矩阵》系列题目
  • 发电厂进阶,modbus TCP转ethernet ip网关如何赋能能源行业
  • 深入了解linux系统—— 操作系统的路径缓冲与链接机制
  • Ansible快速入门指南
  • 华为2025年校招笔试真题手撕教程(一)
  • 第9.2讲、Tiny Decoder(带 Mask)详解与实战
  • postgresql 常用参数配置
  • Python模块中的私有命名与命名空间管理:深入解析与实践指南
  • 基于PCRLB的CMIMO雷达网络多目标跟踪资源调度
  • AtCoder Beginner Contest 407(ABCDE)
  • VILT模型阅读笔记
  • 掌握 npm 核心操作:从安装到管理依赖的完整指南
  • OpenCV CUDA模块特征检测与描述------一种基于快速特征点检测和旋转不变的二进制描述符类cv::cuda::ORB
  • Awesome ChatGPT Prompts:释放AI对话潜力的开源利器
  • Prompt Tuning:轻量级微调与反向传播揭秘
  • C++ 继承详解:基础篇(含代码示例)
  • PP-YOLOE-SOD学习笔记2
  • OpenLayers 加载测量控件
  • .NET ORM开发手册:基于SqlSugar的高效数据访问全攻略
  • 【PostgreSQL】数据探查工具1.0研发可行性方案
  • C++ 内存管理与单例模式剖析
  • 算法学习——从零实现循环神经网络
  • win10使用nginx做简单负载均衡测试