当前位置: 首页 > news >正文

【个人笔记本】本地化部署 类chatgpt模型 详细流程

不推荐小白,环境配置比较复杂

全部流程

  • 下载原始模型:Chinese-LLaMA-Alpaca-2
  • linux部署llamacpp环境
  • 使用llamacpp将Chinese-LLaMA-Alpaca-2模型转换为gguf模型
  • windows部署Text generation web UI 环境
  • 使用Text generation web UI 加载模型并进行对话

准备工作

  1. 笔记本环境:

    • 操作系统:win11
    • CPU:AMD R7535HS
    • GPU:笔记本4060显卡
    • CUDA版本:11.8
    • VM虚拟机:Ubuntu16

  2. 下载模型和部署环境全程需要挂梯子


下载原始模型

原项目链接:https://github.com/ymcui/Chinese-LLaMA-Alpaca-2

模型名称类型大小下载地址
Chinese-LLaMA-2-13B基座模型24.7 GB[百度] [Google] [🤗HF]
Chinese-LLaMA-2-7B基座模型12.9 GB[百度] [Google] [🤗HF]
Chinese-Alpaca-2-13B指令模型24.7 GB[百度] [Google] [🤗HF]
Chinese-Alpaca-2-7B指令模型12.9 GB[百度] [Google] [🤗HF]

下载Chinese-Alpaca-2-7B模型即可,百度网盘不需要挂梯子,其他都需要梯子


linux部署llamacpp环境

原项目链接:https://github.com/ggerganov/llama.cpp
原文档链接:https://github.com/ymcui/Chinese-LLaMA-Alpaca-2/wiki/llamacpp_zh

Step 1: 安装python3.10

sudo apt update
sudo apt install python3.10

Step 2: 克隆和编译llama.cpp

  1. 拉取最新版llama.cpp仓库代码

    # 要安装git+梯子
    git clone https://github.com/ggerganov/llama.cpp
    

    或者

    #浏览器挂梯子打开https://github.com/ggerganov/llama.cpp
    #下载项目
    #解压缩项目到本地
    
  2. 对llama.cpp项目进行编译,生成./main(用于推理)和./quantize(用于量化)二进制文件

    cd 解压缩项目路径
    make
    

Step 3: 生成量化版本模型

  1. 创建目录并拷贝模型到项目目录:zh-models/7B/

  2. 将Chinese-LLaMA-Alpaca-2模型转换为gguf模型

    #根目录
    python convert.py zh-models/7B/
    
  3. 将生成的fp16格式的gguf模型进行4-bit量化

    ./quantize ./zh-models/7B/ggml-model-f16.gguf ./zh-models/7B/ggml-model-q4_0.gguf q4_0
    

Step 4: 加载并启动模型

到这一步其实可以用llama.cpp的加载模型方式对话了
但我用的虚拟机,性能有限,故而使用Text generation web UI 加载模型,具体如何加载建议看原文档和项目说明


windows部署Text generation web UI 环境

原项目:https://github.com/oobabooga/text-generation-webui

Step 1: 下载安装Miniconda3_py310

链接:https://repo.anaconda.com/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe

Step 2: 克隆项目到本地

git clone  https://github.com/oobabooga/text-generation-webui

Step 3: 打开Miniconda3命令行,建立新conda环境

conda create -n textgen

Step 4: 下载安装相关的python各类环境库

有github链接的必须手动下载whl,再pip安装whl的绝对位置

conda activate textgen
cd 项目位置
pip install env/bitsandbytes-0.41.1-py3-none-win_amd64.whl
pip install E:\AI\环境第三方库\auto_gptq-0.4.2+cu117-cp310-cp310-win_amd64.whlhttps://github.com/jllllll/exllama/releases/download/0.0.17/exllama-0.0.17+cu117-cp310-cp310-win_amd64.whl
pip install E:\AI\环境第三方库\exllama-0.0.17+cu117-cp310-cp310-win_amd64.whlpip install llama-cpp-python==0.1.84https://github.com/jllllll/llama-cpp-python-cuBLAS-wheels/releases/download/textgen-webui/llama_cpp_python_cuda-0.1.84+cu117-cp310-cp310-win_amd64.whl
pip install E:\AI\环境第三方库\llama_cpp_python_cuda-0.1.84+cu117-cp310-cp310-win_amd64.whlhttps://github.com/jllllll/GPTQ-for-LLaMa-CUDA/releases/download/0.1.0/gptq_for_llama-0.1.0+cu117-cp310-cp310-win_amd64.whl
pip install E:\AI\环境第三方库\gptq_for_llama-0.1.0+cu117-cp310-cp310-win_amd64.whlhttps://github.com/jllllll/ctransformers-cuBLAS-wheels/releases/download/AVX2/ctransformers-0.2.25+cu117-py3-none-any.whl
pip install E:\AI\环境第三方库\ctransformers-0.2.25+cu117-py3-none-any.whlpip install -r requirements.txt -i 换源

Step 5: 启动web服务

conda activate textgen
cd E:/AI/项目/text-generation-webui-main
python server.py

使用Text generation web UI 加载模型并进行对话

  1. 打开生成的url网址
  2. 加载本地模型
  3. 对话即可
http://www.lryc.cn/news/169538.html

相关文章:

  • RFID与人工智能怎么融合,RFID与人工智能融合的应用
  • 性能测试 —— Jmeter 常用三种定时器
  • 每个高级前端工程师都应该知道的前端布局
  • 100道基于Android毕业设计的选题题目,持续更新
  • idea显示git分支信息(GitToolBox插件)
  • Hadoop知识点之Hadoop发展历程
  • 阿里云无影电脑:免费体验无影云电脑3个月
  • 菜鸟教程《Python 3 教程》笔记(20):面向对象
  • vue2编辑markdown
  • PCB走线规则
  • webpack静态资源上传到CDNS (阿里云 OSS,亚马逊 AWS S3,七牛云 Qiniu Cloud Kodo)webpack-plugin-cdns
  • python 异常
  • stm32--独立看门狗
  • vue3中css使用script中定义的变量
  • Ubuntu 22.04 安装配置 flatpak
  • oracle创建数据库以及用户,并导入dmp格式数据
  • [deeplearning]pytorch实现softmax多分类问题预测训练
  • 【C++初阶】动态内存管理
  • Mac电脑安装Zulu Open JDK 8 使用 spring-kafka 消费不到Kafka Partition中的消息
  • CodeArts Check代码检查服务用户声音反馈集锦(2)
  • 红帽RHCE9.0学什么内容,新版有什么变化
  • 线性代数的本质(一)——向量空间
  • PP-Tracking之C++部署
  • 智慧公厕建设,要以技术为支撑、体验为目的、业务为驱动
  • 通过Sealos 180秒部署一套K8S集群
  • 如何获取美团的热门商品和服务
  • 开启编程之门
  • 【ES】Too many dynamic script compilations within, max: [75/5m]; 问题处理
  • LED智能家居灯 开关调光 台灯落地灯控制驱动 降压恒流IC AP5191
  • 贪心算法的思路和典型例题