当前位置：首页 > news >正文

深度学习-74-大语言模型LLM之基于API与llama.cpp启动的模型进行交互

news 2025/7/9 8:55:56

文章目录

1 大模型量化方法
- 1.1 GPTQ(后训练量化)
- 1.2 GGUF(支持CPU)
- 1.3 AWQ(后训练量化)
2 llama.cpp
- 2.1 功能
- - 2.1.1 Chat(聊天)
  - 2.1.2 Completion(补全)
- 2.2 运行开源LLM
- - 2.2.1 下载安装llama.cpp
  - 2.2.2 下载gguf格式的模型
  - 2.2.3 运行大模型
3 API访问
- 3.1 调用补全
- 3.2 调用聊天
- 3.3 提取结果信息
- 3.4 模拟聊天
4 参考附录

1 大模型量化方法

大语言模型的参数通常以高精度浮点数存储，这导致模型推理需要大量计算资源。

量化技术通过将高精度数据类型存储的参数转换为低精度数据类型存储，可以在不改变模型参数量和架构的前提下加速推理过程。这种方法使得模型的部署更加经济高效，也更具可行性。

1.1 GPTQ(后训练量化)

GPTQ: Post-Training Quantization for GPT Models

GPTQ是一种4位量化的训练后量化(PTQ)方法，主要关注GPU推理和性能。

该方法背后的思想是，尝试通过最小化该权重的均方误差将所有权重压缩到4位。在推理过程中，它将动态地将其权重去量化为float16，以提高性能。

GPTQ常用4bit，8bit量化。

1.2 GGUF(支持CPU)

GGUF：GPT-Generated Unified Format

GGUF(以前称为GGML)是一种量化方法，允许用户使用CPU来运行LLM，但也可以将其某些层加载到GPU以提高速度。

虽然使用CPU进行推理通常比使用GPU慢，但对于那些在CPU或苹果设备上运行模型的人来说，这是一种非常好的格式。

1.3 A

http://www.lryc.cn/news/506546.html

相关文章：

PyTorch 2.0 中设置默认使用 GPU 的方法

如何在 Ubuntu 22.04 服务器上安装 Jenkins

【一篇搞定配置】如何在Ubuntu上配置单机/伪分布式Hadoop

利用Map集合设计程序，存储城市和对应等级相关信息

【自动驾驶】单目摄像头实现自动驾驶3D目标检测

21 go语言（golang） - gin框架安装及使用（二）

Intel(R) Iris(R) Xe Graphics安装Anaconda、Pytorch（CPU版本）

【Unity3D】实现可视化链式结构数据（节点数据）

Three.js推荐-可以和Three.js结合的动画库

增强现实（AR）和虚拟现实（VR）的应用

告别机器人味：如何让ChatGPT写出有灵魂的内容

【Threejs】从零开始（六）--GUI调试开发3D效果

Cocos Creator 试玩广告开发

快速解决oracle 11g中exp无法导出空表的问题

selenium 报错 invalid argument: invalid locator

Flink2.0未来趋势中需要注意的一些问题

机械鹦鹉与真正的智能：大语言模型推理能力的迷思

本地电脑使用命令行上传文件至远程服务器

【系统】Windows11更新解决办法，一键暂停

34. Three.js案例-创建球体与模糊阴影

Qt同步读取串口

如何用上AI视频工具Sora，基于ChatGPT升级Plus使用指南

对象的状态变化处理与工厂模式实现

关于IP代理API，我应该了解哪些功能特性？以及如何安全有效地使用它来隐藏我的网络位置？

在Linux上将 `.sh` 脚本、`.jar` 包或其他脚本文件添加到开机自启动

[Maven]构建项目与高级特性

【系统架构设计师】真题论文: 论数据分片技术及其应用（包括解题思路和素材）

【bWAPP】XSS跨站脚本攻击实战

Ubuntu 22.04，Rime / luna_pinyin.schema 输入法：外挂词库，自定义词库（****) OK

多协议视频监控汇聚/视频安防系统Liveweb搭建智慧园区视频管理平台