当前位置: 首页 > news >正文

书生·浦语大模型实战营-学习笔记5

LMDeploy 大模型量化部署实践

在这里插入图片描述

在这里插入图片描述

大模型部署背景


在这里插入图片描述

LMDeploy简介

轻量化、推理引擎、服务
在这里插入图片描述
在这里插入图片描述

核心功能-量化

显存消耗变少了
在这里插入图片描述
在这里插入图片描述
大语言模型是典型的访存密集型任务,因为它是decoder-by-decoder

先把数据量化为INT4存起来,算的时候会反量化为FP16
在这里插入图片描述
AWQ算法:观察到模型在推理过程中,只有一小部分参数是重要的参数,这部分参数不量化,其他的参数量化,这样保留了显存,性能也不会下降多少

核心功能-推理引擎

在这里插入图片描述
不用等到整个batch结束
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

核心功能-推理服务api server

在这里插入图片描述

动手实践环节

https://github.com/InternLM/tutorial/blob/main/lmdeploy/lmdeploy.md

http://www.lryc.cn/news/287151.html

相关文章:

  • 10. Profile
  • YOLO 自己训练一个模型
  • 3.Eureka注册中心
  • 基于springboot+vue的墙绘产品展示交易平台系统(前后端分离)
  • 网络原理-初识(1)
  • 【GitHub项目推荐--人脸识别】【转载】
  • NLP自然语言处理介绍
  • 在线WebOffce在HTML/VUE/Electron纯前端网页编辑Office之打开Word后自动处于修订模式
  • thinkphp+vue+mysql旅游推荐攻略分享网站p0667
  • 华为系统底层是用Java写的吗?和安卓的区别?
  • sql server 修改表前 先判断是否有这个列
  • 解决网站高并发问题的策略?
  • 浙政钉实现埋点(浙政钉-H5小程序应用采集开发手册)
  • 【笔记】Helm-4 最佳实践-3 模板
  • 网络爬虫基本原理的介绍
  • Qt配置OpenCV
  • 单片机I/O口驱动MOS管
  • k8s---helm
  • HarmonyOS(十三)——详解自定义组件的生命周期
  • 设计模式-责任链
  • ubuntu怎么安装docker
  • UE4运用C++和框架开发坦克大战教程笔记(十五)(第46~48集)
  • 《Linux系列》Linux虚拟机,LVM逻辑卷扩容,xfs文件系统扩容
  • springboot(ssm动漫手办商城 动漫周边商系统Java系统
  • 卸载 MariaDB:
  • javaweb总览
  • 树,二叉树及其相关知识
  • NumPy必知必会50例 | 5. 高级数组操作:成为 NumPy 数组的忍者
  • 《WebKit 技术内幕》学习之五(3): HTML解释器和DOM 模型
  • extends 和 implements