当前位置: 首页 > news >正文

大模型实战营Day5 LMDeploy大模型量化部署实践

模型部署 定义 产品形态 计算设备

大模型特点 内存开销大 动态shape 结构简单

部署挑战 设备存储 推理速度 服务质量

部署方案:技术点 (模型并行 transformer计算和访存优化 低比特量化 Continuous Batch Page Attention)方案(云端 移动端)

LMDeploy: 云端部署

接口: python gRPC RESTful

轻量化 推理引擎 服务(api server gradio triton inference server)

无缝对接open compass

推理性能 静态vs动态

核心功能 量化FP16 Int4-8

模型显存优化明显(24GB显存 4倍提升)

计算密集 访存密集(大模型一般是访存密集)

推理引擎 TurboMind

持续批处理 有状态的推理 高性能cuda kernel Blocked k/v cache分块缓存

持续批处理 请求队列+Persistent线程

有状态的推理 推理测的缓存

分块的k/v缓存 历史缓存

高性能cuda kernel

Flash Attention2

Split-k decoding

Fast w4a16, kv8

算子融合

推理服务api server

http://www.lryc.cn/news/280121.html

相关文章:

  • py连接sqlserver数据库报错问题处理。20009
  • LTESniffer:一款功能强大的LTE上下行链路安全监控工具
  • SQL语句详解二-DDL(数据定义语言)
  • web前端算法简介之链表
  • C++函数对象
  • 插件化简单介绍
  • [Beego]1.Beego简介以及beego环境搭建,bee脚手架的使用,创建,运行项目
  • Tomcat 静态资源访问与项目根路径设置(AI问答)
  • Docker实战09|使用AUFS包装busybox
  • 什么是uni.request()?如何使用它?
  • 用React给XXL-JOB开发一个新皮肤(一):环境搭建和项目初始化
  • 华为常用的命令——display,记得点赞收藏!
  • Costco攻入山姆大本营
  • 什么是常量?如何区分常量和变量?
  • uniapp返回上一页并刷新数据
  • LeetCode 0083.删除排序链表中的重复元素:模拟
  • Javaweb之SpringBootWeb案例新增部门的详细解析
  • 基于微信小程序的音乐平台 开源项目
  • uniapp 微信小程序跳转外部链接
  • 【STM32】FLASH闪存
  • 滴水内存地址堆栈
  • Laravel中的lockForUpdate悲观锁
  • BikeDNA(八)外在分析:OSM 与参考数据的比较2
  • 28 星际旋转
  • 测试人员必备基本功(3)
  • 记一次数据修复,需要生成十万条sql进行数据回滚
  • [paddle]paddlehub部署paddleocr的hubserving服务
  • 2024校招,网易互娱游戏测试工程师一面
  • Linux Ubuntu搭建我的世界Minecraft服务器实现好友远程联机MC游戏
  • Springboot对接ceph集群以及java利用s3对象网关接口与ceph集群交互