当前位置: 首页 > news >正文

TensorRT-LLM七日谈 Day5

模型加载

在day2, 我们尝试了对于llama8B进行转换和推理,可惜最后因为OOM而失败,在day4,我们详细的过了一遍tinyllama的推理,值得注意的是,这两个模型的推理走的是不同的流程。llama8b需要显式的进行模型的转换,引擎的生成,而tinyllama则进行了隐式的执行。

如果参考[1],也有明确的说明。目前模型的推理确实支持多种形式。

量化及调参

接下里,我们的关注点来到: 如何进行各种量化方法的调用,在[2]中提供了对应的实例/。

可以看到的是,他是在LLM的加载和隐式的转换过程中,执行的量化。

    llm = LLM(model="TinyLlama/TinyLlama-1.1B-Chat-v1.0",# define the quantization config to trigger built-in end-to-end quantization.quant_config=quant_config)

而在生成结果的过程中,还涉及到很多参数,但这些参数,就与模型的engine无关,而更像是“调参”,在推理的时候指定即可。如下

    # Create a sampling params.sampling_params = SamplingParams(temperature=0.8, top_p=0.95)for output in llm.generate(prompts, sampling_params):print(f"Prompt: {output.prompt!r}, Generated text: {output.outputs[0].text!r}")

显存占用

对于LLM来说,显存的有效利用是一个非常务实的话题,在文档[3]中提到了,模型权重,激活值和I/O tensor会占用显存大小,这里的I/O tensor概念感觉很很隐晦,按我的理解,这是通过一个类似page的形式,进行显存管理?其中,也包含了kv cache,.

另外,文档中还提到了memory pool, 这个的概念,我也不太理解其对应的实现。

今天就先到这吧。

 

[1] LLM Examples Introduction — tensorrt_llm documentation

[2] LLM Quantization — tensorrt_llm documentation 

[3] Memory Usage of TensorRT-LLM — tensorrt_llm documentation

http://www.lryc.cn/news/460415.html

相关文章:

  • 使用Java Socket实现简单版本的Rpc服务
  • P2P 网络 简单研究 1
  • RAG(检索增强生成)面经(1)
  • 卫爱守护|守护青春,送出温暖
  • ubuntu-24.04.1 系统安装
  • 华为OD机试真题---生成哈夫曼树
  • 小红书新ID保持项目StoryMaker,面部特征、服装、发型和身体特征都能保持一致!(已开源)
  • Docker 环境下 GPU 监控实战:使用 Prometheus 实现 DCGM Exporter 部署与 GPU 性能监控
  • 联想小新打印机M7328w如何解决卡纸,卡了一个小角在里面,然后再次打印的时候,直接卡住,不能动了。灯显示红色。
  • 软件可靠性之MTTR、MTBF、MTTF、MTTD区别
  • Qt-QDockWidget浮动窗口相关操作(49)
  • 图形用户界面-GUI的基本概念和组件之一
  • 【MATLAB代码】基于RSSI原理的蓝牙定位程序(N个锚点、三维空间),源代码可直接复制
  • Pyenv 介绍和安装指南 - Ubuntu 24
  • zookeeper实现RMI服务,高可用,HA
  • 通过Express + Vue3从零构建一个用户认证与授权系统(一)项目结构设计
  • JavaScript 第13章:Ajax 与异步请求
  • 速卖通商品详情接口技术解析及Python代码示例
  • 邻接表的有向网(C语言代码)
  • 大模型生成PPT大纲优化方案:基于 nVidia NIM 平台的递归结构化生成
  • MRSO算法(JCR2区)
  • 最新Spring Boot3框架入门教程,基础知识讲解(参考官方文档),同时基于MybatisPlus+MYSQL搭建后台管理系统基础流程(附源码)
  • 导数的概念及在模型算法中的应用
  • 获取首日涨停封盘后第二次交易日上涨/下跌的概率
  • shell $ 用法
  • 如何用支付宝实现靠脸吃饭
  • Visual Studio的实用调试技巧总结
  • graphrag学习总结
  • 专题:贪心算法(已完结)
  • Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式