当前位置: 首页 > article >正文

面试相关的知识点

1 vllm

1.1常用概念

1 vllm:是一种大模型推理的框架,使用了张量并行原理,把大型矩阵分割成低秩矩阵,分散到不同的GPU上运行。

2 模型推理与训练:模型训练是指利用pytorch进行对大模型进行预训练。

模型推理是指用训练好的模型对新的输入生成输出的过程

3 大模型一般的训练过程:1 先对大模型进行无监督预训练。2 对模型进行微调

4 张量:向量到二维矩阵、三维矩阵等。

5 张量并行技术:张量并行技术主要用在大模型地训练过程中,特别是参数两巨大的模型,比如说transformer、GAN。

VLLM技术要点

1 张量并行化和模型并行化
VLLM支持将大型模型分布在多个GPU上进行并行计算,这包括张量并行化(Tensor Paralelism)和模型并行化(ModelParallelism)。张量并行化将模型的权重和激活在多个GPU之间切分,而模型并行化则将模型的不同层分配给不同的GPU,以此来有效利用多GPU资源.

2 连续批处理

VLM通过连续批处理(Consecutive Batch processing)技术,能够在GPU上无缝处理连续的输入序列,而无需等待额外的主机到设备数据传输。这减少了等待时间和上下文切换,从而提高了GPU利用率和整体推理速度。

4. PagedAttention
PagedAttention是一种创新的注意力机制,用于处理长序列输入,通过将输入序列分割成多个页面,每个页面独立处理,减少了全局注意力计算的复杂度,从而降低了内存使用和计算时间。

5 量化

VLLM支持不同的量化技术,如GPTQ和AWQ,这些技术能够将模型的权重量化到更低的精度,比如int4或int8,从而减少模型的内存占用,提高计算效率。

6.低延迟和高吞吐量

VLM的设计重点之一是提供低延迟的响应,即使在处理高并发请求时也能保持高性能。它能够高效地处理大量并发的文本生成请求,适合于大规模部署和实时应用。

2 lora和qlora的原理

1 lora 又名low rank adaptation,低秩矩阵自适应。特别适用于微调大规模语言预训练模型。

2 优势:直接对大规模语言模型进行全参数微调(full finetuning)计算量非常大。lora通过引入两个低秩矩阵。具体来说是把非常大的权重矩阵,化为两个维度低的矩阵

3 function call和ReAct

1 function call:模型主动调用在外部工具或者api的能力

2 ReAct:ReAct能够在不具备Function Calling能力的模型上发挥作用

4 agent

1 agent是什么

5  deepseek模型训练步骤

第一步,进行大规模无监督预训练学习。目的是让模型学会语言的基本结构与模式

第二步,使用质量冷启动数据(cot数据)对模型进行有监督微调。获得基本的格式遵循和反思验证能力

第三步,强化学习

6 项目迭代过程

6.1 第一阶段

该阶段采用的模型为GLM系列地模型,

模型参数较少,text2sql能力差

多轮对话历史影响大,调用tool的历史问答信息会很大程度上影响后续问题的回答。

通识问题易识别为调用问题,若用户给定function描述,模型有更大的倾向选择去调用

6.2 第二阶段

该阶段采用qwen32B

相较GLM的Text2SQL能力更好,受历史信息影响的情况大幅降低,对于是否需要调用SQL查询的判断能力更强。 对模型的测试后准确率大致在45%左右,因此拟对模型进行微调

构建了1378个问题的微调数据集。

构建的方法:

1 给定GPT数据库描述和应用场景批量的生成可能的用户提问,人工对这批问题进行调整(让问题更像人问出来的),

2 再用GPT生成相对应的SQL语句,编程代码批量将这些SQL对数据库进行查询,返回查询结果,人工对SQL和返回数据进行查验( SQL语句的特殊在于无法根据是否有返回结果来验证,对于用户的问题可能生成了错误理解的SQL而碰巧返回了结果,而未返回结果的不一定是错误,可能是因为数据库中没有存储相对应的数据,如今年的环境数据,因此需要人工对SQL一一核对并修正)

http://www.lryc.cn/news/2383542.html

相关文章:

  • 如何用JAVA手写一个Tomcat
  • 使用 Qt QGraphicsView/QGraphicsScene 绘制色轮
  • 游戏开发实战(三):Python复刻「崩坏星穹铁道」嗷呜嗷呜事务所---源码级解析该小游戏背后的算法与设计模式【纯原创】
  • 使用glsl 来做视频矫正
  • 03-Web后端基础(Maven基础)
  • LLM驱动下的软件工程再造:驾驭调试、测试与工程化管理的智能新范式
  • 大语言模型与人工智能:技术演进、生态重构与未来挑战
  • SpringSecurity授权、认证
  • 蓝桥杯19682 完全背包
  • DeepSeek源码解构:从MoE架构到MLA的工程化实现
  • leetcode 3355. 零数组变换 I 中等
  • 【VLNs篇】02:NavGPT-在视觉与语言导航中使用大型语言模型进行显式推理
  • (T_T),不小心删掉RabbitMQ配置文件数据库及如何恢复
  • 创建react工程并集成tailwindcss
  • TDengine 安全部署配置建议
  • Axure全链路交互设计:快速提升实现能力(基础交互+高级交互)
  • 为什么wifi有信号却连接不上?
  • 蓝桥杯框架-LED蜂鸣器继电器
  • uniapp-商城-64-后台 商品列表(商品修改---页面跳转,深浅copy应用,递归调用等)
  • Dify的大语言模型(LLM) AI 应用开发平台-本地部署
  • 使用教程:8x16模拟开关阵列可级联XY脚双向导通自动化接线
  • 移动端前端调试调研纪实:从痛点出发,到 WebDebugX 的方案落地
  • 8 种快速易用的Python Matplotlib数据可视化方法
  • 【android bluetooth 协议分析 02】【bluetooth hal 层详解 3】【高通蓝牙hal主要流程介绍-上】
  • C# 深入理解类(实例构造函数)
  • RabbitMQ——消息确认
  • 测试W5500的第2步_使用ioLibrary库创建TCP客户端
  • 深度学习之用CelebA_Spoof数据集搭建一个活体检测-训练好的模型用MNN来推理
  • 【Java】泛型在 Java 中是怎样实现的?
  • 开源安全大模型Foundation-Sec-8B实操