当前位置: 首页 > news >正文

LLM表征的提取方式

LLM表征的提取方式

LLM(大语言模型)的表征是指模型处理文本后输出的向量(通常是高维实数向量),这些向量编码了文本的语义、语法、上下文关联等信息,是后续任务(如分类、检索、聚类、生成等)的核心输入。表征的提取方式直接影响其对下游任务的有效性,不同方式的设计与模型结构、预训练目标、下游任务需求密切相关。

在这里插入图片描述

一、基于特定Token的提取方式

LLM的输出通常是序列中每个Token的向量(如BERT的每个字/词向量,GPT的每个生成Token向量),但下游任务常需要单向量表征(如一句话的整体向量)。基于特定Token的提取方式,是从序列中选择一个“代表性Token”的向量作为整体表征。

1. [CLS] Token(适用于Encoder-only模型,如BERT)
  • 原理:Encoder-only模型(如BERT)在预训练时,会在输入序列前强制添加一个特殊Token [CLS](意为“Classification”)。该Token不对应任何实际语义,但其向量在预训练过程中专门学习“序列级语义”——通过与其他所有Token的注意力交互,捕捉整个序列
http://www.lryc.cn/news/615616.html

相关文章:

  • EP06:【DL 第二弹】动态计算图与梯度下降入门
  • UCMT部分复现
  • Chaos Monkey 故障注入工具使用介绍
  • Spring Boot Starter 自动化配置原理深度剖析
  • CentOS7编译安装GCC
  • C++高频知识点(十七)
  • C++ 虚函数、多重继承、虚基类与RTTI的实现成本剖析
  • AI大模型模态特征详解
  • 鸿蒙分布式任务调度深度剖析:跨设备并行计算的最佳实践
  • <PLC><汇川><字符转换>在汇川PLC中,如何进行字符串的转换与比较?
  • 从零开始理解编译原理:设计一个简单的编程语言
  • 二十、MySQL-DQL-条件查询
  • Kotlin初体验
  • DeepSeek智能考试系统智能体
  • 在 VS Code 或 Visual Studio 2022 上搭建 ESP32-CAM 开发环境
  • Vulnhub----Beelzebub靶场
  • Day 20 奇异值SVD分解
  • 前端懒加载技术全面解析
  • 衰减器的计算
  • 【文献阅读】我国生态问题鉴定与国土空间生态保护修复方向
  • BeanDefinition 与 Bean 生命周期(面试高频考点)
  • C#异步编程双利器:异步Lambda与BackgroundWorker实战解析
  • 104-基于Flask的优衣库销售数据可视化分析系统
  • Python day39
  • PG靶机 - Shiftdel
  • 大语言模型提示工程与应用:前沿提示工程技术探索
  • AcWing 4579. 相遇问题
  • Horse3D引擎研发笔记(三):使用QtOpenGL的Shader编程绘制彩色三角形
  • 企业级高性能web服务器
  • 香橙派 RK3588 部署千问大模型 Qwen2-VL-2B 推理视频