当前位置: 首页 > news >正文

【学习笔记】4.1 什么是 LLM

前三章介绍NLP定义与任务,核心思想为注意力机制和Transformer架构,其推动NLP进入预训练-微调范式,预训练语言模型提升经典任务水平。

2022年底ChatGPT刷新NLP能力上限,大语言模型(LLM)成主流,接替传统预训练语言模型,刷新预训练-微调范式,LLM能力、通用基座模型及相关概念应用快速发展,标志大模型时代到来。

4.1.1 LLM 的定义

LLM(大语言模型)是参数量更多、在更大规模语料上预训练的语言模型,与传统预训练语言模型架构和预训练任务相似(如 Decoder-Only 架构、CLM 任务),但具备以下特点:

  • 参数与语料规模:通常包含数百亿及以上参数(广义覆盖十亿至千亿参数,如 Qwen-1.5B、Grok-314B),在数 T token 语料上通过多卡分布式集群预训练。
  • 能力特征:具备远超传统模型(如 BERT、T5)的文本理解与生成能力,需展现 “涌现能力”(复杂任务表现突出)。


4.1.2 LLM 的能⼒

1)涌现能力
  • LLM 在相同模型架构与预训练任务下,随规模增大展现出小模型不具备的突出能力,类似物理学相变的 “量变引起质变”。
  • 是业界关注 LLM 的核心,被认为是通往通用人工智能(AGI)的关键,依赖数据、模型架构及训练框架的优化。
(2)上下文学习(In-context Learning)
  • GPT-3 首次引入,LLM 可通过自然语言指令或少量示例执行任务,无需额外训练或参数更新。
  • 对比传统 PLM 的 “预训练 - 微调” 范式,大幅降低算力(如 BERT 微调需 10G 以上显存)和数据标注成本(下游任务需 1k~ 数万人工标注样本),推动 NLP 研究范式向 “Prompt 工程” 转变(如 GPT-4 仅需 1~5 个示例即可超越传统模型微调效果)。
(3)指令遵循(Instruction Following)
  • 通过多任务指令微调,LLM 能理解未见过的自然语言指令并执行任务,泛化能力强(如 ChatGPT 可处理写作、编程、批改试卷等跨领域任务)。
  • 支撑 Agent、Workflow 等场景,是实现全能助理、超级智能的基础,推动 LLM 与多行业结合。
(4)逐步推理(Step-by-Step Reasoning)
  • 采用思维链(CoT)推理策略,通过中间推理步骤提示解决复杂逻辑任务(如数学问题),能力可能源于代码训练。
  • 使 LLM 具备处理日常逻辑问题的能力,向 “可靠智能助理” 迈进,例如微软 Copilot 借助该能力辅助代码编写,提升开发效率。

4.1.3 LLM 的特点

1)多语言支持

LLM 因预训练语料天然包含多语言数据,具备跨语言处理能力,但不同语言表现受训练语料和微调影响。

英文高质量语料占比高,GPT-4 等模型英文能力显著优于中文;国内模型(如文心一言、通义千问)针对中文优化后表现更优。

(2)长文本处理

传统 PLM(如 BERT)最大上下文长度约 512 token,LLM 通过分布式训练支持 4k-32k 长度(如 InternLM 预训练支持 32k),并采用旋转位置编码(RoPE)或 AliBi 实现长度外推(如 InternLM 可推理处理 200k 长度文本)。

增强信息阅读与总结能力,可处理复杂任务(如基于《红楼梦》生成高考作文)。

(3)多模态拓展

通过增加参数(如 Adapter 层、图像编码器)并微调,将 LLM 能力延伸至图像模态,实现图文问答与生成。

优化文本与图像表示对齐,构建更强多模态模型,辐射更多模态(如音频、视频)。

(4)幻觉问题

LLM 可能生成虚假信息(如捏造学术论文),在医疗、金融等精准领域易引发严重后果。

通过 Prompt 限制、检索增强生成(RAG)等方法削弱幻觉,但尚未能彻底解决。

参考资料:https://github.com/datawhalechina/happy-llm

http://www.lryc.cn/news/581653.html

相关文章:

  • 编程语言艺术:C语言中的属性attribute笔记总结
  • 程序员在线接单
  • 浅谈漏洞扫描与工具
  • 大型语言模型中的自动化思维链提示
  • 【数据分析】R语言多源数据的基线特征汇总
  • 玄机——第三章 权限维持-linux权限维持-隐藏练习
  • Dify+Ollama+QwQ:3步本地部署,开启AI搜索新篇章
  • 实现Spring MVC登录验证与拦截器保护:从原理到实战
  • 【机器学习深度学习】 如何解决“宏平均偏低 / 小类识别差”的问题?
  • HRDNet: High-resolution Detection Network for Small Objects论文阅读
  • mac中创建 .command 文件,执行node服务
  • Omi录屏专家 Screen Recorder by Omi 屏幕录制Mac
  • 【Linux】基础开发工具(1)
  • 开发项目时遇到的横向越权、行锁表锁与事务的关联与区别、超卖问题
  • Java学习——Lombok
  • Anaconda 常用命令
  • 【Elasticsearch】自定义评分检索
  • 【卫星语音】基于神经网络的低码率语音编解码(ULBC)方案架构分析:以SoundStream为例
  • Maven引入第三方JAR包实战指南
  • Day06- (使用asyncio进行异步编程:事件循环和协程)
  • 群晖 DS3617xs DSM 6.1.7 解决 PhotoStation 安装失败问题 PHP7.0
  • 数据结构---B+树
  • Modbus 与 BACnet 协议互操作:工业协议转换方案(二)
  • 深入理解 classnames:React 动态类名管理的最佳实践
  • 【系统分析师】2023年真题:论文及解题思路
  • 【机器学习笔记Ⅰ】7 向量化
  • 【IOS】XCode创建firstapp并运行(成为IOS开发者)
  • Tuning Language Models by Proxy
  • CentOS-6与CentOS-7的网络配置IP设置方式对比 笔记250706
  • 【Vibe Coding 实战】我如何用 AI 把一张草图变成了能跑的应用