当前位置：首页 > news >正文

【学习笔记】4.1 什么是 LLM

news 2025/7/7 10:49:56

前三章介绍NLP定义与任务，核心思想为注意力机制和Transformer架构，其推动NLP进入预训练-微调范式，预训练语言模型提升经典任务水平。

2022年底ChatGPT刷新NLP能力上限，大语言模型（LLM）成主流，接替传统预训练语言模型，刷新预训练-微调范式，LLM能力、通用基座模型及相关概念应用快速发展，标志大模型时代到来。

4.1.1 LLM 的定义

LLM（大语言模型）是参数量更多、在更大规模语料上预训练的语言模型，与传统预训练语言模型架构和预训练任务相似（如 Decoder-Only 架构、CLM 任务），但具备以下特点：

参数与语料规模：通常包含数百亿及以上参数（广义覆盖十亿至千亿参数，如 Qwen-1.5B、Grok-314B），在数 T token 语料上通过多卡分布式集群预训练。
能力特征：具备远超传统模型（如 BERT、T5）的文本理解与生成能力，需展现 “涌现能力”（复杂任务表现突出）。

4.1.2 LLM 的能⼒

1）涌现能力

LLM 在相同模型架构与预训练任务下，随规模增大展现出小模型不具备的突出能力，类似物理学相变的 “量变引起质变”。
是业界关注 LLM 的核心，被认为是通往通用人工智能（AGI）的关键，依赖数据、模型架构及训练框架的优化。

（2）上下文学习（In-context Learning）

GPT-3 首次引入，LLM 可通过自然语言指令或少量示例执行任务，无需额外训练或参数更新。
对比传统 PLM 的 “预训练 - 微调” 范式，大幅降低算力（如 BERT 微调需 10G 以上显存）和数据标注成本（下游任务需 1k~ 数万人工标注样本），推动 NLP 研究范式向 “Prompt 工程” 转变（如 GPT-4 仅需 1~5 个示例即可超越传统模型微调效果）。

（3）指令遵循（Instruction Following）

通过多任务指令微调，LLM 能理解未见过的自然语言指令并执行任务，泛化能力强（如 ChatGPT 可处理写作、编程、批改试卷等跨领域任务）。
支撑 Agent、Workflow 等场景，是实现全能助理、超级智能的基础，推动 LLM 与多行业结合。

（4）逐步推理（Step-by-Step Reasoning）

采用思维链（CoT）推理策略，通过中间推理步骤提示解决复杂逻辑任务（如数学问题），能力可能源于代码训练。
使 LLM 具备处理日常逻辑问题的能力，向 “可靠智能助理” 迈进，例如微软 Copilot 借助该能力辅助代码编写，提升开发效率。

4.1.3 LLM 的特点

1）多语言支持

LLM 因预训练语料天然包含多语言数据，具备跨语言处理能力，但不同语言表现受训练语料和微调影响。

英文高质量语料占比高，GPT-4 等模型英文能力显著优于中文；国内模型（如文心一言、通义千问）针对中文优化后表现更优。

（2）长文本处理

传统 PLM（如 BERT）最大上下文长度约 512 token，LLM 通过分布式训练支持 4k-32k 长度（如 InternLM 预训练支持 32k），并采用旋转位置编码（RoPE）或 AliBi 实现长度外推（如 InternLM 可推理处理 200k 长度文本）。

增强信息阅读与总结能力，可处理复杂任务（如基于《红楼梦》生成高考作文）。

（3）多模态拓展

通过增加参数（如 Adapter 层、图像编码器）并微调，将 LLM 能力延伸至图像模态，实现图文问答与生成。

优化文本与图像表示对齐，构建更强多模态模型，辐射更多模态（如音频、视频）。

（4）幻觉问题

LLM 可能生成虚假信息（如捏造学术论文），在医疗、金融等精准领域易引发严重后果。

通过 Prompt 限制、检索增强生成（RAG）等方法削弱幻觉，但尚未能彻底解决。

参考资料：https://github.com/datawhalechina/happy-llm

http://www.lryc.cn/news/581653.html

相关文章：

编程语言艺术:C语言中的属性attribute笔记总结

程序员在线接单

浅谈漏洞扫描与工具

大型语言模型中的自动化思维链提示

【数据分析】R语言多源数据的基线特征汇总

玄机——第三章权限维持-linux权限维持-隐藏练习

Dify+Ollama+QwQ：3步本地部署，开启AI搜索新篇章

实现Spring MVC登录验证与拦截器保护：从原理到实战

【机器学习深度学习】如何解决“宏平均偏低 / 小类识别差”的问题？

HRDNet: High-resolution Detection Network for Small Objects论文阅读

mac中创建 .command 文件，执行node服务

Omi录屏专家 Screen Recorder by Omi 屏幕录制Mac

【Linux】基础开发工具（1）

开发项目时遇到的横向越权、行锁表锁与事务的关联与区别、超卖问题

Java学习——Lombok

Anaconda 常用命令

【Elasticsearch】自定义评分检索

【卫星语音】基于神经网络的低码率语音编解码（ULBC）方案架构分析：以SoundStream为例

Maven引入第三方JAR包实战指南

Day06- (使用asyncio进行异步编程：事件循环和协程)

群晖 DS3617xs DSM 6.1.7 解决 PhotoStation 安装失败问题 PHP7.0

数据结构---B+树

Modbus 与 BACnet 协议互操作：工业协议转换方案（二）

深入理解 classnames：React 动态类名管理的最佳实践

【系统分析师】2023年真题：论文及解题思路

【机器学习笔记Ⅰ】7 向量化

【IOS】XCode创建firstapp并运行（成为IOS开发者）

Tuning Language Models by Proxy

CentOS-6与CentOS-7的网络配置IP设置方式对比笔记250706

【Vibe Coding 实战】我如何用 AI 把一张草图变成了能跑的应用