当前位置：首页 > news >正文

LLM训练推理相关概念

news 2025/9/13 3:39:38

1. 有监督微调（Supervised Fine-Tuning）与指令微调（Instruction Fine-Tuning）对模型参数的影响

**有监督微调（Supervised Fine-Tuning, SFT）和指令微调（Instruction Fine-Tuning, Instruct-Tuning）**都会对模型参数进行优化，但它们的目标和数据类型有所不同：

有监督微调 (SFT)：
- 目标：在特定的任务上优化模型，使其在标注数据集上的表现更好。比如，对语音识别模型进行微调，使其在语音转文本任务上的准确率更高。
- 数据：使用带有标签的数据，如配对的语音和文本数据。
- 参数优化：模型的所有参数或部分参数在微调过程中都会被调整，目的是让模型更好地完成特定任务。
指令微调 (Instruct-Tuning)：
- 目标：使模型能够理解和执行自然语言指令。模型不仅要理解输入的语音或文本，还要根据给定的指令来生成响应。
- 数据：数据集通常包含自然语言指令和相应的输出（例如对话系统的输入输出对）。
- 参数优化：指令微调也会对模型参数进行优化，调整的目的是让模型在接收到指令时能够正确生成符合指令要求的输出。

总结来说，两种微调方法都会对模型参数进行优化，只是优化的目标不同。

2. Chain of Thought (思维链) 与 In-Context Learning (上下文学习)

Chain of Thought (CoT) 和 In-Context Learning 是两种不同的概念，但它们都与大模型在处理复杂任务时的推理和学习能力有关。

Chain of Thought (思维链)

概念：Chain of Thought 是一种推理方法，在处理复杂问题时，模型会逐步展开其思维过程，类似于人类解决问题时的思维链条。这种方法允许模型将一个复杂任务分解成多个步骤，通过每一步的逐步推理来得出最终答案。
应用：在复杂推理、数学计算、多步推理等任务中，CoT 可以显著提高模型的表现。例如，在解决一个需要多步计算的问题时，模型通过逐步推理，每一步都接近问题的最终解答。
实现：通常在训练或推理时，给模型提供带有详细思维过程的示例，让模型学习如何逐步展开推理过程。这种训练可以通过给出详细的解题步骤或多步推理的示例来实现。

In-Context Learning (上下文学习)

概念：In-Context Learning 是一种使模型无需微调就能学习新任务的能力。模型通过在推理时观察几个示例（上下文）来学习任务的模式，并应用到新的输入上。模型不会直接更新参数，而是通过提供的上下文来适应新任务。
应用：在实际应用中，用户可以为模型提供几个输入输出对作为示例（上下文），模型会根据这些示例推断出任务的规律，并对新的输入进行处理。这对于零样本或小样本任务非常有效。
实现：在使用 In-Context Learning 时，模型通过输入一系列示例，并在推理时根据这些示例学习如何处理新的输入。这种学习方式依赖于模型对上下文的理解能力，而不是依赖于传统的参数优化。

总结

有监督微调和指令微调：都涉及模型参数的优化，但微调的目标和数据类型不同。
Chain of Thought：模型逐步展开思维过程，适用于多步推理任务。
In-Context Learning：通过提供示例（上下文）让模型学习任务模式，而无需更新模型参数。

http://www.lryc.cn/news/429312.html

相关文章：

IP in IP 协议

DAY2: HTTP请求报文和响应报文是怎样的，有哪些常见的字段？| HTTP有哪些请求方式？| GET请求和POST请求的区别

线性代数：每日一题1/特征值与相似对角化

Android UI：PopupWindow：API

什么是DevUI？

python中len是什么

推荐一个开源的kafka可视化客户端GUI工具（Kafka King）

day 10 贪心算法

网络安全审计技术原理与应用

计算机网络之TCP序号，确认序号和报文传输时间

HTML优化方法

Codeforces Round 961 D. Cases 【SOS DP、思维】

VirtualBox上的Oracle Linux虚拟机安装Docker全流程

LNMP安装部署

django之自定义序列化器用法

20240821给飞凌OK3588-C的核心板刷Rockchip原厂的Buildroot并挂载1TB的exFAT格式的TF卡

多模态学习Multimodal Learning：人工智能中的多模态原理与技术介绍初步了解

外部环境连接kafka

结合了MySQL数据库、Elasticsearch和Redis，构建一个产品搜索和推荐系统

白酒与素食：健康与美味的双重享受

工厂现场多功能帮手，三防平板改善管理体验

【git】问题解决---Failed to connect to github.com

Java 中 String 类型的特点

AddressUtils 、RegionUtils IP地址工具类

牛客网SQL进阶134：满足条件的用户的试卷总完成次数和题目总练习次数

机器学习：逻辑回归处理手写数字的识别

文件上传真hard

精益管理｜介绍一本专门研究防错法(Poka-Yoke)的书

面试题目：(4)给表达式添加运算符