当前位置：首页 > news >正文

【LLM微调】

news 2025/8/17 6:50:19

目录

LLM简介
LLM的训练方式
Transformer架构
- tokenizer方式
- 三种不同attenbtion
- Layer Normalization
- decoder输出
LLM Fine-tuning
- 几种微调方式
- - adaptor tuning（适配器微调）
  - perfix tuning
  - Lora
参考资料
相关文章

LLM简介

在这里插入图片描述

LLM都是基于transformer发展起来，归功于transformer的长文本关系检索能力，通过attention可捕捉输入序列中的各token之间关系，可用于生成LLM
主要由以下三种LLM，其中又以decoder-only为主流

架构	代表模型	关键特征
Decoder-Only（纯自回归）	GPT 系列、Llama、Baichuan、Qwen、Falcon、Mistral	只做「从左到右」生成，适合对话/续写
Encoder-Only（纯自编码）	BERT、RoBERTa、DeBERTa	双向上下文，适合理解类任务（分类、NER）
Encoder-Decoder（序列到序列）	T5、UL2、BART、Flan-T5、GLM	兼顾理解与生成，适合翻译、摘要、问答

在这里插入图片描述

以RLHF（人类反馈强化学习）而来的chatGPT

在这里插入图片描述

LLM的训练方式

在这里插入图片描述

Transformer架构

在这里插入图片描述

在这里插入图片描述

tokenizer方式

在这里插入图片描述

在这里插入图片描述

三种不同attenbtion

在这里插入图片描述

Layer Normalization

在这里插入图片描述

decoder输出

在这里插入图片描述
Absolute Position Embedding可视化

LLM Fine-tuning

在这里插入图片描述

prompt：使用zero-shot或few-shot对input进行补充，但过多的example会造成输入tokens数增加、过拟合等问题

几种微调方式

adaptor tuning（适配器微调）

在这里插入图片描述

时间成本上升

perfix tuning

在这里插入图片描述

特性	Prefix Tuning	Prompt Tuning
插入位置	Transformer 每一层	输入层（embedding 层）
控制粒度	更细粒度（多层）	粗粒度（单层）
参数量	略高（每层都要加前缀）	更低（只加一次）
实现复杂度	较高	较简单
性能表现	通常优于 Prompt Tuning	对复杂任务可能不足

PrefixTuning:难优化、随着token的添加性能不会持续提
高，占用窗口

Lora

在这里插入图片描述
PEFT-lora

some fine-tuning methods

参考资料

bilibili微调

相关文章

在这里插入图片描述

http://www.lryc.cn/news/622735.html

相关文章：

每日算法刷题Day62:8.16:leetcode 堆8道题，用时2h30min

java项目中什么时候使用static、final

Docker数据卷挂载和本地目录挂载

暴雨服务器：以定制化满足算力需求多样化

dify 调用本地的 stable diffusion api生成图片的工作流搭建

掌握长尾关键词优化SEO技巧

神经网络常见分类

分布式存储与存储阵列：从传统到现代的存储革命

本地部署前端构建工具 Vite 并实现外部访问

模式组合应用-桥接模式(一)

容器化部署：用Docker封装机器翻译模型与服务详解

她的热情为何突然冷却？—— 解析 Kafka 吞吐量下降之谜

数据结构：满二叉树 (Full Binary Tree) 和完全二叉树 (Complete Binary Tree)

无痕HOOK 检测及对抗

数据结构：构建 (create) 一个二叉树

OpenJDK 17的C1和C2编译器实现中，方法返回前插入安全点（Safepoint Poll）的机制

【lubancat】鲁班猫4实现开机后自动播放视频

攻击者如何毒害人工智能工具和防御系统

罗技MX Anywhere 2S鼠标修复记录

【攻防实战】红队攻防之Goby反杀

云原生俱乐部-RH124知识点总结（1）

PHP反序列化的CTF题目环境和做题复现第2集_POP链构造

布隆过滤器的原理及使用

基于STM32的智能书房系统设计与实现

从阿里一面真题看：索引树搜索次数背后的逻辑

Sklearn 机器学习邮件文本分类加载邮件数据

Redis集群设计实战：从90%缓存命中率看高并发系统优化

Rust 语法基础教程

AI应用安全 - Prompt注入攻击