当前位置: 首页 > news >正文

【DataWhale】快乐学习大模型 | 202507,Task06笔记

Encoder-only PLM

有标注的数据是很贵的,利用预测文本中间内容这种无监督的方式可以有效地利用大量的无标注数据,提升模型效果。

BERT

核心:
1、利用到了前后信息
训练时通过:
I love [MASK] because you are [MASK].
来预测MASK。

RoBERTa

优化:
1、去掉 NSP 预训练任务
2、更⼤规模的预训练数据和预训练步⻓
3、更⼤的 bpe 词表
核心:
1、更大规模的预训练数据
2、动态遮蔽策略提升性能

ALBERT

优化:
1、将 Embedding 参数进⾏分解
2、跨层进⾏参数共享
3、提出 SOP 预训练任务
核心:
1、Encoder参数共享
2、改进的预训练任务减少参数量提升性能
里面用到的SOP的训练方法有点对比学习的感觉

名词解释

BERT: (Bidirectional Encoder Representations from Transformers), 基于Transformer的双向编码器表示,是一个预训练语言模型,主要用于自然语言理解(NLU)任务。
MLM: (Masked Language Model), 掩码语言模型,BERT的预训练任务之一,通过随机遮蔽部分token并要求模型预测被遮蔽的token来训练模型捕捉双向语义关系。
NSP: (Next Sentence Prediction), 下一句预测,BERT的另一个预训练任务,通过判断两个句子是否是连续的上下文来训练模型的句级语义关系拟合能力。
NLU: (Natural Language Understanding), 自然语言理解,NLP的一个子领域,专注于让计算机理解人类语言的语义。
NLG: (Natural Language Generation), 自然语言生成,NLP的一个子领域,专注于让计算机生成自然语言文本。
LLM: (Large Language Model), 大型语言模型,指参数量极大、预训练数据规模庞大的语言模型,如GPT系列。
SOTA: (State Of The Art), 当前最优性能,指在某个任务或领域中达到的最佳性能水平。
RoBERTa: (Robustly Optimized BERT Approach), 一种对BERT进行优化的预训练模型,通过改进预训练任务和使用更大规模的预训练数据来提升性能。
ALBERT: (A Lite BERT), 一种对BERT进行优化的预训练模型,通过减少模型参数量并引入新的预训练任务(SOP)来提升性能。
SOP: (Sentence Order Prediction), 句子顺序预测,ALBERT提出的预训练任务,通过判断两个句子的顺序关系来增加预训练的难度。
BPE: (Byte Pair Encoding), 字节对编码,一种分词方法,将文本切分为子词对,用于提高模型对文本的编码能力。
WordPiece: 一种基于统计的子词切分算法,将单词拆解为子词,用于分词和模型输入。
这些缩写在自然语言处理领域中非常常见,理解它们的全称和含义有助于更好地把握相关技术和模型的核心概念。

参考资料

1、happy-llm/docs/chapter3/第三章 预训练语言模型.md
2、kimi

http://www.lryc.cn/news/597398.html

相关文章:

  • Hexo - 免费搭建个人博客03 - 将个人博客托管到github,个人博客公开给大家访问
  • 深度相机---像素转物理尺寸
  • Paimon的部分更新以及DeleteVector实现
  • 篇四 tcp,udp客户端服务器编程模型
  • MYSQL 笔记3
  • 实验室信息管理系统的设计与实现/实验室管理系统
  • lwIP学习记录5——裸机lwIP工程学习后的总结
  • 【bug】websocket协议不兼容导致的一个奇怪问题
  • Linux 723 磁盘配额 限制用户写入 quota;snap快照原理
  • Linux 环境下安装 MySQL 8.0.34 二进制 详细教程 附docker+k8s启动
  • VU2 学习笔记4 计算属性、监视属性
  • 北京互联网公司面试题精华解析
  • 计算机网络学习----Https协议
  • 直接偏好优化(DPO):原理、演进与大模型对齐新范式
  • python-82-基于ORM操作数据库(一)简单模型CRUD
  • UniappDay01
  • JavaWeb笔记12
  • MySQL深度理解-深入理解MySQL索引底层数据结构与算法
  • 容联云携手信通院,启动“智能体服务生态共创计划”
  • 华为云ELB(弹性负载均衡)持续报异常
  • 2025年Zigbee技术白皮书:全球物联网无线通信的关键创新
  • HF86611_VC1/HF86611Q_VC1:多通道USB HiFi音频解码器固件技术解析
  • 【自动化运维神器Ansible】深入解析Ansible Host-Pattern:精准控制目标主机的艺术
  • .Net core 部署到IIS出现500.19Internal Server Error 解决方法
  • Ubuntu系统下FFmpeg源码编译安装
  • 内网穿透技术深析:从原理到工具应用的全方位解读,无公网IP本地服务器外网访问实操
  • IGM弧焊机器人气体节约
  • 【数据结构】哈希——位图与布隆过滤器
  • 彩色转灰度的核心逻辑:三种经典方法及原理对比
  • zabbix监控MySQL数据库