当前位置: 首页 > news >正文

动手学深度学习69 BERT预训练

1. BERT

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3亿参数 30亿个词

在输入和loss上有创新
两个句子拼起来放到encoder–句子对
cls-class分类
sep-seperate 分隔符 分开每个句子 告诉是哪个句子 两个句子给不同的向量
位置编码不用sin cos, 让网络自己学习
在这里插入图片描述

bert–通用任务
encoder 是双向的,两个方向的信息都可以看到
预测mask是谁。
改动:让模型在做微调的时候不要看到mask就做预测

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. QA

在这里插入图片描述
1 对每个词每个token 学习一个固定长度的向量
2 bert 用一个词段做向量表示
3 15% 中的10%
4 大量用在cv上,图片可以扣很多小块出来,是有空间关系的,模拟语言模型的关系
6 用小一点的bert模型;多用几个卡;每个gpu存一部分的模型。
7 gpt等 预训练任务本身都会有改进
8 bert之后的论文
在这里插入图片描述

http://www.lryc.cn/news/483848.html

相关文章:

  • 【2024软考架构案例题】你知道 Es 的几种分词器吗?Standard、Simple、WhiteSpace、Keyword 四种分词器你知道吗?
  • Elman 神经网络 MATLAB 函数详解
  • vue el-date-picker 日期选择器禁用失效问题
  • 搭建Python2和Python3虚拟环境
  • 【HarmonyOS NEXT】一次开发多端部署(以轮播图、Tab栏、列表为例,配合栅格布局与媒体查询,进行 UI 的一多开发)
  • ubontu--cuDNN安装
  • 高项 - 项目范围管理
  • 如何获取PostgreSQL慢查询?从小白到高手的实战指南
  • golang分布式缓存项目 Day4 一致性哈希
  • ARM 汇编指令
  • 打造个性化体验:在Axure中创建你的专属组件库
  • 如何用WordPress和Shopify提升SEO表现?
  • 不泄密的安全远程控制软件需要哪些技术
  • rust高级特征
  • STM32F407简单驱动步进电机(标准库)
  • 使用热冻结数据层生命周期优化在 Elastic Cloud 中存储日志的成本
  • LeetCode131. 分割回文串(2024冬季每日一题 4)
  • 万字长文解读深度学习——训练(DeepSpeed、Accelerate)、优化(蒸馏、剪枝、量化)、部署细节
  • STM32—独立看门狗(IWDG)和窗口看门狗(WWDG)
  • ks8 本地化部署 F5-TTS
  • Web组态大屏可视化编辑器
  • 【comfyui教程】让模特换衣服,comfyui一键搞定!
  • 数据湖与数据仓库的区别
  • golang分布式缓存项目 Day6 防止缓存击穿
  • Redis高可用-主从复制
  • Angular框架:构建现代Web应用的全面指南
  • Golang | Leetcode Golang题解之第563题二叉树的坡度
  • gdb编译教程(支持linux下X86和ARM架构)
  • Android 开发指南:初学者入门
  • 镭速大文件传输软件向金融银行的文档管理提供高效的解决方案