当前位置: 首页 > news >正文

GPT的实现细节

关于GPT的代码细节,这里梳理了一下:

数据集构造

原始数据集schema:

input=who is your favorite basketball player?
output=Of course Kobe Bryant!

那么在构造训练集时,根据chunk size构造多个输入:

input_1=who is your favorite basketball player? Of
input_2=who is your favorite basketball player? Of course
......
input_n-1=who is your favorite basketball player? Of course Kobe Bryant!
input_n=who is your favorite basketball player? Of course Kobe Bryant! <EOS>

由于训练任务是下一个单词预测,所以 x = i n p u t [ : − 1 ] , y = i n p u t [ 1 : ] x=input[:-1], y=input[1:] x=input[:1],y=input[1:]

loss

x x x是模型可见已知的,需要mask掉,不算入loss:

y[:-1] = -1
loss = F.cross_entropy(logits.view(-1, logits.size(-1)), targets.view(-1), ignore_index=-1)

生成

在karpathy/minGPT项目中,是直接粗暴地生成固定长度的文本。这样做的问题就是生成的文本无法判断何处阶段。

在构造模型输入的时候,我们就加入了 <EOS> token,来标记文本的结束。那么在推理阶段,如果碰到该token,则结束生成:

if token == "<EOS>":break

参考

  • GPT2LMHeadModel
  • mingpt
  • GPT2-NewsTitle
http://www.lryc.cn/news/320988.html

相关文章:

  • docker安装Milvus
  • HTML静态网页成品作业(HTML+CSS)——世博园介绍(2个页面)
  • 微信小程序订阅消息授权弹窗事件
  • 谷歌的后量子密码学威胁模型
  • 机器人在果园内行巡检仿真
  • 蓝桥杯算法基础(14):十大排序算法(归并排序)c语言版
  • 力扣刷题(DAY09-DAY11)
  • IPC之管道
  • VUE-组件间通信(二)$emit
  • java 程序连接 redis 集群 的时候报错 MUTLI is currently not supported in cluster mode
  • AVP-SLAM:自动泊车系统中的语义SLAM_
  • PHP反序列化--pop链
  • 单片机中的几种周期(振动/时钟,状态,机械,指令周期)表示的含义(51为例)
  • Spring Boot+Vue前后端分离项目如何部署到服务器
  • 【学习总结】Ubuntu中vscode用ROS插件调试C++程序
  • html--蝴蝶
  • 线程的 sleep()方法和 yield()方法有什么区别?为什么 Thread 类的 sleep()和 yield ()方法是静态的?
  • Java进阶 Maven基础
  • Spring Boot(六十八):SpringBoot 整合Apache tika 实现文档内容解析
  • jQuery+CSS3自动轮播焦点图特效源码
  • 面试经典150题(114-118)
  • HTML表单标签详解:如何用HTML标签打造互动网页?
  • Web 服务器-Tomcat
  • (德迅零域)微隔离安全平台是什么,有什么作用?
  • 这些问题,每年软考报名时都有人问
  • JavaScript爬虫进阶攻略:从网页采集到数据可视化
  • MATLAB教程
  • 爱恩斯坦棋小游戏使用C语言+ege/easyx实现
  • png格式怎么转成gif?一个小窍门快速转换
  • mysql笔记:20. 什么是数据库六大范式