当前位置: 首页 > news >正文

ChatGLM GPT原理介绍

图解GPT

        除了BERT以外,另一个预训练模型GPT也给NLP领域带来了不少轰动,本节也对GPT做一个详细的讲解。

        OpenAI提出的GPT-2模型(https://openai.com/blog/better-language-models/) 能够写出连贯并且高质量的文章,比之前语言模型效果好很多。GPT-2是基于Transformer搭建的,相比于之前的NLP语言模型的区别是:基于Transformer大模型、,在巨大的数据集上进行了预训练。在本章节中,我们将对GPT-2的结构进行分析,对GPT-2的应用进行学习,同时还会深入解析所涉及的self-attention结构。

语言模型和GPT-2

什么是语言模型

本文主要描述和对比2种语言模型:

  • 自编码(auto-encoder)语言模型
  • 自回归(auto-regressive)语言模型

        先看自编码语言模型。

        自编码语言模型典型代表就是BERT。如下图所示,自编码语言模型通过随机Mask输入的部分单词,然后预训练的目标是预测被Mask的单词,不仅可以融入上文信息,还可以自然的融入下文信息。

 图: BERT mask

        自编码语言模型的优缺点:

  • 优点:自然地融入双向语言模型,同时看到被预测单词的上文和下文
  • 缺点:训练和预测不一致。训练
http://www.lryc.cn/news/173908.html

相关文章:

  • 2015年蓝桥杯省赛C/C++ A组 灾后重建题解(100分)
  • Elasticsearch(四)深分页Scroll
  • JavaWeb后端开发 JWT令牌解析 登录校验 通用模板/SpringBoot整合
  • Sparta工具用法描述之信息收集(漏洞分析)
  • Vue复选框批量删除示例
  • Docker自定义镜像
  • ardupilot的编译过程
  • Unity中Shader实现模板测试Stencil
  • 多线程与并发
  • 手写call方法
  • 基于FPGA的图像直方图统计实现,包括tb测试文件和MATLAB辅助验证
  • 数据库:Hive转Presto(一)
  • Responder
  • 基于下垂控制的并网逆变器控制MATLAB仿真模型
  • android获取RAM、CPU频率、系统版本、CPU核数
  • 微信小程序python+nodejs+php+springboot+vue 讲座预约系统
  • 嵌入式开发笔记:STM32的外设GPIO知识学习
  • 单片机论文参考:2、基于单片机的病床呼叫系统设计
  • 【C语言】结构体实现位段!位段有何作用?
  • msvcp140为什么会丢失?msvcp140.dll丢失的解决方法
  • Ingress Controller
  • 离线安装 K3S
  • Error系列-常见异常问题解决方案以及系统指令总结
  • c 各种例子
  • Flowable主要子流程介绍
  • 通过插件去除Kotlin混淆去除 @Metadata标记
  • 【docker】容器跟宿主机、其他容器通信
  • nginx重要配置参数
  • Docker 部署 PostgreSQL 服务
  • 【通信误码】python实现-附ChatGPT解析