当前位置: 首页 > news >正文

【CS324】Large Language Models(持续更新)

note

文章目录

  • note
  • 一、引言
  • 二、大模型的能力
  • 三、大模型的有害性(上)
  • 四、大模型的有害性(下)
  • 五、大模型的数据
  • Reference

一、引言

  • 语言模型最初是在信息理论的背景下研究的,可以用来估计英语的熵。
    • 熵用于度量概率分布: H ( p ) = ∑ x p ( x ) log ⁡ 1 p ( x ) . H(p) = \sum_x p(x) \log \frac{1}{p(x)}. H(p)=xp(x)logp(x)1.
    • 熵实际上是一个衡量将样本 x ∼ p x∼p xp 编码(即压缩)成比特串所需要的预期比特数的度量。举例来说,“the mouse ate the cheese” 可能会被编码成 “0001110101”。熵的值越小,表明序列的结构性越强,编码的长度就越短。直观地理解, log ⁡ 1 p ( x ) \log \frac{1}{p(x)} logp(x)1 可以视为用于表示出现概率为 p ( x ) p(x) p(x)的元素 x x x的编码的长度。
    • 交叉熵H(p,q)上界是熵H§: H ( p , q ) = ∑ x p ( x ) log ⁡ 1 q ( x ) . H(p,q) = \sum_x p(x) \log \frac{1}{q(x)}. H(p,q)=xp(x)logq(x)1.,所以可以通过构建一个只有来自真实数据分布 p p p的样本的(语言)模型 q q q来估计 H ( p , q ) H(p,q) H(p,q)
  • N-gram模型在计算上极其高效,但在统计上效率低下。
  • 神经语言模型在统计上是高效的,但在计算上是低效的。
  • 大模型的参数发展:随着深度学习在2010年代的兴起和主要硬件的进步(例如GPU),神经语言模型的规模已经大幅增加。以下表格显示,在过去4年中,模型的大小增加了5000倍。
ModelOrganizationDateSize (# params)
ELMoAI2Feb 201894,000,000
GPTOpenAIJun 2018110,000,000
BERTGoogleOct 2018340,000,000
XLMFacebookJan 2019655,000,000
GPT-2OpenAIMar 20191,500,000,000
RoBERTaFacebookJul 2019355,000,000
Megatron-LMNVIDIASep 20198,300,000,000
T5GoogleOct 201911,000,000,000
Turing-NLGMicrosoftFeb 202017,000,000,000
GPT-3OpenAIMay 2020175,000,000,000
Megatron-Turing NLGMicrosoft, NVIDIAOct 2021530,000,000,000
GopherDeepMindDec 2021280,000,000,000

二、大模型的能力

三、大模型的有害性(上)

四、大模型的有害性(下)

五、大模型的数据

Reference

[1] 斯坦福大学CS324课程:https://stanford-cs324.github.io/winter2022/lectures/introduction/#a-brief-history
[2] CS224N lecture notes on language models

http://www.lryc.cn/news/163985.html

相关文章:

  • 【学习笔记】「2020-2021 集训队作业」Communication Network
  • 文章参考链接
  • SQLI-labs-第七关
  • 腾讯云轻量2核4G5M服务器_CPU内存_流量_带宽_系统盘
  • 从零开始搭建Apache服务器并使用内网穿透技术实现公网访问
  • unordered_map和unordered_set的使用
  • javascript【格式化时间日期】
  • CCC数字钥匙设计【NFC】--什么是AID?
  • 变压器耐压试验电压及电源容量的计算
  • uniapp实现底部弹出菜单选择
  • 14. 线性代数 - 线性方程组
  • C++QT day4
  • Python中的 if __name__ ==‘main‘
  • github 创建自己的分支 并下载代码
  • 算法:贪心---跳一跳
  • 机器学习入门教学——梯度下降、梯度上升
  • BUUCTF Reverse/[羊城杯 2020]login(python程序)
  • indexDB localForage
  • Spring Boot开发时Java对象和Json对象互转
  • C++ 多态
  • LeetCode 之 二分查找
  • 【性能测试】中间件优化
  • 【算法】查找类——二分查找算法
  • Ansible FIle模块,使用Ansible File模块进行文件管理
  • 索尼mp4变成rsv修复案例(ILME-FX3)
  • 抓拍摄像机开关量控制4K高清手机远程看图建筑生长定时缩时相机
  • c++使用http请求-drogon框架
  • 幼儿棒球运动宣传介绍·野球6号位
  • grpc多语言通信之GO和DART
  • 基于FPGA的RGB图像转Ycbcr实现,包括tb测试文件以及MATLAB辅助验证