当前位置: 首页 > news >正文

大语言模型-大模型基础文献

大模型基础

1、Attention Is All You Need https://arxiv.org/abs/1706.03762

attention is all you need

2、Sequence to Sequence Learning with Neural Networks https://arxiv.org/abs/1409.3215

基于深度神经网络(DNN)的序列到序列学习方法

3、Neural Machine Translation by Jointly Learning to Align and Translate https://arxiv.org/abs/1409.0473

4、BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/abs/1810.04805

5、Scaling Laws for Neural Language Models https://arxiv.org/pdf/2001.08361.pdf

6、Emergent Abilities of Large Language Models https://openreview.net/pdf?id=yzkSU5zdwD

Emergent Abilities of Large Language Models

7、Training Compute-Optimal Large Language Models (ChinChilla scaling law) https://arxiv.org/abs/2203.15556

8、Scaling Instruction-Finetuned Language Models https://arxiv.org/pdf/2210.11416.pdf

Direct Preference Optimization:

9、Your Language Model is Secretly a Reward Model https://arxiv.org/pdf/2305.18290.pdf

10、Progress measures for grokking via mechanistic interpretability https://arxiv.org/abs/2301.05217

11、Language Models Represent Space and Time https://arxiv.org/abs/2310.02207

12、GLaM: Efficient Scaling of Language Models with Mixture-of-Experts https://arxiv.org/abs/2112.06905

13、Adam: A Method for Stochastic Optimization https://arxiv.org/abs/1412.6980

14、Efficient Estimation of Word Representations in Vector Space (Word2Vec) https://arxiv.org/abs/1301.3781

15、Distributed Representations of Words and Phrases and their Compositionality https://arxiv.org/abs/1310.4546

attention is all you need

基于深度神经网络(DNN)的序列到序列学习方法

Emergent Abilities of Large Language Models

http://www.lryc.cn/news/288966.html

相关文章:

  • 【RH850U2A芯片】Reset Vector和Interrupt Vector介绍
  • Zabbix交换分区使用率过高排查
  • ‘HEAD‘ 是 HTTP 请求的一种方法
  • go语言(十七)----json
  • Java笔记 --- 四、异常
  • Ubuntu20.04配置grub ,不必每次都输入 nomodeset
  • PBM模型学习(七)核化模型
  • 蓝桥小白赛4 乘飞机 抽屉原理 枚举
  • HTML新手教程
  • P1226 【模板】快速幂题解
  • 文旅游戏的多元应用场景
  • 小波变化最通俗的解释,小波变换是用来干什么的,类似小波变换功能的算法有哪些?
  • Servlet 与 MVC
  • 基于单片机的感应自动门控制器的设计
  • 兄弟HL-1208黑白激光打印机清零方法
  • 第二百八十八回
  • 【日常学习笔记】gtest
  • go-zero配置DB的redis缓存
  • 物理服务器
  • 3.3 实验三:以太网链路聚合实验
  • php mysql字段默认值使用问题
  • 【linux】Debian防火墙
  • 2022年至2023年广东省职业院校技能大赛高职组“信息安全管理与评估”赛项样题
  • CC++内存管理【非常详细,对新手友好】
  • 022-安全开发-PHP应用留言板功能超全局变量数据库操作第三方插件引用
  • 大白话解析LevelDB 3: SST Compaction
  • 【Python】02快速上手爬虫案例二:搞定验证码
  • C# 中的接口
  • 一篇文章带你了解C++中隐含的this指针
  • shardinig-JDBC二开-支持sharding-jdbc的配置文件接入到nacos