当前位置: 首页 > news >正文

QWEN technical report

通义千问-Qwen技术报告细节分享 - 知乎写在前面大家好,我是刘聪NLP。 阿里在很早前就开源了Qwen-7B模型,但不知道为什么又下架了。就在昨天阿里又开源了Qwen-14B模型(原来的7B模型也放出来了),同时还放出了Qwen的技术报告内容。今天特此来给大家分…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/6583926091.introduction

3万亿token,

2.pretraining

2.1 data

去重,精确匹配去重和使用MinHash和LSH模糊去重,过滤低质量的数据,采用了基于规则和基于机器学习的方法的组合,使用多个模型对内容进行评分,包括语言模型、文本质量评分模型以及用于识别有可能含有不合适的内容的模型。构建了一个高达3万亿个token的数据集。

2.2 tokenization

采用字节对编码BPE分词,使用tiktoken。在中文,增加了常用的汉字和词汇以及其它语言中的词汇,遵循llama系列的方法,将数字拆分成单个数字,最终词汇为152k。压缩率:一个汉字能够转成多少token,比如0.52个token,意味着一句话能够转成更少的token。

2.3 architecture

结构基本和llama对齐。

embedding和output project:对于embedding层和lm_head层不进行权重共享,是两个独立的权重。

positional embedding:RoPE

bias:在qkv中添加了偏差,以增强模型外推能力。

Pre-RMSNorm

激活函数:SwiGLU

2.4 training

上下文长度:2048,采用flash attention,AdamW,BFloat16

2.5 experimental results

http://www.lryc.cn/news/206976.html

相关文章:

  • 提升MODBUS-RTU通信数据刷新速度的常用方法
  • PyTorch 与 TensorFlow:机器学习框架之战
  • 超简单理解冒泡排序
  • 模拟IC设计工程师成长日记
  • 修炼k8s+flink+hdfs+dlink(六:学习namespace,service)
  • 法语导游就业前景如何?
  • iOS自动混淆测试处理笔记
  • C51--单片机中断
  • Linux中关于glibc包导致的服务器死机或者linux命令无法使用的情况
  • 艾泊宇产品战略:华为手机品牌是如何从低端到高端的
  • 视频批量AI智剪:提升剪辑效率的秘密方法
  • linux环境执行jar脚本
  • 特权同学FPGA官方全资料包括电子书下载
  • 《动手学深度学习 Pytorch版》 10.4 Bahdanau注意力
  • iOS_Crash 四:的捕获和防护
  • spring boot项目运行jar包读取包内resources目录下的文件
  • 浙大陈越何钦铭数据结构06-图1 列出连通集
  • C# Winform编程(9)网络编程
  • RabbitMQ中方法channel.basicAck的使用说明
  • Jenkins+Python自动化测试持续集成详细教程
  • Lightroom学习之路
  • Day 2 Abp框架下,MySQL数据迁移时,添加表和字段注释
  • 传智教育研究院重磅发布Java学科新研发《智慧养老》项目
  • Fiddler抓包VSCode和探索
  • Pytorch指定数据加载器使用子进程
  • 【科普】干货!带你从0了解移动机器人(六) (底盘结构类型)
  • 爆肝整理,Pytest+Allure+Jenkins自动化测试集成实战(图文详细步骤)
  • 微信批量添加好友,让你的人脉迅速增长
  • 3D模型怎么贴法线贴图?
  • QT中文乱码解决方案与乱码的原因