当前位置: 首页 > news >正文

Qwen系列模型

在这里插入图片描述

Qwen 1 / 1.5 系列模型技术解析

通义千问(Qwen)1 系列模型采用经典的 Transformer 解码器架构,是标准的自回归大语言模型框架。在此基础上,Qwen 引入了一些改进和定制设计:

  • Transformer Decoder 架构
  • 分组查询注意力(Grouped Query Attention, GQA)
  • RoPE:
    Qwen 在实现中使用了 FP32 精度 来计算 RoPE 的频率矩阵,以确保在长上下文情况下的数值稳定性和精度。这为后续扩展上下文长度打下基础。
  • 词典输入输出投影权重不共享参数:
    实验发现这可以提升模型效果,但代价是略增内存消耗。
  • 去 Bias 处理:
    以简化模型和提高训练稳定性。但在注意力层的 Q、K、V 投影中保留了偏置。研究表明,在 QKV 添加偏置有助于增强模型长上下文外推能力(即在上下文长度超出训练范围时保持稳定的注意力分布)。
  • Pre-Norm与 RMSNorm
  • SwiGLU与FFN隐藏层从4倍到3倍:
    以配合GLU的门控机制减少参数量,但性能无明显损失。
  • NTK 插值方法和窗口化注意力策略扩展上下文长度:
    预训练时通常为2048(部分新版小模型已扩展至8192),推理阶段通过无需重新训练的技巧实现了长上下文扩展。

https://blog.csdn.net/weixin_59191169/article/details/148560050

http://www.lryc.cn/news/613668.html

相关文章:

  • 对比学习(Contrastive Learning)面试基础
  • STM32——STM32CubeMX
  • 4G/5G无线电单元系统
  • C语言:单链表学习
  • 北京-4年功能测试2年空窗-报培训班学测开-第七十天-面试第一天
  • rebase 和pull的通俗区别是什么
  • Flink与Kafka核心源码详解-目录
  • 【Unity3D实例-功能-镜头】第三人称视觉-镜头优化
  • 秋招笔记-8.7
  • iSCSI 服务器
  • 《C语言》函数练习题--3
  • 5分钟了解OpenCV
  • 【MATLAB】(十)符号运算
  • XCZU19EG-2FFVB1517I FPGA Xilinx AMD ZynqUltraScale+ MPSoC
  • 《C语言》指针练习题--1
  • Gitee上免费搭建博客
  • 从“炼金术”到“工程学”:深度学习十年范式变迁与未来十年路线图
  • UnivNet论文分析(20210615)
  • 为何毫米波需要采用不同的DPD方法?如何量化其值?
  • 机器学习之随机森林(Random Forest)实战案例
  • OpenAI 开源模型 GPT-OSS深度拆解:从1170亿参数到单卡部署,重构AI开源生态
  • Java面试宝典:类加载
  • 敏捷总结-上
  • 智能制造的中枢神经工控机在自动化产线中的关键角色
  • C++的入门学习
  • TCP粘包问题详解与解决方案
  • 如何在 Ubuntu 24.04 中永久更改主机名
  • MySQL面试题及详细答案 155道(061-080)
  • 动手学深度学习(pytorch版):第一章节——引言
  • DataEase官方出品丨SQLBot:基于大模型和RAG的智能问数系统