当前位置: 首页 > news >正文

Mistral 7B 比Llama 2更好的开源大模型 (三)

Mistral 7B 比Llama 2更好的开源大模型
Mistral 7B是一个70亿参数的语言模型,旨在获得卓越的性能和效率。Mistral 7B在所有评估的基准测试中都优于最好的开放13B模型(Llama 2),在推理、数学和代码生成方面也优于最好的发布34B模型(Llama 1)。Mistral 7B模型利用分组查询注意力(GQA)进行更快的推理,再加上滑动窗口注意力(SWA),在降低推理成本的情况下有效处理任意长度的序列。

本文学习分组查询注意力(GQA)的论文: GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
论文链接:
https://arxiv.org/abs/2305.13245

在这里插入图片描述

摘要

只使用单个键值头的多查询注意力(MQA)大大加快了解码器推理的速度。然而,MQA可能会导致质量下降,而且更严重的是,为了更快的推理而训练单独的模型可能是不可取的。论文(1)提出了一种使用5%的原始预训练计算将现有的多头语言模型检查点升级为具有MQA的模型的方法,以及(2)引入分组查询注意力(GQA),这是多查询注意力的一种推广,它使用中间数量(多于一个,少于查询头的数量)的键值

http://www.lryc.cn/news/232139.html

相关文章:

  • 关于 Git 你了解多少?
  • 关于Elasticsearch的自动补全、数据同步和集群,以下是相关的知识点
  • linux套接字-Socket
  • debian 修改镜像源为阿里云【详细步骤】
  • 从0到0.01入门React | 004.精选 React 面试题
  • Linux 本地zabbix结合内网穿透工具实现安全远程访问浏览器
  • 【以图会意】文件系统从外存到内存到用户空间
  • 一、交换配置
  • 验证码:EasyDL 机器学习识别与云码平台一站式识别
  • postgreSQL中的高速缓存
  • 我把MySQL运行在Docker上,差点完了……
  • 【华为OD题库-023】文件目录大小-java
  • 4. 【自动驾驶与机器人中的SLAM技术】点云中的拟合问题和K近邻
  • 正点原子嵌入式linux驱动开发——Linux ADC驱动
  • 自动化测试介绍和分类,看这一篇就够了
  • Debian中执行脚本 提示没有那个文件或目录
  • 放松鸭-技术支持
  • Vue 报错error:0308010C:digital envelope routines::unsupported
  • Android 9.0 隐藏设置中一级菜单“已连接的设备”
  • Hive开窗函数根据特定条件取上一条最接近时间的数据(根据条件取窗口函数的值)
  • 指针与函数
  • GBase8a-GDCA-第二次阶段测试
  • Go 理解零值
  • SQL编写规范【干货】
  • 2.5 Windows驱动开发:DRIVER_OBJECT对象结构
  • [ubuntu]ubuntu上安装jdk1.8教程
  • 金蝶云星空其他出库单保存提示序列号不一致
  • FBI:皇家勒索软件要求350名受害者支付2.75亿美元
  • Layout工程师们--Allegro X AI实现pcb自动布局布线
  • Hive入门--学习笔记