当前位置: 首页 > news >正文

欧洲最好的AI大模型:Mistral 7B!(开源、全面超越Llama 2)

你可能已经听说过Meta(原Facebook)的Llama 2,这是一款拥有13亿参数的语言模型,能够生成文本、代码、图像等多种内容。

图片

但是你知道吗,有一家法国的创业公司Mistral AI,推出了一款只有7.3亿参数的语言模型,却能够在各种标准的英文和代码基准测试中,击败Llama 2和其他所有目前可用的开源模型。

这款神奇的语言模型就是Mistral 7B。

Mistral AI是谁?

Mistral AI是一家成立于2023年6月的法国人工智能创业公司,由前Meta和DeepMind的研究员组成。他们在6月份就获得了1.13亿美元的种子轮融资,显示出投资者对他们开源理念的信心。他们的愿景是创建一个开放、可靠、高效、可扩展、可解释和可审计的人工智能平台。

图片

Mistral 7B有什么特点?

Mistral 7B最大的特点就是它是完全开源的,没有任何使用限制。

Mistral AI认为,开源的、社区驱动的模型开发是未来的趋势,也是对抗审查和偏见等人工智能伦理挑战的最有效的方式。他们希望通过公开透明的模型,让公共机构和私营企业能够审计生成系统的缺陷,以及检测生成模型的不良用途。

Mistral 7B各项指标都十分优秀

Mistral 7B 与 Llama 2 家族模型进行了比较

图片

基准测试分类:

  • 常识推理:Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA、ARC-Easy、ARC-Challenge 和 CommonsenseQA 的 0-shot 平均值;

  • 世界知识:NaturalQuestions 和 TriviaQA 的 5-shot 平均值;

  • 阅读理解:BoolQ 和 QuAC 的 0-shot 平均值;

  • 数学:maj@8 的 8-shot GSM8K 和 maj@4 的 4-shot MATH 的平均值;

  • 代码:0-shot Humaneval 和 3-shot MBPP 的平均值;

  • 热门聚合结果:5-shot MMLU、3-shot BBH 和 3-5-shot AGI Eval(仅限英文多项选择题)。

图片

Mistral 7B能够根据特定的任务和用户需求进行定制。这对于那些希望降低成本同时保持性能的企业来说,是非常有利的。

Mistral AI还采用了一些先进的技术,如分组查询注意力(Grouped-query attention)和滑动窗口注意力(Sliding window attention),来提高推理速度和处理长序列的效率。

总结

Mistral 7B是一款开源的超大语言模型,能够超越Llama 2和其他开源模型,在各种任务上表现出惊人的能力。

Mistral 7B Instruct 模型快速演示了基本模型可以轻松微调以实现引人注目的性能。

图片

它是Mistral AI的第一个重要产品,也是他们实现开放、可靠、高效、可扩展、可解释和可审计的人工智能平台的第一步。

公司网址:

https://mistral.ai/

开发文档:

https://docs.mistral.ai/

模型地址:

https://docs.mistral.ai/llm/mistral-v0.1

欧洲最好的AI大模型:Mistral 7B!(开源、全面超越Llama 2)_腾讯新闻

http://www.lryc.cn/news/274309.html

相关文章:

  • Python | 诞生、解析器的分类版本及安装
  • vim学习记录
  • bat脚本:将ini文件两行值转json格式
  • scratch绘制小正方形 2023年12月中国电子学会图形化编程 少儿编程 scratch编程等级考试四级真题和答案解析
  • 【产品应用】一体化伺服电机在管道检测机器人中的应用
  • Django在urls.py利用函数path()配置路由时传递参数给调用的视图函数的方法
  • Ubuntu20 编译 Android 12源码
  • RFID传感器|识读器CNS-RFID-01/1S在AGV小车|搬运机器人领域的安装与配置方法
  • 用友U8 Cloud smartweb2.RPC.d XML外部实体注入漏洞
  • 220.【2023年华为OD机试真题(C卷)】考勤信息(滑动窗口算法-JavaPythonC++JS实现)
  • 2024最新SLAM实习、秋招面经(百度、华为、小米、蔚来、理想、美团、阿里菜鸟……)
  • Html5实用个人博客留言板模板源码
  • 解码 Elasticsearch 查询 DSL:利用 Elasticsearch 中的 has_child 和 has_parent 查询进行父子文档搜索
  • 架构(1)
  • 第8课 将推流端与播放端合并为一对一音视频聊天功能
  • 如何保障集团下达的政策要求有效落地
  • 霍尔传感器测速测距实验——STM32驱动(课程设计)
  • 数据库——SQL注入攻击
  • 【已解决】js定义对象属性是.如何访问
  • Linux入门攻坚——11、Linux网络属性配置相关知识1
  • 51单片机定时/计数器相关知识点
  • 机器视觉兄弟们,没有项目订单,机器视觉项目行业难题来了
  • 机器人开发--动力系统
  • 51单片机四位数码管计算器 Proteus仿真程序
  • 问题 B: 分牌
  • 3元一平方公里的在线卫星影像
  • 只会用 xxl-job?更强大的新一代分布式任务调度框架来了!
  • LeetCode-无重复字符的最长子串(3)
  • 【C#】知识点实践序列之Lock简单解决并发引起数据重复问题
  • NLP基础——TF-IDF