当前位置: 首页 > news >正文

谷歌开源Gemma-2 百亿参数大模型,性能超越Llama-3模型,免费使用

Gemma 模型

Gemma模型是谷歌发布的一个开源模型,任何人都可以免费下载预训练模型,进行使用。而谷歌最近也发布了Gemma 2 模型,模型参数超过了 200 亿大官,果真大模型最后都是拼参数的时候吗。

Gemma 2 模型发布

Gemma 2 模型可以免费在 Google AI Studio上使用,且Google AI Studio上不仅支持Gemma 2模型,还支持Gemini 系列模型,包含Gemini 1.0 pro,Gemini 1.5 pro,Gemini 1.5flash 等模型。当然喜欢代码的小伙伴,也可以直接使用keras-nlp使用Gemma 2 模型。

Gemma 2 在 Google AI studio 中免费使用

刚开始学习 transformer 模型时,其 d_model的维度一直是 512 维度,而现在的大模型为了更加学习到相关的语义信息,除了堆叠更多的 transformer 模块外,还更加了多头注意力机制的维度与头数,更是增加了 embedding 的维度。而Gemma 2 模型embedding 维度最大到达了 4608,可想而知,其模型计算参数是何其的庞大。

Gemma 2 模型参数

与meta 最大的开源模型 llama3 对比,其Gemma 2 90 亿参数的模型已经超越了 llama3 大模型,而 270 亿参数的Gemma 2模型,其性能也是有了大的飞跃。

Gemma 2 与其他开源模型性能对比

Gemma 2模型是Gemma 系列模型的最新版本,其模型新增加了两项功能强大且高效的新功能,并内置了安全方面的改进,任何人可以免费使用Gemma 2模型。可以在Google AI 界面上,点击使用入门进行使用,也可以直接在 Google AI studio 中直接使用。

Gemma 1: 轻量级的文本到文本的模型,仅仅使用了 transformer 模型的解码器,基于大型文本,代码,与数学内容进行模型训练,适用于各种自然语言处理任务。

RecurrentGamma: 从模型名字可以看出,此版本 gemma模型是一个循环神经网络的模型,此模型大大提高了内存的使用效率。

PaliGemma: 此模型是一个开放的视觉语言模型,其灵感来源PaLl-3,一个多模态模型。

CodeGemma:此模型是最初训练的一个模型,其提供强大的代码补全和生成功能,其模型可以直接在本地使用。

Gemma的开源系列已经增加了多种模型,可以直接使用此模型,当然Gemma系列的模型都可以直接使用代码使用,其Gemma-2 的代码如下:

!pip install -U keras-nlp
!pip install -U keras
import keras
import keras_nlp
import numpy as np
gemma_lm = keras_nlp.models.GemmaCausalLM.from_preset("gemma2_instruct_27b_en")
gemma_lm.generate("Keras is a", max_length=30)
gemma_lm.generate(["Keras is a", "I want to say"], max_length=30)

模型直接使用keras_nlp加载预训练模型,然后就可以输入文本进行模型的相关预测功能了。所有开发者可以在 kaggle上面进行模型的使用,且可以直接在 Google cloud上面进行模型的训练与部署工作。

https://www.kaggle.com/models/google/gemma-2/
https://ai.google.dev/gemma?hl=zh-cn
https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技

 动画详解transformer  在线教程

 

http://www.lryc.cn/news/426879.html

相关文章:

  • 人工智能与机器学习原理精解【12】
  • openEuler系统安装Visual Studio Code
  • Qt 系统相关 - 事件
  • Ubuntu最小化命令行系统 安装GUI 远程桌面
  • Web前端:CSS篇(二)背景,文本,链接
  • ubuntu 24.04 软件源配置,替换为国内源
  • 【Java 并发编程】(三) 从CPU缓存开始聊 volatile 底层原理
  • YOLOV8网络结构|搞懂Backbone-Conv
  • Elasticsearch Nested类型详解与实战
  • 网络编程,网络协议,UDP协议
  • 每日一题——第六十三题
  • 人工智能算法,图像识别技术;基于大语言模型的跨境商品识别与问答系统;图像识别
  • 数据库系统 第18节 数据库安全
  • Golang | Leetcode Golang题解之第338题比特位计数
  • 【Python变量简析】
  • 智慧零售模式下物流优化与开源AI智能名片S2B2C商城系统的深度融合
  • socket和websocket 有什么区别
  • 亿玛科技:TiDB 6.1.5 升级到 7.5.1 经验分享
  • 8.16-ansible的应用
  • 相似度计算方法-编辑距离 (Edit Distance)
  • 初识FPGA
  • 探索 JavaScript:从入门到精通
  • 这4款视频压缩软件堪称是压缩界的神器!
  • 【ARM 芯片 安全与攻击 5.6 -- 侧信道与隐蔽信道的区别】
  • C#:Bitmap类使用方法—第4讲
  • Vue是如何实现nextTick的?
  • rabbitmq镜像集群搭建
  • 《c++并发编程实战》 笔记
  • 57qi5rW35LqRZUhS pc.mob SQL注入漏洞复现
  • 微信小程序--27(自定义组件4)