当前位置: 首页 > news >正文

LLaMA模型的发布与创新潮流

时间线从2023年2月24日开始,Meta推出了LLaMA模型,虽然开源了代码,却没有开源模型权重。LLaMA模型可以说是相对较小的,拥有7B、13B、33B和65B参数的几种版本,训练时间相对较长,因此相对于其大小而言能力强大。

不久后的3月3日,LLaMA肆意泄露给公众。尽管现有许可证禁止将其用于商业目的,但从此以后,任何人都能够进行实验,加速了创新的步伐。

3月12日,Artem Andreenko把模型在树莓派上运行起来,此行动虽然实用性有限,却为后续的模型缩小化努力奠定了基础。

次日3月13日,斯坦福发布了Alpaca模型,对LLaMA进行了指令调整。更重要的是,他们采用低秩微调(low rank fine-tuning),使得在单个RTX 4090显卡上数小时内完成训练成为可能。

3月18日,Georgi Gerganov使用4比特量化技术,使LLaMA在MacBook CPU上快速运行,实现了首个足够快速且无需GPU的实用方案。

第二天,一个跨大学合作团队发布了Vicuna模型,并声称与GPT-4有类似的性能。评估方法尽管存在疑问,模型的确比早期版本有实质性提升,训练成本仅300美元。

3月25日,Nomic创建了GPT4All——一个模型和生态系统,我们首次看到不同模型(包括Vicuna)集中在一个地方。训练成本为100美元。

同月28日,Cerebras对GPT-3结构进行了训练,利用了Chinchilla提供的最优计算时间表和μ-参数化的最优缩放,性能大幅超越现有的GPT-3克隆模型。

该天还出现了采用Parameter Efficient Fine Tuning (PEFT)技术并在一小时内引入指令调整和多模态能力的LLaMA-Adapter,设置了ScienceQA多模态任务的新标准。

4月3日,伯克利发布了完全使用公开数据训练的对话模型Koala,存在用户在该模型与ChatGPT之间难以区分的情况,超过一半的情况下用户更喜欢Koala或没有偏好,培训成本100美元。

到了4月15日,Open Assistant推出了一个模型和数据集,用于通过RLHF实现对齐。他们的模型在人类偏好方面非常接近ChatGPT (48.3%对51.7%)。更重要的是,因为数据集是公开的,所以即使对于小型实验者来说,使用RLHF也从难以实现变得既便宜又容易。

该文概况了2023年初LLaMA模型发布后的一系列重要发展,包括围绕模型的创新应用、培训成本的显著降低和开源生态系统的建立,突显出人工智能语言模型领域的快速演变和广泛影响。

http://www.lryc.cn/news/311771.html

相关文章:

  • Python之Web开发初学者教程—ubuntu中安装配置redis
  • 如何在Vue中进行单元测试?
  • 开源组件安全风险及应对
  • nginx出现 “414 request-uri too large”
  • 堆和二叉树的动态实现(C语言实现)
  • Vue前端+快速入门【详解】
  • day06_菜单管理(查询菜单,添加菜单,添加子菜单,修改菜单,删除菜单,角色分配菜单,查询菜单,保存菜单,动态菜单)
  • 探究与以太坊智能合约的交互
  • Windows如何安装docker-desktop
  • 芯片设计后端遇到的各种文件类型和文件后缀
  • 【Web】Java反序列化之CC7链——Hashtable
  • NumPy数据处理详解的笔记2
  • xsslabs第四关
  • Qt下使用modbus-c库实现PLC线圈/保持寄存器的读写
  • C++ 滑动窗口
  • 【深度学习】TensorFlow基础介绍
  • springcloud:3.3测试重试机制
  • 【笔记】【电子科大 离散数学】 3.谓词逻辑
  • 倍增算法C++
  • uniapp制作--进步器的选择
  • 前端高频面试--查缺补漏篇
  • 【计算机学习】-- 网页视频加速
  • 系统运维-Linux配置C、C++、Go语言编译环境
  • 【设计模式】(二)设计模式六大设计原则
  • go-zero官网
  • Redis的应用场景以及常见问题(持续更新)
  • 前端添加压缩包内文件名称校验
  • redis02 安装
  • #QT(QT时钟)
  • T-RAG:结合实体检测的增强检索生成模型