当前位置: 首页 > news >正文

『大模型笔记』如何让小型语言模型发挥作用!

如何让小型语言模型发挥作用!

文章目录

  • 一. 如何让小型语言模型发挥作用!
    • 不可能的可能性
    • 小模型的潜力
    • 创新方法与突破
    • 实践与验证
    • 过滤系统与数据质量
    • 小模型的逐步改进
    • 信息理论蒸馏方法(新工作InfoSum)
    • 总结与展望
    • Infini-Gram与N-gram模型的新时代
    • 后缀数组与高速计算
  • 二. 参考文献

  • 作者主页:https://homes.cs.washington.edu/~yejin/

一. 如何让小型语言模型发挥作用!

在这里插入图片描述

不可能的可能性

好吧,我今天要与你分享一些看似不可能的可能性。去年,有人问Sam Altman,印度的初创企业如何为印度创建基础模型时,他回答说:“不用费心了,这是没有希望的。”哇。首先,我希望印度的初创企业没有因此放弃,也不会放弃。其次,这种对话可能发生在任何地方。在美国的任何大学、初创企业或研究机构,即使它们没有那么多计算资源。所以,这里介绍一种“不可能的蒸馏”方法。如何以环保的方式训练你的小型语言模型,并且效果堪比大型模型。

目前,我们听到的成功配方是极大规模的预训练,然后是极大规模的后训练,如RLHF(人类反馈强化学习)

http://www.lryc.cn/news/379766.html

相关文章:

  • jnp.diag
  • bert文本分类微调笔记
  • 运维:k8s常用命令大全
  • PHP基础之错误与异常
  • 详解Spring AOP(一)
  • 读者写者问题(读者优先、公平竞争、写者优先)
  • Springboot开发之 Excel 处理工具(二)-- Easyexcel
  • 6月27日云技术研讨会 | 中央集中架构新车型功能和网络测试解决方案
  • 微信小程序生命周期
  • 【JS重点15】原型对象概述
  • Java之Hutool/Guava/Apache Commons工具包项目实践
  • 哈喽GPT-4o——对GPT-4o 提示词的思考与看法
  • 《计算机英语》 Unit 3 Software Engineering 软件工程
  • 2024-6-18(沉默Spring,Springboot)
  • Java热部署:让应用更新如丝般顺滑,告别繁琐重启!
  • 微信小程序毕业设计-小区疫情防控系统项目开发实战(附源码+论文)
  • PyTorch -- RNN 快速实践
  • SpringBoot 快速入门(保姆级详细教程)
  • 【第18章】Vue实战篇之登录界面
  • [C++]使用C++部署yolov10目标检测的tensorrt模型支持图片视频推理windows测试通过
  • 分享uniapp + Springboot3+vue3小程序项目实战
  • Ubuntu 24.04安装zabbix7.0.0图形中文乱码
  • MybatisPlus 调用 原生SQL
  • 1.SG90
  • 【yolov8语义分割】跑通:下载yolov8+预测图片+预测视频
  • 基于STM8系列单片机驱动74HC595驱动两个3位一体的数码管
  • Jlink下载固件到RAM区
  • Kotlin基础——Typeclass
  • DC-DC 高压降压、非隔离AC-DC、提供强大的动力,选择优质电源芯片-(昱灿)
  • GPT-4o的视觉识别能力,将绕过所有登陆的图形验证码