当前位置：首页 > news >正文

文献阅读：Scaling Instruction-Finetuned Language Models

news 2025/7/14 23:34:33

文献阅读：Scaling Instruction-Finetuned Language Models
- 1. 文章简介
- 2. 实验
  - 1. 数据集 & 模型
    - 1. 数据集考察
    - 2. 使用模型
  - 2. scale up对模型效果的影响
  - 3. CoT对模型效果的影响
  - 4. 不同模型下Flan的影响
  - 5. 开放接口人工标注指标
- 3. 结论

文献链接：https://arxiv.org/abs/2210.11416

1. 文章简介

这篇文章同样是Google在上年发表的一篇同样关于大模型的工作。

在这篇文章当中，作者对Flan进行了更加细致的考察。

在这里插入图片描述

具体来说，在Flan最开始提出的时候，Flan只是用在了预训练语言模型上，但是这篇文章当中对Flan的适用范围以及使用的数据集等做了进一步的扩展研究，具体来说：

在Palm以及T5模型上测试了Flan的效果；
将Flan的数据任务进行了scale up；
将模型的size进一步进行了scale up；
加入CoT数据考察效果。

基于此，文章获得了更好的整体指标表达以及一些case如下：

在这里插入图片描述

在这里插入图片描述

下面，我们来具体看看文中的实验结果。

2. 实验

1. 数据集 & 模型

首先，我们来看一下文中使用的数据集以及模型进行一下整理。

1. 数据集考察

我们首先看一下文中使用的数据集：

在这里插入图片描述

可以看到，相较于前作Flan的62个训练任务，本文对任务进行了大幅的扩充，扩展至146个任务类型中的473个数据集以及合计1836个任务。

其中，关于CoT数据集的使用方式如下：

在这里插入图片描述

可以看到，其实就是加上引导词“by reasoning step-by-step”，然后答案当中加入推理过程。

2. 使用模型

而文中使用的模型则如下表所示：

在这里插入图片描述

可以看到，文中同时考察了自回归语言模型以及Transformer架构的T5模型，比对了不同的预训练方式以及不同的模型size下Flan的效果。

2. scale up对模型效果的影响

下面，我们首先来看一下scale up对模型效果的影响，具体包括：

模型size的scale up对模型效果的影响；
训练任务的scale up对模型效果的影响；

给出文中的实验结果如下：

在这里插入图片描述

可以看到：

随着模型size的增大，模型效果不断提升；
随着模型使用的finetune数据集的增多，模型效果也是不断提升的。

更直观的，文中还给出了上述结果的图表形式：

在这里插入图片描述

3. CoT对模型效果的影响

然后，我们来看一下CoT数据集对模型效果的影响。

同样，我们首先给出文中的实验结果表格如下：

在这里插入图片描述

可以看到：

CoT数据集对于LLM的效果总是正向的。

而在不同的benchmarks下，可以看到：

对于CoT benchmarks，CoT数据集对效果提升很明显，而对于non-CoT benchmarks，CoT数据集对于模型效果并没有太大的影响。

在这里插入图片描述

另外文中还在BBH数据集上考察了CoT对于Zero-Shot的影响，得到结果如下图所示：

在这里插入图片描述

可以看到：

对于不加入Flan训练的Palm模型，CoT文本的加入并不能够带来效果的提升；
对于Flan之后的Palm模型，CoT能够明显的提升模型的效果；
Flan本身也能够给模型带来足够的效果提升。

最后，文中还给了几个具体的case如下：

在这里插入图片描述

4. 不同模型下Flan的影响

除了在自回归语言模型的情况下，文中还对T5进行了考察，看了一下T5这种完形填空式的预训练方式得到的大模型对于Flan以及CoT数据集的兼容性，得到结果如下：

在这里插入图片描述

5. 开放接口人工标注指标

最后，文章使用人工标注结果对比了Flan-PaLM以及PaLM模型的效果，得到结果如下：

在这里插入图片描述

可以看到：

Flan-PaLM的效果确实是优于PaLM的。

3. 结论

综上，文章进一步考察了Flan以及CoT在大模型中的效果，整体上可以看到：

Flan和CoT对于模型效果都是正向的影响，且目前看起来还没有到顶；
Flan以及CoT除了在自回归模型上有效之外，在T5上面同样有效，但是前者似乎效果更好。

不过还是那个说法，大模型现在真就是看着玩玩了，完全不可本地服务化，也不可能自己去跑这看效果，这能通过外部接口访问了，大概就只能作为旁观者看他们玩了……

http://www.lryc.cn/news/4117.html

相关文章：

mysal第三次作业

C++之异常处理

牛客寒假集训营6 E 阿宁的生成树

嵌入式C基础知识（10）

TC3xx FlexRay™ 协议控制器 (E-Ray)-01

优劣解距离法TOPSIS——清风老师

【Unity3D】Shader常量、变量、结构体、函数

LeetCode 刷题系列 -- 496. 下一个更大元素 I

Docker 搭建本地私有仓库

XML中的CDATA且mybatis中特殊字符转义

位运算 | 1356. 根据数字二进制下 1 的数目排序

React Hooks之useState详解

选购交换机的参数依据和主要的参数指标详解

Connext DDS属性配置参考大全（1）

刷题记录:牛客NC20279[SCOI2010]序列操作

Fluent Python 笔记第 6 章使用一等函数实现设计模式

windbg-应用层实时调试

【Python语言基础】——Python NumPy 数组索引

MWORKS--MoHub介绍

Netty零拷贝机制

C++：提高篇：栈-寄存器和函数状态：windows X86-64寄存器介绍

MyBatis-Plus入门案例

适用于 Windows 11/10/8/7 的 10 大数据恢复软件分享

在线支付系列【23】支付宝支付接入指南

linux系统常用命令

面试（十一）new与delete（整理）及内存泄露

2D图像处理：2D ShapingMatching_缩放_旋转_ICP_显示ROI