第二届世界科学智能大赛逻辑推理赛道:复杂推理能力评估 #大模型技术之逻辑推理方向 #Datawhale #夏令营 <二>
第二届世界科学智能大赛逻辑推理赛道:复杂推理能力评估 #大模型技术之逻辑推理方向 #Datawhale #夏令营-CSDN博客
这里在上一篇的基础上,已经充分理解了一遍baseline的流程,并修复了一些后处理的问题,包括答案抽取,中间结果记录与重试,提问合并,问题检查等等。本篇笔记主要探索模型的效果上限,方便在后续模型调优提供案例和额外数据。
开源模型效果对比
在未改变prompt的情况下,尝试对比了一些开源模型的效果:
模型 | score |
10b以下模型 | 0.6+ |
yi-34b-chat | 0.7041 |
qwen2-72b-instruct | 0.8614 |
qwen2-72b-instruct+yi-34b-chat | 0.8630 |
这里整理了一下复赛的一些要求:
- 本赛道复赛线上推理与评测时间限制为3个小时,镜像运行服务器为单卡V100(32G显存版本)
- 复赛环境网络配置:复赛采用镜像方式进行评测,容器中无可用网络,无法进行下载安装,外部API调用等操作。请选手提前将所需软件环境,数据,模型等装进镜像,不要在镜像中写入包含网络操作的代码,否则镜像运行会卡死或中断
- 为了不影响最后一周镜像的正常提交和运行,请将提交的训练代码包整体控制在50G以内。50G以内一般的模型限制在20b之内,例如书生·浦语2-20B,模型文件为40G。Qwen1.5-14b,模型文件为30G。推荐模型使用20b以下。
- 特别说明:参赛选手可以使用开源数据,若使用了开源数据,需要在代码审核阶段提供数据来源以及相关说明。
单独从模型大小来看:
50G的存储空间支持:20B模型(fp16),40B模型(int8),80B模型(int4)
32G的显存推理支持:60B(int4),30B(int8),15B(fp16)
32G的显存Lora finetune训练支持:15B(fp16)
接下来全力投入到训练和prompt优化过程,争取把15B以下左右的模型调到0.8的效果。