当前位置: 首页 > news >正文

第二届世界科学智能大赛逻辑推理赛道:复杂推理能力评估 #大模型技术之逻辑推理方向 #Datawhale #夏令营 <二>

第二届世界科学智能大赛逻辑推理赛道:复杂推理能力评估 #大模型技术之逻辑推理方向 #Datawhale #夏令营-CSDN博客

这里在上一篇的基础上,已经充分理解了一遍baseline的流程,并修复了一些后处理的问题,包括答案抽取,中间结果记录与重试,提问合并,问题检查等等。本篇笔记主要探索模型的效果上限,方便在后续模型调优提供案例和额外数据。

开源模型效果对比

在未改变prompt的情况下,尝试对比了一些开源模型的效果:

模型score
10b以下模型0.6+
yi-34b-chat0.7041

qwen2-72b-instruct

0.8614
qwen2-72b-instruct+yi-34b-chat0.8630

这里整理了一下复赛的一些要求:

  • 本赛道复赛线上推理与评测时间限制为3个小时,镜像运行服务器为单卡V100(32G显存版本)
  • 复赛环境网络配置:复赛采用镜像方式进行评测,容器中无可用网络,无法进行下载安装,外部API调用等操作。请选手提前将所需软件环境,数据,模型等装进镜像,不要在镜像中写入包含网络操作的代码,否则镜像运行会卡死或中断
  • 为了不影响最后一周镜像的正常提交和运行,请将提交的训练代码包整体控制在50G以内。50G以内一般的模型限制在20b之内,例如书生·浦语2-20B,模型文件为40G。Qwen1.5-14b,模型文件为30G。推荐模型使用20b以下。
  • 特别说明:参赛选手可以使用开源数据,若使用了开源数据,需要在代码审核阶段提供数据来源以及相关说明。

单独从模型大小来看:

50G的存储空间支持:20B模型(fp16),40B模型(int8),80B模型(int4)

32G的显存推理支持:60B(int4),30B(int8),15B(fp16)

32G的显存Lora finetune训练支持:15B(fp16)

接下来全力投入到训练和prompt优化过程,争取把15B以下左右的模型调到0.8的效果。

http://www.lryc.cn/news/410002.html

相关文章:

  • C# 关于Linq延迟查询
  • Navicat For Mysql连接Mysql8.0报错:客户端不支持服务器请求的身份验证协议
  • 以西门子winCC为代表的组态界面,还是有很大提升空间的。
  • HomeServer平台选择,介绍常用功能
  • 记录一个k8s集群zookeeper部署过程
  • TapData 信创数据源 | 国产信创数据库 TiDB 数据迁移指南,加速国产化进程,推进自主创新建设
  • 开始写人工智能
  • 盘点.软件测试模型
  • 燃气安全无小事,一双专业劳保鞋让你步步安心!
  • springboot校园服装租赁系统-计算机毕业设计源码30824
  • 线性回归和逻辑回归揭示数据的隐藏模式:理论与实践全解析
  • 掌握采购询价软件:高效比较供应商报价的技巧
  • AMQP-核心概念-终章
  • 在WPF中使用WebView2详解
  • 僵尸进程的例子
  • 消息中间件分享
  • 12. kubernetes调度——污点Taint和容忍Toleration
  • 第100+18步 ChatGPT学习:R实现SVM分类
  • react函数学习——useState函数
  • 方天云智慧平台系统 GetCompanyItem SQL注入漏洞复现
  • C语言同时在一行声明指针和整型变量
  • thinkphp框架远程代码执行
  • 【公式】博弈论中的核心算法:纳什均衡公式解析
  • 计算机网络面试题2
  • Linux网络——深入理解传入层协议TCP
  • 快速搞定分布式RabbitMQ---RabbitMQ进阶与实战
  • 5万字长文吃透快手大数据面试题及参考答案(持续更新)
  • WordPress原创插件:启用关闭经典编辑器和小工具
  • 萝卜快跑:自动驾驶的先锋与挑战
  • 得到xml所有label 名字和数量 get_xml_lab.py,get_json_lab.py