当前位置: 首页 > news >正文

评测系统构建

合成数据更“科研驱动”,强调 controllability 和 generalization evaluation:
之前往往直接采用经典数据集如OGB和OGB-large提供的经典数据集和数据划分思路
该思想从现有真实数据中学习参数,再构造类似但分布略异的数据集,验证模型泛化性能。(Large-Scale Synthetic Graph Dataset Generation Framework; MLG2023 KDD Workshop),在生成时调节各项参数以更全面的反映模型性能
graphworld则是提供了一个完全合成的数据集来反省模型效果(作者成为fake data)

NeurIPS 2024 Datasets and Benchmarks Track 更“产业/应用驱动”,强调 task relevance 和 community standard:
DrivAerNet++ 多模态汽车数据集,结合计算流体力学模拟与深度学习基准,用于自动驾驶研究。
DomainGallery 少样本图像生成数据集,强调属性驱动的微调方法。
Bench2Drive 封闭式端到端自动驾驶任务的多能力基准测试框架。
FEDMEKI 联邦学习场景下的医学基础模型扩展基准,注重知识注入。
GTSinger 面向歌唱任务的全球多技术语料库,包含真实音乐分数。
SolarCube 卫星与地面观测融合的大规模太阳能预测数据集。
CARE 酶分类与检索任务的基准套件,支持生物信息学研究。
VRSBench 面向遥感图像理解的多模态视觉语言基准数据集。
Sim2Real-Fire 森林火灾预测与回溯的多模态模拟数据集。
SciInstruct 科学语言模型训练用的自反式指令注释数据集。
HelpSteer 2 用于训练奖励模型的开源数据集,支持对齐与安全性研究。
WildPPG 长时间连续记录的真实世界脉搏波数据集,支持健康监测。
CRAG 综合检索增强生成(RAG)任务的基准数据集。
CVQA 多文化多语言视觉问答基准,覆盖全球多种语言与文化背景。
MMM-RS 多模态、多分辨率、多场景遥感图像生成基准。
UrbanDataLayer 城市科学研究的统一数据处理管道,支持多源数据融合。
DrivingDojo Dataset 交互式、知识丰富的自动驾驶世界模型数据集。

专门的NeurIPS 2024 Track Datasets and Benchmarks中:

DevBench 面向语言学习的多模态发展性基准,关注儿童语言习得过程
MedCalc-Bench 医学计算能力评估基准,用于测试 LLM 在医学推理中的表现
PRISM Alignment Dataset 多文化人类反馈数据集,用于研究 LLM 的主观性与对齐问题(best paper)
Brain Treebank 基于自然语言刺激的大规模脑电记录数据集,连接语言与神经活动
ChaosBench 用于气候预测的物理建模基准,支持多通道季节性预测任务
OpenMathInstruct-1 包含180万条数学指令的微调数据集,提升 LLM 数学能力
Embodied Agent Interface 用于评估 LLM 在具身决策任务中的表现,连接语言与行动
AgentBoard 多轮 LLM Agent 的分析性评估平台,支持行为与策略分析
LINGOLY 奥林匹克级语言推理题库,涵盖濒危语言与低资源语言
A Taxonomy of Challenges to Curating Fair Datasets 公平数据集构建挑战的系统分类,关注偏见与代表性问题

我们关注的是泛化与稳健性,不只是某个具体应用,同时 参考 DB Track 的设计理念,可以从 synthetic dataset generation 切入

http://www.lryc.cn/news/623721.html

相关文章:

  • 深入分析 Linux PCI Express 子系统
  • 计算机网络 TCP time_wait 状态 详解
  • 10 SQL进阶-SQL优化(8.15)
  • Matlab课程实践——基于MATLAB设计的计算器软件(简单、科学、电工、矩阵及贷款计算)
  • esp32(自定义分区)coredump
  • C语言私人学习笔记分享
  • 关于第一次接触Linux TCP/IP网络相关项目
  • 使用Ansys Fluent进行倒装芯片封装Theta-JA热阻表征
  • 计算机网络 OSI 七层模型和 TCP 五层模型
  • IP 分片和组装的具体过程
  • 数字货币的法律属性与监管完善路径探析
  • Trae 辅助下的 uni-app 跨端小程序工程化开发实践分享
  • 【Java后端】Spring Boot 集成 MyBatis-Plus 全攻略
  • 【昇腾】单张48G Atlas 300I Duo推理卡MindIE+WebUI方式跑14B大语言模型_20250817
  • 前端vue3+后端spring boot导出数据
  • Java 大视界 -- Java 大数据分布式计算在基因测序数据分析与精准医疗中的应用(400)
  • Linux | i.MX6ULL网络通信-套字节 UDP(第十八章)
  • 计算机网络 TCP 延迟确认机制
  • 矿物分类案列 (一)六种方法对数据的填充
  • 安卓开发者自学鸿蒙开发2页面高级技巧
  • 安卓14系统应用收不到开机广播
  • Android原生(Kotlin)与Flutter混合开发 - 设备控制与状态同步解决方案
  • Javascript面试题及详细答案150道之(106-120)
  • Python实现区域生长和RANSAC聚类
  • 职场新人如何在快速适应工作的同时保持自我成长节奏?
  • JUC常用线程辅助类详解
  • JavaScript 性能优化实战大纲
  • [GLM-4.5] LLM推理服务器(SGLang/vLLM) | 工具与推理解析器
  • c_str()函数的详细解析
  • 【PHP】Hyperf:接入 Nacos