当前位置: 首页 > news >正文

Meta Semantic Template for Evaluation of Large Language Models

本文是LLM系列文章,针对《Meta Semantic Template for Evaluation of Large Language Models》的翻译。

大型语言模型评估的元语义模板

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法
  • 4 实验
  • 5 结论

摘要

大型语言模型(llm)是否真正理解语言的语义,或者只是记住训练数据?最近对LLM潜在数据污染的关注,提高了社会对LLM评估研究的认识。在本文中,我们提出了MSTEMP,一种创建元语义模板来评估llm语义理解能力的方法。MSTEMP的核心不是直接对现有的基准数据集进行评估,而是以现有的数据集为种子生成新的out-of-distribution (OOD)评估集。具体来说,对于给定的句子,MSTEMP利用另一种语言模型来生成新的样本,同时保留其语义。这些新样本被称为原句子的语义模板。然后,MSTEMP通过句子解析和语义模板上的随机单词替换生成评估样本。MSTEMP具有高度的灵活性、动态性和成本效益。我们的初步实验表明,mstemp生成的样本可以显著降低使用现有数据集作为种子的llm的性能。我们希望这一初步工作能够对LLM评价的未来研究有所启发。

1 引言

2 相关工作

3 方法

4 实验

5 结论

本文提出了一种基于给定种子数据集生成语义保持样本的llm评估方法MSTEMP。MSTEMP有可能通过使用额外的评估器LMs和替换模板中的单词来生成OOD样本,从而减少数据污染的可能性。我们希望这一初步工作能够分享我们对LLM评估研究的一些最新发现,并启发未来的新方法。

http://www.lryc.cn/news/188225.html

相关文章:

  • Git相关知识(1)
  • pytorch中nn.DataParallel多次使用
  • 制作电商页面(Html)
  • Android Sutdio依赖Snapshot版本,无法同步最新的包
  • Feign调用异常触发降级捕获异常
  • Springboot 音乐网站管理系统idea开发mysql数据库web结构java编程计算机网页源码maven项目
  • 微信支付v2-02
  • 企业的销售活动是什么?CRM销售管理系统给你答案
  • 【PG】PostgreSQL参数格式 配置文件格式
  • 应用层协议 HTTP
  • Springboot+vue的应急救援物资管理系统,Javaee项目,springboot vue前后端分离项目。
  • 创建properties资源文件,并由spring组件类获取资源文件
  • 你知道npm、yarn、pnpm的区别吗?
  • 利用excel表格进行分包和组包
  • Go 语言切片扩容规则是扩容2倍?1.25倍?到底几倍
  • 突破封锁|华为芯片10年进化史:从K3V1到麒麟9000S
  • vue建项目
  • 天龙八部服务端Public目录功能讲解
  • 好用的Java工具类库—— Hutool
  • IDEA的使用(三)Debug(断点调试)(IntelliJ IDEA 2022.1.3版本)
  • 285_C++_web提取AI告警信息JSON格式
  • (Qt5Gui.dll)处(位于 xxx.exe 中)引发的异常: 0xC0000005: 读取位置 XXXXXXXX 时发生访问冲突
  • AI:11-基于深度学习的鱼类识别
  • c#学习系列相关之多线程(三)----invoke和begininvoke
  • 如何使用 ONLYOFFICE API 转换办公文档格式
  • 最新抖音去水印PHP源码 非第三方接口
  • MYSQL 高级SQL语句(二)
  • 本地计算机端口显示CLOSE_WAIT、TIME_WAIT、ESTABLISHED、三种情况的区别
  • 粘性文本整页滚动效果
  • 【Oracle】Oracle系列十九--Oracle的体系结构