当前位置: 首页 > news >正文

MT-Metrics

MT-Metrics 是一类用于评估生成文本质量的指标,最初用于机器翻译任务,后来扩展到生成任务(如对话生成、文本摘要等)。它的核心思想是通过比较生成文本与参考文本之间的相似性(如词汇重叠、句法结构、语义相似性)来评估生成质量。

原理
  1. BLEU(Bilingual Evaluation Understudy)

    • 定义:BLEU 通过计算生成文本与参考文本之间的 n-gram 重叠程度来评估生成质量。
    • 公式
      BLEU = BP × exp ⁡ ( ∑ n = 1 N w n log ⁡ p n ) \text{BLEU} = \text{BP} \times \exp\left(\sum_{n=1}^{N} w_n \log p_n\right) BLEU=BP×exp(n=1Nwnlogpn)
      其中:
      • BP \text{BP} BP 是 brevity penalty(惩罚过短的生成文本)。
      • p n p_n pn 是 n-gram 的精确率。
      • w n w_n wn 是权重。
    • 示例
      • 生成文本与参考文本有 4 个相同的单词,BLEU 分数会较高。
  2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

    • 定义:ROUGE 通过计算生成文本与参考文本之间的词汇重叠(尤其是召回率)来评估生成质量。
    • 公式
      ROUGE = 生成文本与参考文本的词汇重叠数 参考文本的词汇总数 \text{ROUGE} = \frac{\text{生成文本与参考文本的词汇重叠数}}{\text{参考文本的词汇总数}} ROUGE=参考文本的词汇总数生成文本与参考文本的词汇重叠数
    • 示例
      • 生成文本与参考文本有 5 个相同的单词,参考文本共有 10 个单词,则 ROUGE 分数为 50%。
  3. METEOR

    • 定义:METEOR 结合精确匹配、同义词匹配和句法结构匹配,评估生成文本的质量。
    • 公式
      METEOR = 精确匹配数 + 同义词匹配数 + 句法匹配数 生成文本的词汇总数 \text{METEOR} = \frac{\text{精确匹配数} + \text{同义词匹配数} + \text{句法匹配数}}{\text{生成文本的词汇总数}} METEOR=生成文本的词汇总数精确匹配数+同义词匹配数+句法匹配数
    • 示例
      • 生成文本与参考文本有 3 个精确匹配、2 个同义词匹配,生成文本共有 10 个单词,则 METEOR 分数为 50%。
  4. BERTScore

    • 定义:BERTScore 基于预训练的 BERT 模型,计算生成文本与参考文本之间的语义相似性。
    • 公式
      BERTScore = 1 N ∑ i = 1 N cosine_similarity ( BERT ( w i ) , BERT ( w i ′ ) ) \text{BERTScore} = \frac{1}{N} \sum_{i=1}^{N} \text{cosine\_similarity}(\text{BERT}(w_i), \text{BERT}(w_i')) BERTScore=N1i=1Ncosine_similarity(BERT(wi),BERT(wi))
      其中:
      • w i w_i wi 是生成文本的单词。
      • w i ′ w_i' wi 是参考文本的单词。
    • 示例
      • 生成文本与参考文本的语义相似性较高,BERTScore 分数较高。
适用场景
  • 开放性问题:例如生成任务(对话生成、文本摘要、故事生成等)。
  • 无标准答案的任务:例如创意写作、长文本生成等。
http://www.lryc.cn/news/544193.html

相关文章:

  • 【数据结构第十六节】实现链式结构二叉树(详细递归图解—呕心沥血版!)
  • 【Python爬虫(100)】从当下到未来:Python爬虫技术的进阶之路
  • Vue-Flow绘制流程图(Vue3+ElementPlus+TS)简单案例
  • CNN:卷积网络中设计1×1夹在主要卷积核如3×3前后的作用
  • esp8266 rtos sdk开发环境搭建
  • 【深度学习】矩阵的核心问题解析
  • DeepSeek模型昇腾部署优秀实践
  • 从 Spring Boot 2 升级到 Spring Boot 3 的终极指南
  • mysql架构查询执行流程(图解+描述)
  • 20分钟 Bash 上手指南
  • 事故02分析报告:慢查询+逻辑耦合导致订单无法生成
  • vant2 vue2 两个输入框联动验证遇到的问题
  • 硬件工程师入门教程
  • 如何使用Docker搭建哪吒监控面板程序
  • python-leetcode 45.二叉树转换为链表
  • uni小程序wx.switchTab有时候跳转错误tab问题,解决办法
  • 【一起学Rust | 框架篇 | Tauri2.0框架】在Tauri应用中设置Http头(Headers)
  • STM32G473VET6 在 Keil MDK 下手动移植 FreeRTOS 指南
  • 波导阵列天线 学习笔记11双极化全金属垂直公共馈电平板波导槽阵列天线
  • DeepSeek-R1自写CUDA内核跑分屠榜:开启GPU编程自动化新时代
  • 001 Kafka入门及安装
  • 2024 年出现的 11 大数据收集趋势
  • 动态内容加载的解决方案:Selenium与Playwright对比故障排查实录
  • OSPF BIT 类型说明
  • java excel xlsx 增加数据验证
  • React + TypeScript 数据血缘分析实战
  • 魔搭 ModelScope 模型下载
  • WorldQuant Brain的专属语言——Fast Expression
  • 在低功耗MCU上实现人工智能和机器学习
  • MSSQL2022的一个错误:未在本地计算机上注册“Microsoft.ACE.OLEDB.16.0”提供程序