当前位置：首页 > news >正文

文本生成类（机器翻译）系统评估

news 2025/8/15 23:30:40

在机器翻译任务中常用评价指标：BLEU、ROGUE、METEOR、PPL。

这些指标的缺点：只能反应模型输出是否类似于测试文本。

BLUE（Bilingual Evaluation Understudy）：是用于评估模型生成的句子(candidate)和实际句子(reference)的差异的指标。该指标由IBM于2002年提出。该指标还适用于NLP的其他场景，如：语言生成、图像标题生成、文本生成、语音识别。

Python使用NLTK库实现BLEU的计算。

ROGUE：指标是在机器翻译、自动摘要、问答生成等领域常见的评估指标。ROUGE 通过将模型生成的摘要或者回答与参考答案(一般是人工生成的)进行比较计算，得到对应的得分。

Python使用rouge库实现。

METEOR:

PPL（Perplexity）：困惑度

参考文章：

机器翻译评价指标BLEU介绍_bleu指标-CSDN博客

http://www.lryc.cn/news/497426.html

相关文章：

11.7【miniob】【debug】

OSHI 介绍与使用

Hadoop生态圈框架部署（八）- Hadoop高可用（HA）集群部署

【RocketMQ】Name Server 无状态特点及如何让 Broker Consumer Producer 感知新节点

蓝牙定位的MATLAB程序，四个锚点、三维空间

机器学习--绪论

Unity 设计模式-命令模式（Command Pattern）详解

线程信号量 Linux环境 C语言实现

karmada-descheduler

【热门主题】000075 探索嵌入式硬件设计的奥秘

Android okhttp请求

嵌入式蓝桥杯学习4 lcd移植

电子应用设计方案-38：智能语音系统方案设计

渗透测试：网络安全的深度探索

基于SpringBoot的“小区物业管理系统”的设计与实现（源码+数据库+文档+PPT)

调试android 指纹遇到的坑

剑指offer（专项突破）---字符串

【springboot】多数据源实现

多模态COGMEN详解

django 实战（python 3.x/django 3/sqlite）

图数据库 | 12、图数据库架构设计——高性能计算架构

Unity 利用Button 组件辅助Scroll View 滚动

Ubuntu 安装Ansible ansible.cfg配置文件生成

使用PaddlePaddle实现线性回归模型

MongoDB集群的介绍与搭建

PhpStorm配置Laravel

Solving the Makefile Missing Separator Stop Error in VSCode

MySQL大小写敏感、MySQL设置字段大小写敏感

项目搭建：guice,jdbc，maven

第四届新生程序设计竞赛正式赛(C语言)