在翻译语义相似度和会议摘要相似度评估任务中 ,分类任务 回归任务 生成任务区别
在翻译语义相似度(Translation Semantic Similarity)和会议摘要相似度(Meeting Summary Similarity)等任务中,通常会根据任务的目标和输出形式,将其划分为三类常见的任务类型:
1. 分类任务
定义:
将样本划分到有限个离散类别中的任务。
应用于相似度任务中的形式:
判断两个文本是否“语义相似”或“不相似”。
举例:
输入 A 和 B → 输出:相似(1)或不相似(0)
或输出:高相似(2)、中等(1)、低(0)
特点:
输出是离散的标签
常见指标:Accuracy(准确率)、Precision(精确率)、Recall(召回率)、F1 分数
示例应用:
判断会议摘要是否忠实于原文内容
翻译句子是否语义上与原文一致(合格 / 不合格)
2. 回归任务
定义:
输出一个连续的实数,用于表示程度或评分。
应用于相似度任务中的形式:
给出两个文本之间的相似度分数(如 0~5 分)
举例:
输入 A 和 B → 输出:相似度为 4.3 分
特点:
输出是连续数值
常见指标:MSE(均方误差)、MAE(平均绝对误差)、Pearson/Spearman 相关系数
示例应用:
翻译语义相似度评估(如 MLQE,Multilingual Quality Estimation)
会议摘要与原始会议记录之间的相似度打分(如 1~5)
3. 生成任务(生成任务不是直接评估相似度,而是作为中间步骤)
定义:
模型直接生成文本作为输出。
流程
输入句子 A
用生成模型生成句子 B'(例如摘要或翻译)
将 B' 与目标文本 B 比较:
BERTScore(B', B)
ROUGE(B', B)
COMET(B', B)
得到一个相似度得分
应用于相似度任务中的形式:
生成一段新的摘要或翻译
生成一个与原句相似的句子,用于语义对齐
特点:
输出是自然语言文本
常见指标:BLEU、ROUGE、BERTScore、ChrF、COMET、BLEURT、GEM等
示例应用:
自动生成会议摘要,并与人工摘要进行比较
生成更高质量的翻译文本进行相似性验证
小结对比表:
特性/任务类型 | 分类任务 | 回归任务 | 生成任务 |
---|---|---|---|
输出类型 | 离散标签 | 连续数值 | 自然语言文本 |
应用示例 | 相似/不相似判断 | 相似度打分 | 摘要或翻译文本生成 |
评估指标 | Accuracy, F1 等 | MSE, Pearson | BLEU, ROUGE, BERTScore 等 |
使用模型 | 分类器(如BERT+MLP) | 回归模型 | Seq2Seq, Transformer, T5 等 |
在翻译语义相似度 / 会议摘要相似度评估任务中怎么选?
任务 | 常用形式 | 推荐任务类型 |
---|---|---|
翻译语义相似度 | 预测翻译是否语义一致 | 分类 / 回归 |
会议摘要相似度 | 比较摘要与原文的忠实度、相关性 | 回归 或 分类 或 生成 |
如做质量维度评估(如 Coherence、Consistency、Fluency、Relevance),建议采用回归任务来对每个维度进行打分(如 1~5 分),也可以使用分类任务对每个维度进行高/中/低判断。如果生成摘要或自动改写翻译,就是生成任务。