当前位置: 首页 > news >正文

Datawhale 2024 年 AI 夏令营第二期——基于术语词典干预的机器翻译挑战赛

#AI夏令营 #Datawhale #夏令营

1.赛事简介

目前神经机器翻译技术已经取得了很大的突破,但在特定领域或行业中,由于机器翻译难以保证术语的一致性,导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果,可以通过术语词典进行纠正,避免了混淆或歧义,最大限度提高翻译质量。

2.赛事任务

基于术语词典干预的机器翻译挑战赛选择以英文为源语言,中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据,还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练,并基于测试集以及术语词典,提供最终的翻译结果,数据包括:

·训练集:双语数据:中英14万余双语句对

·开发集:英中1000双语句对

·测试集:英中1000双语句对

·术语词典:英中2226条

3.baseline

(1)对中英双语句对进行分词:

import nltk
import jieba
def read_file(filepath):with open(filepath, 'r', encoding='utf-8') as file:lines = file.readlines()return lines# 分词英语文本
def tokenize_en(lines):return [' '.join(nltk.word_tokenize(line)) for line in lines]# 分词中文文本
def tokenize_zh(lines):return [' '.join(jieba.cut(line)) for line in lines]

(2)统计句长分布

train_en.tok

train_zh.tok

句长普遍较短,且中英句长分布有区别。

(3)filter

利用分词后的语料训练源语言和目标语言的语言模型,打分后删除低分语句。

(4)训练

http://www.lryc.cn/news/400762.html

相关文章:

  • Qt 多窗体、复用窗口的使用
  • python 基础语法整理
  • 【Linux】常见指令(下)
  • jvm常用密令、jvm性能优化、jvm性能检测、Java jstat密令使用、Java自带工具、Java jmap使用
  • 实验三:图像的平滑滤波
  • VUE前端HTML静默打印(不弹出打印对话框)PDF简单方案
  • 大数据hive表和iceberg表格式
  • flutter 手写 TabBar
  • 一个引发openssl崩溃问题案例
  • 如何申请抖音本地生活服务商?3种方式优劣势分析!
  • 【项目-轻量级Web Server lock类】
  • 数据分析_计划
  • LDAPWordlistHarvester:基于LDAP数据的字典生成工具
  • dhtmlx-gantt甘特图数据展示
  • 《云原生安全攻防》-- 容器攻击案例:Docker容器逃逸
  • 初学者指南:如何搭建和配置 Nginx 服务器
  • [AHK] WinHttpRequest.5.1报错 0x80092004 找不到对象或属性
  • `speech_recognition` 是一个流行的库
  • MFC Ribbon菜单 - 中英文实时切换方法
  • MFC程序创建word,创建表格,写入数据
  • FPGA:基于复旦微FMQL10S400 /FMQL20S400 国产化核心板
  • centos下使用yum安装keepalived工具
  • 无人机图像目标检测
  • JSqlParser 解析 sql
  • Vue中使用mind-map实现在线思维导图
  • ChatGPT 深度解析:技术驱动的智能对话
  • Armv8-R内存模型详解
  • Python面经
  • 海外ASO:iOS与谷歌优化的相同点和区别
  • 【C++题解】1168. 歌唱比赛评分