当前位置: 首页 > news >正文

自然语言处理学习中英文翻译语料库

在自然语言处理(NLP)领域,学习中英文翻译需要高质量的双语语料库。以下是一些常用的中英文翻译语料库资源:

OpenSubtitles:
网站: OpenSubtitles
描述:OpenSubtitles 提供了大量的电影和电视剧字幕,包含多种语言。通过这些字幕,研究人员可以获取不同语言的对齐语料。

TED Talks Parallel Corpus:
网站: TED Talks
描述:TED 讲座的翻译语料库包含多语言版本的 TED 讲座字幕,可以用于机器翻译和其他 NLP 任务。

UM-Corpus:
网站: UM-Corpus
描述:UM-Corpus 是澳门大学提供的中英双语语料库,包含了多领域的文本。
Chinese-English Parallel Corpora:

网站: Chinese-English Parallel Corpora
描述:由宾夕法尼亚大学语言数据联盟(LDC)提供,包含多种类型的文本对齐语料。
Tatoeba Project:

网站: Tatoeba
描述:Tatoeba 是一个开放的多语言句子库,包含大量的中英文对照句子。
CCMT Corpus:

网站: CCMT
描述:中国计算机学会机器翻译评测(CCMT)提供的平行语料,用于机器翻译研究。
AI Challenger:

网站: AI Challenger
描述:AI Challenger 提供的中英文翻译比赛数据集,包含多领域的双语文本。
WMT (Workshop on Machine Translation) Corpora:

网站: WMT
描述:WMT 每年都会发布用于机器翻译比赛的双语语料库,涵盖多种语言对,包括中英文。
使用这些语料库可以帮助你在中英文翻译任务中进行模型训练和评估。如果你有特定需求或领域,可以选择相应的语料库进行研究和实践。

WIT3 是“转录和翻译演讲网络清单”的缩写,是 TED 演讲多语言转录的现成版本,可用于研究目的。
北外语料库语言学

http://www.lryc.cn/news/362419.html

相关文章:

  • 可视化数据科学平台在信贷领域应用系列二:数据清洗
  • JS面试题:hash和history的区别
  • GEE案例——归一化差异水体指数丰水期、枯水期的水域面积和水深分析(青海湖为例)
  • 机器视觉检测--相机
  • 【人工智能】第四部分:ChatGPT的技术实现
  • 小程序配置自定义tabBar及异形tabBar配置操作
  • 解析《动物园规则怪谈》【逻辑】
  • 上传RKP 证书签名请求息上传到 Google 的后端服务器
  • Debian和ubuntu 嵌入式的系统的 区别
  • HTML旋转照片盒子
  • 【UE5 刺客信条动态地面复刻】实现无界地面01:动态生成
  • AI产品经理系列-如何使用kimi快速撰写用户故事(含提示词)
  • MySQL索引与事务
  • 『大模型笔记』从基础原理出发提升深度学习性能
  • 【二叉树】Leetcode 222. 完全二叉树的节点个数【简单】
  • golang界面设计器,全网少见
  • 如何在GlobalMapper中加载高清卫星影像?
  • 【机器学习】解锁AI密码:神经网络算法详解与前沿探索
  • Java如何实现pdf转base64以及怎么反转?
  • 动态规划5:62. 不同路径
  • Python编程学习第一篇——Python零基础快速入门(五)-列表(List)
  • c# - 运算符 << 不能应用于 long 和 long 类型的操作数
  • 问题排查|记录一次基于mymuduo库开发的服务器错误排查(回响服务器无法正常工作)
  • 中介模式实现聊天室
  • 游戏开发与游戏设计区别
  • 卡尔曼滤波算法的matlab实现
  • Unity Obi Rope失效
  • 基于Nginx和Consul构建自动发现的Docker服务架构——非常之详细
  • Gnu/Linux 系统编程 - 如何获取帮助及一个演示
  • ffmpeg 的sws_scale接口函数解析