当前位置: 首页 > news >正文

ELMO理论

目录

1  优点

2  缺点

                  3.知识点个人笔记


 

2018年3月份,ELMo出世,该paper是NAACL18 Best Paper。在之前2013年的word2vec及2014年的GloVe的工作中,每个词对应一个vector,对于多义词无能为力。ELMo的工作对于此,提出了一个较好的解决方案。不同于以往的一个词对应一个向量,是固定的。在ELMo世界里,预训练好的模型不再只是向量对应关系,而是一个训练好的模型。使用时,将一句话或一段话输入模型,模型会根据上线文来推断每个词对应的词向量。这样做之后明显的好处之一就是对于多义词,可以结合前后语境对多义词进行理解。比如apple,可以根据前后文语境理解为公司或水果

1  优点

  • 考虑上下文,针对不同的上下文生成不同的词向量。表达不同的语法或语义信息。如“活动”一词,既可以是名词,也可以是动词,既可以做主语,也可以做谓语等。针对这种情况,ELMo能够根据不同的语法或语义信息生成不同的词向量。
  • 6 个 NLP 任务中性能都有幅度不同的提升,最高的提升达到 25% 左右,而且这 6 个任务的覆盖范围比较广,包含句子语义关系判断,分类任务,阅读理解等多个领域,这说明其适用范围是非常广的,普适性强,这是一个非常好的优点。

2  缺点

  • 使用LSTM提取特征,而LSTM提取特征的能力弱于Transformer
  • 使用向量拼接方式融合上下文特征,这种方式获取的上下文信息效果不如想象中好
  • 训练时间长,这也是RNN的本质导致的,和上面特征提取缺点差不多。

 

 3.知识点个人笔记

http://www.lryc.cn/news/448041.html

相关文章:

  • EMU 街机模拟器编译方法
  • c++开发之编译curl(windows版本)
  • IT运维挑战与对策:构建高效一体化运维管理体系
  • 前海石公园的停车点探寻
  • 嵌入式学习--线性表Day01
  • Rust 全局变量的最佳实践 lazy_static/OnceLock/Mutex/RwLock
  • 【L波段差分干涉SAR卫星(陆地探测一号01组)】
  • 第五部分:6---信号的递达
  • 深入解析 ARM64 SOC RK3568的 /proc/interrupts 输出
  • Android常用C++特性之std::unique
  • Redis篇(Java操作Redis)
  • Cypress自动化Github workflow
  • Hbase高阶知识:HBase的协处理器(Coprocessor)原理、使用实例、高级技巧和案例分析
  • 海尔嵌入式硬件校招面试题及参考答案
  • Leetcode基础算法篇|202409(4)贪心算法
  • echarts 导出pdf空白原因
  • 数据结构及基本算法
  • vue3学习记录-computed
  • SQLite3模块使用详解
  • 防火墙详解(三)华为防火墙基础安全策略配置(命令行配置)
  • 假期学习--iOS中的static关键字
  • Maya没有Arnold材质球
  • 面试知识点总结篇三
  • 数据加密标准(DES)详解:原理、步骤及Python实现
  • 每日OJ_牛客_OR59字符串中找出连续最长的数字串_双指针_C++_Java
  • 虚幻引擎UE5如何云渲染,教程来了
  • 使用Python实现图形学光照和着色的光线追踪算法
  • 通过openAI的Chat Completions API实现一个支持追问的ChatGPT功能集成
  • 8,STM32CubeMX配置SPI工程(读取norflash的ID)
  • 【MATLAB源码-第178期】基于matlab的8PSK调制解调系统频偏估计及补偿算法仿真,对比补偿前后的星座图误码率。