当前位置: 首页 > news >正文

BERT模型入门(1)BERT的基本概念

文章目录

BERT是Bidirectional Encoder Representations from Transformers的首字母简写,中文意思是:Transformer的双向编码器表示。它是谷歌发布的最先进的嵌入模型。BERT在许多NLP任务中提供了更好的结果,如问答、文本生成、句子分类等,从而在NLP领域取得了重大突破。BERT成功的一个主要原因在于它是一个基于上下文的嵌入模型,而其他流行的嵌入模型,如word2vec,则是上下文无关的。

首先,让我们了解基于上下文和上下文无关嵌入模型之间的区别。考虑以下两个句子:

句子A:He got bit by Python.

句子B:Python is a popular programming language.

通过阅读上述两个句子,我们可以理解到“Python”这个词在两个句子中的意思不同。在句子A中,“Python”指的是蛇,而在句子B中,“Python”指的是编程语言。

现在,如果我们使用word2vec这样的嵌入模型为上述两个句子中的“Python”这个词获取嵌入,那么“Python”的嵌入在两个句子中将是相同的,这使得“Python”在两个句子中的意思相同。这是因为word2vec是一个上下文无关模型,它会忽略上下文,总是为“Python”提供相同的嵌入,无论上下文如何。

与之不同,BERT是一个基于上下文的模型。它会理解上下文,然后基于上下文生成单词的嵌入。因此,对于上述两个句子,它会根据上下文为“Python”提供不同的嵌入。但这是如何工作的?BERT是如何理解上下文的?让我们更深入地探讨这个问题。

让我们以句子A为例:He got bit by Python.。首先,BERT将句子中的每个单词与句子中的所有其他单词关联起来,以理解每个单词的上下文意义。因此,为了理解“Python”这个词的上下文意义,BERT将“Python”这个词与句子中的所有单词关联起来。通过这样做,BERT可以理解句子A中的“Python”通过“咬”这个词指的是蛇,如下所示:

在这里插入图片描述

图2.1 – 将“Python”这个词与所有其他单词关联

现在,让我们看看句子B:Python is a popular programming language.

同样地,BERT将句子中的每个单词与句子中的所有单词关联起来,以理解每个单词的上下文意义。因此,BERT将“Python”这个词与句子中的所有单词关联起来,以理解“Python”这个词的意思。通过这样做,BERT理解句子B中的“Python”与编程语言有关,通过使用“编程”这个词,如下所示:

在这里插入图片描述

图2.2 – 将“Python”这个词与所有其他单词关联

因此,与word2vec这样的上下文无关模型不同,后者无论上下文如何都生成静态嵌入,BERT基于上下文生成动态嵌入。

好了,问题是BERT究竟是如何工作的?它是如何理解上下文的?现在我们有了BERT的基本概念,接下来我们将更详细地探讨BERT,并找到这些问题的答案。


感谢您的阅读,欢迎关注!


http://www.lryc.cn/news/508467.html

相关文章:

  • 致命错误: Class ‘ZipArchive‘ not found
  • 二手车交易平台开发:安全与效率的双重挑战
  • vector题目
  • 测试测试测试测试测试测试测试测试测试测试
  • Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
  • 大恒相机开发(3)—大恒相机工业检测的实际案例
  • 【泛微表单】流程相关信息修改
  • LeetCode80.删除有序数组的重复项
  • rk3568制冷项目驱动开发流程汇总(只适用于部分模块CIF DVP等,自用)
  • 费舍尔信息矩阵全面讲述
  • DALFox-一款XSS自动化扫描工具
  • Python 异步协程:从 async/await 到 asyncio 再到 async with
  • 云原生周刊:利用 eBPF 增强 K8s
  • 【pycharm】远程服务器之后如何打开终端
  • 从零创建一个 Django 项目
  • 无人零售 4G 工业无线路由器赋能自助贩卖机高效运营
  • 使用VSCode Debugger 调试 React项目
  • [创业之路-199]:《华为战略管理法-DSTE实战体系》- 3 - 价值转移理论与利润区理论
  • AWTK-WEB 快速入门(2) - JS 应用程序
  • dolphinscheduler服务注册中心源码解析(三)RPC提供者服务整合注册中心注册服务实现源码
  • 电脑不小心删除了msvcr120.dll文件怎么办?“缺失msvcr120.dll文件”要怎么解决?
  • js 深度克隆
  • 深度学习之超分辨率算法——FRCNN
  • 软件测试之压力测试【详解】
  • 电脑出现 0x0000007f 蓝屏问题怎么办,参考以下方法尝试解决
  • 分布式系统架构:限流设计模式
  • G口带宽服务器与1G独享带宽服务器:深度剖析其差异
  • Flamingo:少样本多模态大模型
  • 推荐一款免费且好用的 国产 NAS 系统 ——FnOS
  • 2025系统架构师(一考就过):案例题之一:嵌入式架构、大数据架构、ISA