当前位置: 首页 > news >正文

关于人工智能AI>ML>DL>transformer及NLP的关系

一、AI、ML、DL、NLP的极简概念

1、人工智能(AI)有不同的定义,但其中一个定义或多或少已成为共识,即AI是一个计算机系统,它能够执行通常需要人类智能才能完成的任务。根据这个定义,许多算法可以归纳为AI算法,比如导航应用程序所用的交通预测算法或策略类视频游戏所用的机遇规则的系统。从表面看,这些示例中,计算机似乎需要智能才能完成相关任务。

图片

  从AI到Transformer的嵌套技术组合

2、机器学习(machine learning,ML)是AI的一个子集,在ML中,我们不试图直接实现AI系统使用的决策规则。相反,我们试图开发算法,使系统能够通过示例数据自己学习。

3、深度学习(deep learning,DL)算法已经引起了广泛关注。DL是ML的一个分支,专注于受大脑结构启发的算法,这些事算法倍称为人工神经网络(artifical neural network)。它们可以处理大量的数据,并别在图像识别、语音识别及NLP等任务上表现出色。

4、自然语言处理(Natural language process,NLP)是ML和AI的一个子领域。专注于使计算机能够处理、解释和生产人类语言,现代NLP解决方案基于ML算法。NLP的目标是让计算机能够处理自然语言文本。这个目标设计诸多任务,例如文本分类、自动翻译、问题回答。

5、GPT-4和ChatGPT基于一种特定的神经网络架构(即Transformer),基于大量数据训练而成的NLP领域中的大语言模型(LLM),它们能够以非常高的准确性识别和生成人类可读的文本。

二、Transformer如何呼之欲出的

Transformer是一种基于自注意力机制的深度学习模型,由Google2017年提出。彻底改变了NLP领域的序列建模方式,它通过并行计算和全局依赖建模,解决了传统循环神经网络(RNN)的长距离依赖难题,成为现代大模型(如BERT、GPT)的基石。经历了下面三个主要阶段。

1、LLM的发展可以追溯到几年前,它始于简单的语言模型,如n-gram模型,n-gram模型通过使用词频来根据前面的词预测句子中的下一个词,因此又称为概率模型,其预测结果是在训练文中中紧随前面的词出现的频率最高的词。虽然这种方法提供了不错的着手点,但是n-gram模型在理解上下文和语法方面仍需改进,因为它有时会生成不连贯的文本。

2、为了提高n-gram模型的性能,人们引入了更先进的学习算法,包括循环神经网络(recurrent neural network,RNN)和长短期记忆(long short-term memory,LSTM)网络。与n-gram模型相比,这些模型能够学习更长的序列,并且能够更好地分析上下文,但他们在处理大量数据时的效率仍然欠佳。尽管如此,在很长的一段时间里,这些模型算法是最高效的。因此在自动翻译等任务中被广泛使用。

3、Transformer架构彻底改变了NLP领域,这主要是因为它能够有效地解决之前的NLP模型(如RNN)存在的一个关键问题:很难处理长文本序列并记住其上下文。换句话说,RNN在处理长文本序列时容易忘记上下文(也就是臭名昭著的“灾难性遗忘问题”),Transformer则具备高效处理和编码上下文的能力。改变的核心是注意力机制。

--素材来自《大模型应用开发极简入门》和网络材料

http://www.lryc.cn/news/608502.html

相关文章:

  • springboot大学生成绩管理系统设计与实现
  • NCV8402ASTT1G自保护N沟道功率MOSFET安森美/ONSEMI 过流过温保护汽车级驱动NCV8402ASTT1
  • 动态规划经典模型:双数组问题的通用解决框架与实战
  • Vue3核心语法进阶(computed与监听)
  • 衡石科技实时指标引擎解析:如何实现毫秒级响应万亿级数据的增量计算?
  • 【c#窗体荔枝计算乘法,两数相乘】2022-10-6
  • 【学习笔记】Java并发编程的艺术——第1章 并发编程的挑战
  • Python打卡Day30 模块和库的导入
  • 12:java学习笔记:多维数组1
  • 如何分析Linux内存性能问题
  • 深度学习(鱼书)day09--与学习相关的技巧(前三节)
  • 2025牛客暑期多校训练营1(G,E,L,K,I)
  • 力扣 hot100 Day63
  • 使用 BERT 的 NSP 实现语义感知切片 —— 提升 RAG 系统的检索质量
  • Java试题-选择题(6)
  • 滚珠花键在汽车制造中有哪些高要求?
  • 记录一次Spring Cloud Gateway配置的跨域处理:解决 ‘Access-Control-Allow-Origin‘ 头包含多个值的问题
  • JavaScript将String转为base64 笔记250802
  • GCC(GNU Compiler Collection)与人工智能实例
  • 【前端:Html】--1.1.基础语法
  • [Linux入门] Ubuntu 系统中 iptables 的配置与使用
  • 公共卫生场景下漏检率↓76%:陌讯动态特征融合算法在口罩识别中的实战解析
  • GaussDB having 的用法
  • 适 配 器 模 式
  • 电力系统分析笔记:发电机与变压器的数学建模与运行状态详解
  • SPI通信中CS片选的两种实现方案:硬件片选与软件片选
  • Anthropic:跨越生产效能拐点的AI增长飞轮
  • Munge 安全认证和授权服务的工作原理,以及与 Slurm 的配合
  • 交互 Codeforces Round 1040 Interactive RBS
  • 深入 Go 底层原理(十一):Go 的反射(Reflection)机制