当前位置: 首页 > news >正文

大语言模型基础

简介

AI大模型是“人工智能预训练大模型”的简称,包含了“预训练”和“大模型”两层含义,二者结合产生了一种新的人工智能模式,即模型在大规模数据集上完成了预训练后无需微调,或仅需要少量数据的微调,就能直接支撑各类应用。AI大模型主要分为三类:大语言模型、CV大模型和多模态大模型,我将分别介绍它们的背景知识、关键技术、演进路线和挑战。

什么是大语言模型

大语言模型(Large Language Model,LLM)是一种大规模预训练神经网络语言模型。

大规模:区别于已有的较小规模并主要用于理解类任务的预训练语言模型(如BERT),特指规模较大(数十亿到数千亿参数)并具有较强生成能力的语言模型。

预训练:在海量文本数据集上预训练,以GPT3为例, 300B tokens可用于训练参数量大小为175B的LLM。 "token"通常指的是一个离散的文本单元,它可以是单词、标点符号、数字或其他语言元素,这些元素被用作训练和生成文本的基本单位。

语言模型:通俗来说,指对于任意的词序列,能够计算出这个序列是一句话的概率的模型。用于预测未来或缺失tokens的概率。

语言模型的演进

语言模型的定义:

等价定义:从文本生成的角度,定义语言模型为:给定一个短语(一个词组或一句话),语言模型可以生成接下来的一个词。

统计语言模型 Statistical language models (SLM) :

起源于90年代的统计学习方法,基本思想是基于马尔可夫假设建立词预测模型,即每个词只依赖前序词。代表方法为N-gram语言模型。

神经语言模型 Neural language models (NLM):

N-gram的缺陷:将词看作离散变量并用one-hot表示,导致词与词不存在语义关联,且参数量级是指数级。

NLM通过结合词向量(word embedding)前馈神经网络来解决上面两个问题:

每个词用低维稠密向量表示,这就使得语义相似的词对应的向量在空间中相邻成为可能(前提是词向量训练的效果达到预期),给模型带来了泛化能力上的提升;神经网络强大的学习能力很适合拟合概率分布。

FFNNLM(2003,

http://www.lryc.cn/news/540847.html

相关文章:

  • 深入浅出机器学习:概念、算法与实践
  • 2024年国赛高教杯数学建模A题板凳龙闹元宵解题全过程文档及程序
  • 老游戏回顾:d2
  • 【深度学习】Pytorch的深入理解和研究
  • 什么是 Vue 的自定义事件?如何触发和监听?
  • windows上vscode cmake工程搭建
  • DEMF模型赋能多模态图像融合,助力肺癌高效分类
  • Android:权限permission申请示例代码
  • AI Agent Service Toolkit:一站式大模型智能体开发套件
  • 大数据SQL调优专题——Hive执行原理
  • Python程序打包 |《Python基础教程》第18章笔记
  • 图论 之 迪斯科特拉算法求解最短路径
  • 掌握Spring开发_常用注解详解
  • 华为昇腾服务器(固件版本查询、驱动版本查询、CANN版本查询)
  • Kubernetes的Ingress和Service有什么区别?
  • 洛谷B3619(B3620)
  • vue组件,父子通信,路由,异步请求后台接口,跨域
  • 详解分布式ID实践
  • .NET + Vue3 的前后端项目在IIS的发布
  • 软件测试之压力测试
  • 矩阵-矩阵置零
  • 【JavaScript】《JavaScript高级程序设计 (第4版) 》笔记-Chapter19-表单脚本
  • 【C# 数据结构】队列 FIFO
  • 论文笔记-WWWCompanion2024-LLM as Data Augmenters for Cold-Start Item Recommendation
  • Java 语法新特性(Records、Pattern Matching、Sealed Classes)深度解析(11/17/21)✨
  • QUdpSocket的readyRead信号只触发一次
  • jsherp importItemExcel接口存在SQL注入
  • 测试data_management函数
  • 微信小程序---计划时钟设计与实现
  • 深度学习之图像回归(二)