当前位置: 首页 > news >正文

大语言模型工作原理笔记

大语言模型工作原理笔记

一、词向量:表示语言的方式

  • 大语言模型使用词向量来表示单词,每个词向量是由一串数字组成的列表,代表词空间中的一个点。
  • 词空间中,含义相近的词位置更接近,例如"猫"的词向量会靠近"狗"、"小猫"等词向量。
  • 词向量的好处:
    • 可以进行数值运算,例如"最大" - “大” + “小” = “最小”。
    • 能够捕捉词语之间的微妙关系,例如"瑞士人"与"瑞士"的关系类似于"柬埔寨人"与"柬埔寨"的关系。
    • 可以根据上下文用不同的向量来表示同一个词,解决多义词问题,例如"银行"可以指金融机构或河岸。

二、Transformer:大语言模型的基石

  • Transformer是一种神经网络结构,由多个层组成,每层都接收一系列词向量作为输入,并添加信息以更好地预测下一个词。
  • Transformer 的两个核心处理过程:
    • 注意力机制: 词汇会观察周围,寻找具有相关背景并彼此共享信息的词,并通过查询和关键项链的匹配来传递信息。
    • 潜会层: 每个词会思考之前注意力步骤中收集到的信息,并尝试预测下一个词。
  • 注意力机制:
    • 可以将其视为单词之间的"撮合服务",每个词会制作查询和关键项链来描述自己和寻找的词,并通过比较找到最佳匹配的词。
    • 拥有注意力头,每个注意力头专注于不同的任务,例如匹配代词和名词、解析多义词等。
  • 潜会层:
    • 可以访问注意力头提供的上下文信息,并通过模式匹配来预测下一个词。
    • 早期层倾向于匹配特定单词,后期层则匹配更广泛类别的短语。
    • 可以通过向量运算进行推理,例如将国家转化为首都。
  • 注意力机制和潜会层的分工:注意力机制从提示中检索信息,而潜会层让语言模型记住未在提示中出现的信息。

三、训练:让模型学习语言

  • 大语言模型通过预测文本段落中的下一个词来学习,不需要人工标记数据。
  • 训练过程:
    1. 前向传播: 输入文本,检查模型预测的下一个词是否正确。
    2. 反向传播: 根据预测结果调整模型的权重参数,使模型做出更好的预测。
  • 训练需要大量的数据和计算资源,例如 GPT-3 在 5000 亿个单词的语料库上进行训练,需要运行数月才能完成。

四、模型规模与能力:越大越好

  • 研究表明,模型规模越大,在语言任务上的表现越好。
  • 模型规模的增大带来了更强的推理能力,例如 GPT-3 在心智理论任务上的表现接近人类儿童。

五、结论

大语言模型通过学习大量文本数据,能够以惊人的准确度预测下一个词,并展现出一定的推理能力。虽然其内部工作机制尚未被完全理解,但其强大的能力和潜力已不容忽视。

http://www.lryc.cn/news/479557.html

相关文章:

  • 安全工程师入侵加密货币交易所获罪
  • 使用Docker-Compose安装redis,rabbitmq,nacos,mysql,nginx,tomcat,portainer组件教程
  • lora训练模型 打造个人IP
  • mybatis+postgresql,无感读写json字段
  • 苍穹外卖学习记录
  • 大数据成功应用商业解决方案的例子
  • 《Python使用sqlite3数据库》
  • XHCI 1.2b 规范摘要(14)
  • (蓝桥杯C/C++)——基础算法(下)
  • 详解Rust标准库:VecDeque 队列
  • 网络协议都有哪些?
  • 非公平锁和公平锁的区别
  • 11月7日星期四今日早报简报微语报早读
  • 【Python】轻松实现机器翻译:Transformers库使用教程
  • 【数据集】【YOLO】【目标检测】道路结冰数据集 1527 张,YOLO目标检测实战训练教程!
  • Java链表及源码解析
  • 十、快速入门go语言之方法
  • JVM 处理多线程并发执行
  • 【D3.js in Action 3 精译_039】4.3 D3 面积图的绘制方法及其边界标签的添加
  • 布谷直播源码部署服务器关于数据库配置的详细说明
  • Xfce桌面设置右键菜单:用右键打开VSCode
  • 【NLP自然语言处理】深入探索Self-Attention:自注意力机制详解
  • Pytorch训练时报nan
  • JavaScript定时器详解:setTimeout与setInterval的使用与注意事项
  • CSS——选择器、PxCook软件、盒子模型
  • Mysql 大表limit查询优化原理实战
  • 在vscode中开发运行uni-app项目
  • 【JavaEE初阶 — 多线程】Thread的常见构造方法&属性
  • ctfshow(316)--XSS漏洞--反射性XSS
  • ubuntu22.04安装conda