当前位置: 首页 > news >正文

神经网络与Transformer详解

一、模型就是一个数学公式

模型可以描述为:给定一组输入数据,经过一系列数学公式计算后,输出n个概率,分别代表该用户对话属于某分类的概率。
在这里插入图片描述
在这里插入图片描述
图中 a, b 就是模型的参数,a决定斜率,b决定截距。

二、神经网络的公式结构

举例:MNIST包含了70,000张手写数字的图像,其中60,000张用于训练,10,000张用于测试,每张图像的内容只包含一个手写数字,从0到9的其中一个数字。
任务:给定一张28x28(784)像素的灰度图像,经过一系列数学公式计算后,输出10个概率,分别代表该图像中的内容是0-9某个数字的概率。
在这里插入图片描述
z向量可以看成从x向量抽取特征后得到的一组特征向量,其中x到z共有784组(w0,w1,…,w784)超参数。
在这里插入图片描述
在这里插入图片描述
这种在输入向量x和输出向量y之间,增加了一层z向量,并且用上述格式的计算公式去计算z向量和y向量中的每一个数值的结构,就叫做神经网络。

2.1、神经网络的参数设计

设定z向量的长度为784,则x向量与z向量等长。简化公式:z[i] = x[i+1] - x[i](下一个像素值-当前像素值)
相当于把公式 z0 = w0 * x0 + w1 * x1 + w2 * x2 + … + w782 * x782 + w783 * x783 + w784的系数 w0设置为-1,w1设置为1,w2及以后的系数全部都设置为0,公式自然变成了 z[0] = x[1] - x[0]。
第一个图是原始的像素图,第二个是线性变换(前一个减后一个)后的像素图,第三个是非线性变换(大于0的取1)后的像素图。
在这里插入图片描述
再加一层z向量:特征提取
在这里插入图片描述
在x层和y层之间,加入多层z向量,用以提取更深层特征,这种多层结构,叫做深度神经网络。而通过计算机完成大规模数学计算以找到相对更优的w参数组合的过程,就叫做机器学习,也就是我们所说的模型训练。

2.2、Transformer模型

2.2.1、Tokenization - 文本变成Token

首先,我们要把这一段文字,变成一组Token,也就是词元化(Tokenization)。
⼦词(subword)词元化是词元化的⼀种,这种⽅案把会单词再切得更细⼀些,⽤更基础的

http://www.lryc.cn/news/485282.html

相关文章:

  • C语言之MakeFile
  • vue项目PC端和移动端实现在线预览docx、excel、pdf文件
  • FlinkSql读取kafka数据流的方法(scala)
  • .NET 9 中 IFormFile 的详细使用讲解
  • 使用阿里云远程访问 Synology Web Station 的指南
  • LlamaFactory介绍
  • vue 项目使用 nginx 部署
  • <项目代码>YOLOv8 玉米地杂草识别<目标检测>
  • Wxml2Canvas小程序将dom转为图片,bug总结
  • [ 网络安全介绍 3 ] 网络安全事件相关案例有哪些?
  • SpringMVC学习笔记(二)
  • 51c嵌入式~单片机合集2
  • JavaScript:浏览器对象模型BOM
  • Unity音频导入设置
  • 【数据分享】中国对外投资合作发展报告(2013-2023)
  • java8之Stream流
  • pipx安装提示找不到包
  • Codeforces Round 987 (Div. 2)(前四道)
  • PCB+SMT线上报价系统+PCB生产ERP系统自动化拼板模块升级
  • 微信小程序_小程序视图与逻辑_day3
  • kubesphere环境-本地Harbor仓库+k8s集群(单master 多master)+Prometheus监控平台部署
  • 【提高篇】3.3 GPIO(三,工作模式详解 上)
  • ‘视’不可挡:OAK相机助力无人机智控飞行!
  • javaScript交互补充(元素的三大系列)
  • 数据结构(基本概念及顺序表)
  • 【全面系统性介绍】虚拟机VM中CentOS 7 安装和网络配置指南
  • html + css 自适应首页布局案例
  • 时钟之CSS+JS版
  • ubuntu18.04 配置安卓编译环境
  • pycharm分支提交操作