当前位置: 首页 > news >正文

Transformer模型-softmax的简明介绍

今天介绍transformer模型的softmax

softmax的定义和目的:

softmax:常用于神经网络的输出层,以将原始的输出值转化为概率分布,从而使得每个类别的概率值在0到1之间,并且所有类别的概率之和为1。这使得Softmax函数特别适用于多类分类问题,其中模型需要预测输入样本属于多个可能类别中的哪一个。

特点:

softmax函数通过指数运算增强了数值间的差异,使得较大值在概率分布中占主导地位,同时抑制了较小值的影响。

Softmax函数是一种将K个实数值的向量转换为另一个K个实数值的向量,并且这些值的总和为1的函数。输入值可以是正数、负数、零或大于1的数,但softmax会将其转换为0到1之间的值,以便将它们解释为概率。如果输入值很小或为负数,softmax会将其转换为小概率;如果输入值很大,则softmax会将其转换为大概率,但概率值始终保持在0和1之间。

Softmax是逻辑回归的推广,可用于多类分类,其公式与用于逻辑回归的Sigmoid函数非常相似。只有当类别是互斥的时,softmax函数才能用于分类器。

许多多层神经网络都以倒数第二层结束,该层输出未经过适当缩放的实数值分数,可能难以处理。在这里,softmax非常有用,因为它将分数转换为归一化的概率分布,可以向用户显示或用作其他系统的输入。因此,通常将softmax函数作为神经网络的最后一层。

公式:

输入

Softmax函数的输入是一个包含K个元素的向量,其中不带箭头的z表示向量中的一个元素:

举例:

套用公式计算softmax:

输出是[0.006, 0.047, 0.946],总和大约为1。实际上,由于截断的原因,总和是0.999。最小的输入值5具有最低的概率,而最高的值10具有最高的概率。

PyTorch 使用指数和求和函数来计算softmax

PyTorch使用nn.Softmax来计算softmax

原文链接:

https://medium.com/@hunter-j-phillips/a-simple-introduction-to-softmax-287712d69bac

http://www.lryc.cn/news/330656.html

相关文章:

  • 记录一下做工厂的打印pdf程序
  • Linux网络编程一(协议、TCP协议、UDP、socket编程、TCP服务器端及客户端)
  • Python读取Excel根据每行信息生成一个PDF——并自定义添加文本,可用于制作准考证
  • http: server gave HTTP response to HTTPS client 分析一下这个问题如何解决中文告诉我详细的解决方案
  • Flume学习笔记
  • 数据库系统概论(超详解!!!) 第三节 关系数据库标准语言SQL(Ⅳ)
  • 与谷歌“分家”两年后,SandboxAQ推出统一加密管理平台
  • 【卫星家族】 | 高分六号卫星影像及获取
  • XML与Xpath
  • 【c++20】CPP-20-STL-Cookbook 学习笔记
  • Python 之 Flask 框架学习
  • 精品丨PowerBI负载测试和容量规划
  • 【算法-PID】
  • ros rosbag使用记录
  • WebKit结构揭秘:探秘网页渲染的魔法之源
  • VSCode美化
  • Runes 生态一周要览 ▣ 2024.3.25-3.31|Runes 协议更新 BTC 减半在即
  • 瘦身Spring Boot应用(thinJar)
  • 备战蓝桥杯---贪心刷题1
  • 《数据结构学习笔记---第九篇》---循环队列的实现
  • 前端调试工具之Chrome Elements、Network、Sources、TimeLine调试
  • vue 加 websocket 聊天
  • uniapp通过蓝牙传输数据 (ios)
  • docker搭建CI/CD环境配置过程中的常见问题
  • 实验四 微信小程序智能手机互联网程序设计(微信程序方向)实验报告
  • WPF —— 关键帧动画
  • Taro + vue3 小程序封装标题组件
  • babyAGI(6)-babyCoder源码阅读2任务描述部分
  • 生成式语言模型预训练阶段验证方式与微调阶段验证方式
  • flink on yarn