当前位置: 首页 > news >正文

深度探究深度学习常见数据类型INT8 FP32 FP16的区别即优缺点

定点和浮点都是数值的表示(representation),它们区别在于,将整数(integer)部分和小数(fractional)部分分开的点,点在哪里。定点保留特定位数整数和小数,而浮点保留特定位数的有效数字(significand)和指数(exponent)

1.FP与INT

FP代表浮点运算数据格式,包括双精度FP64 单精度FP32 半精度FP16和FP8

INT代表整数数据格式,包括INT8和INT4

后面的数字越高意味着精度越高能够支持的运算复杂度也就越高 适配场景也就越广,同样对推理端的计算资源要求也就越高;

2.FP64、FP32、FP8 和INT8、INT4 

双精度FP64 :浮点数使用64位表示,提供更好的精度和动态范围。通常应用在高精度计算的场景中,对存储空间以及计算资源要求较多  通常较少使用

单精度FP32:浮点数使用32位表示,适用于大多数科学计算和通用计算任务。通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32

半精度FP16:浮点数使用16位表示。相对于FP32提供了较低的精度,按照理论来说可以跑机器学习这些任务,但是FP16会出现精度溢出和舍入误差,所以很多应用都是使用混合精度计算的也就是FP16+FP32模式

浮点数在高精度图像处理有较大优势能够使图片中更多颜色、对比度、质感和清晰度得以保留。

但INT类型速度更快

  • 第一部分为 sign 符号位 s,占 1 bit,用来表示正负号;
  • 第二部分为 exponent 指数偏移值 k,占 5 bits,用来表示其是 2 的多少次幂;
  • 第三部分是 fraction 分数值(有效数字) M,占 10 bits,用来表示该浮点数的数值大小。

固定点数INT8:固定点数使用固定的小数点位置来表示数值,可以使用定点数算法进行计算。相对于浮点数计算,算力和内存资源要求更低。


 

http://www.lryc.cn/news/228083.html

相关文章:

  • C++——const成员
  • 使用阿里云服务器学习Docker
  • 通信原理板块——线性分组码之汉明码
  • Hive 常用存储、压缩格式
  • 搞懂它,就可以把结构体玩活了~
  • 基于SpringBoot+Redis的前后端分离外卖项目-苍穹外卖(四)
  • dcat admin 各种问题
  • 数据结构与算法(二)动态规划(Java)
  • 颜值实力“C位出道”:起亚EV6综合实力究竟怎么样?
  • 继承和多态_Java零基础手把手保姆级教程(超详细)
  • AI:85-基于深度学习的自然场景生成与渲染
  • Windows电脑训练 RT-DETR 改进算法 (Ultralytics) 教程,改进RTDETR算法(包括使用训练、验证、推理教程)
  • flask框架报错解决方法
  • Ubuntu18.04 安装docker教程
  • 深入理解Git
  • Leetcode_203.移除链表元素—C语言
  • 虹科方案 | 汽车电子电气架构设计仿真解决方案
  • Java6种单例模式写法
  • Direct3D拾取
  • 大洋钻探系列之二IODP 342航次是干什么的?(上)
  • 离散时间系统模型
  • Nginx学习(在 Docker 中使用 Nginx)
  • 【Java】集合(一)单列集合List
  • 实战 | 基于卷积神经网络的蘑菇识别微信小程序
  • 如何选择共享wifi项目服务商,需要注意哪些?
  • ubuntu20.04 MYNTEYE S 相机运行与标定记录
  • 有效降低数据库存储成本方案与实践 | 京东云技术团队
  • 分布式数据库Schema 变更 in F1 TiDB
  • 图形库篇 | EasyX | 图像处理
  • AWTK UI 自动化测试工具发布