当前位置: 首页 > news >正文

【pytorch】tensor.detach()和tensor.data的区别

文章目录

        • 序言
        • 相同点
        • 不同点
        • 测试实例
        • 应用

序言
  • .detach()和.data都可以用来分离tensor数据,下面进行比较
  • pytorch0.4及之后的版本,.data仍保留,但建议使用.detach()
相同点
  • x.detach()和x.data返回和x相同数据的tensor,这个新的tensor和原来的tensor共用数据,一者改变,另一者也会跟着改变
  • 新分离得到的tensor的requires_grad = False, 即不可求导的
不同点
  • (1) .data是一个属性,.detach()是一个方法
  • (2) x.data不能被autograd追踪求微分,即使被改了也能错误求导;x.detach()也不能被autograd追踪求微分,被改了会直接报错,避免错误的产生
  • (3) .data是不安全的,.detach()是安全的
测试实例
  • .data测试

    import torcha = torch.tensor([1 ,2 ,3.], requires_grad = True)  # float类型,支持求导
    out = a.sigmoid()
    print(out)    # 输出(0.0, 1.0)结果
    b = out.data  # 分离tensor
    b.zero_()     # 改变b的值,原来的out也会改变
    print(b.requires_grad)  # .data后requires_grad=False
    print(b)                # 归0后的值 tensor([0., 0., 0.])
    print(out.requires_grad)    # out的requires_grad=True
    print(out)                  # b的值改变了out也变了 tensor([0., 0., 0.])
    print("----------------------------------------------")out.sum().backward()  # 对原来的out求导
    print(a.grad)         # 不会报错,但结果不正确
    
    • 更改分离之后的变量值b,导致原来的张量out的值也跟着改变
    • 但是这种改变对于autograd是没有察觉的,它依然按照求导规则来求导,导致得出完全错误的导数值却浑然不知
    • 它的风险性就是如果我再任意一个地方更改了某一个张量,求导的时候也没有通知我已经在某处更改了,导致得出的导数值完全不正确
  • .detach()测试

    import torcha = torch.tensor([4, 5, 6.], requires_grad=True)
    out = a.sigmoid()
    print(out)
    c = out.detach()
    c.zero_()               # 改变c的值,原来的out也会改变
    print(c.requires_grad)  # detach后requires_grad=False
    print(c)                # 已经归0
    print(out.requires_grad)    # 输出为True
    print(out)
    print("----------------------------------------------")out.sum().backward()  # 对原来的out求导,
    print(a.grad)         # 此时会报错: 梯度计算所需要的张量已经被“原位操作inplace”所更改了# RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation
    
    • 更改分离之后的变量值c,导致原来的张量out的值也跟着改变
    • 这个时候如果依然按照求导规则来求导,由于out已经更改了,所以不会再继续求导了,而是报错,这样就避免了得出错误的求导结果
应用
  • forward时使用.data或.detach(),不进行梯度计算和梯度跟踪
  • backward时梯度回传,不能使用.detach()或.data,比如loss信息被detach的话就无法进行梯度回传更新参数,会导致模型无法收敛

 


【参考文章】
[1]. .detach和.data的区别和作用
[2]. .detach和.data的区别
[3]. .detach和.data求导时的区别

created by shuaixio, 2024.02.24

http://www.lryc.cn/news/307434.html

相关文章:

  • 教师资格证相关
  • 卷积神经网络介绍
  • XSS简介
  • 手写redux和applyMiddleware中间件react示例
  • MATLAB R2024a 主要更新内容
  • 4.1.CVAT——目标检测的标注详细步骤
  • 图论-算法题
  • onnx 1.16 doc学习笔记七:python API一览
  • LACP——链路聚合控制协议
  • 终端启动jupyter notebook更换端口
  • IT发布管理,轻松部署软件
  • 2024国际生物发酵展览会独家解读-力诺天晟科技
  • YOLOv9尝鲜测试五分钟极简配置
  • 消息中间件篇之Kafka-消息不丢失
  • Rust使用calamine读取excel文件,Rust使用rust_xlsxwriter写入excel文件
  • 中文文本分类(pytorch 实现)
  • 【每日前端面经】2023-02-27
  • springboot + easyRules 搭建规则引擎服务
  • Mac电脑配置环境变量
  • Windows系统x86机器安装(麒麟、统信)ARM系统详细教程
  • 消息中间件篇之RabbitMQ-高可用机制
  • express+mysql+vue,从零搭建一个商城管理系统5--用户注册
  • canvas水波纹效果,jquery鼠标水波纹插件
  • Zookeeper客户端命令、JAVA API、监听原理、写数据原理以及案例
  • [嵌入式系统-34]:RT-Thread -19- 新手指南:RT-Thread标准版系统架构
  • postman访问k8s api
  • UE4c++ ConvertActorsToStaticMesh
  • Qt中tableView控件的使用
  • 【医学影像】LIDC-IDRI数据集的无痛制作
  • MacOS开发环境搭建详解