当前位置: 首页 > news >正文

不同层设置不同学习率

使用预训练模型时,可能需要将
(1)预训练好的 backbone 的 参数学习率设置为较小值
(2)而backbone 之外的部分,需要使用较大的学习率。

from collections import OrderedDict
import torch.nn as nn
import torch.optim as optimnet = nn.Sequential(OrderedDict([("linear1", nn.Linear(10, 20)),("linear2", nn.Linear(20, 30)),("linear3", nn.Linear(30, 40))]))linear3_params = list(map(id, net.linear3.parameters()))
base_params = filter(lambda p: id(p) not in linear3_params, net.parameters())optimizer = optim.SGD([{'params': base_params},{'params': net.linear3.parameters(), 'lr': 0.0005}],lr=0.001, momentum=0.9)print(optimizer)
print(optimizer.param_groups[0]['lr'])
print(optimizer.param_groups[1]['lr'])
http://www.lryc.cn/news/177492.html

相关文章:

  • 剑指offer32Ⅰ:从上到下打印二叉树
  • 【VUE复习·8】v-if;v-show高级
  • 线程同步需要注意什么?
  • 力扣算法题:35、搜索插入位置.java版
  • 七、热力图展示
  • 基于微信小程序的新闻发布平台小程序设计与实现(源码+lw+部署文档+讲解等)
  • 【论文阅读】Directional Connectivity-based Segmentation of Medical Images
  • 借“牛油果”爆款出圈,甜啦啦的底牌只是“价格”?
  • 【C语言】快速排序
  • Java列表查询Long(id)到前端转换出错
  • react import爆红
  • ThreeJS-3D教学三:平移缩放+物体沿轨迹运动
  • 玩玩“小藤”开发者套件 Atlas 200I DK A2 之VSCode远程连接
  • 安装python中tensorflow和keras==2.2.0的路程
  • Linux命令历史记录管理:使用history命令提高工作效率
  • Armv9 Cortex-A720的L1 memory system 和 L1 Cache
  • 使用超声波清洗机洗眼镜有哪些注意事项、高颜值超声波清洗机推荐
  • 23种设计模式汇总详解
  • stream流的filter和map过滤
  • Linux 环境下使用 Docker 部署 Seata 1.7.1 (图文教程)
  • Aruba CX交换机 VSF配置
  • 使用ElementUI结合Vue完善主页的导航菜单和书籍管理以及后台数据分页查询
  • 子序列问题集合
  • idea中提示:error has occurred, please check your installation and try again
  • MySQL - 关于约束类型和作用的介绍
  • 【2023集创赛】芯原杯一等奖作品:基于芯原DSP核的智能语音SoC设计
  • 代理IP与Socks5代理在跨界电商、爬虫、游戏和网络安全中的应用
  • DDS信号发生器Verilog波形发生器FPGA
  • 基于springboot实现二手交易平台管理系统演示【项目源码】分享
  • 一个链接分享自制的产品图册