当前位置: 首页 > news >正文

李沐深度学习记录4:12.权重衰减/L2正则化

权重衰减从零开始实现

#高维线性回归
%matplotlib inline
import torch
from torch import nn
from d2l import torch as d2l#整个流程是,1.生成标准数据集,包括训练数据和测试数据
#          2.定义线性模型训练
#           模型初始化(函数)、包含惩罚项的损失(函数)
#           定义epochs进行训练,每训练5轮评估一次模型在训练集和测试集的损失,画图显示
#           训练结束后分别查看并比较是否添加范数惩罚项损失对应的训练结果w的L2范数
#生成数据集
n_train, n_test, num_inputs, batch_size = 20, 100, 200, 5  #训练数据样本数20,测试样本数100,数据维度200,批量大小5
true_w, true_b = torch.ones((num_inputs, 1)) * 0.01, 0.05  #生成w矩阵(200,1),w值0.01,偏置b为0.05
train_data = d2l.synthetic_data(true_w, true_b, n_train) #生成训练数据集X(20,200),y(20,1),y=Xw+b+噪声,train_data接收返回的X,y
train_iter = d2l.load_array(train_data, batch_size)  #传入数据集和批量大小,构造训练数据迭代器
test_data = d2l.synthetic_data(true_w, true_b, n_test) #生成测试数据集
test_iter = d2l.load_array(test_data, batch_size, is_train=False)  #构造测试数据迭代器#初始化模型参数
def init_params():w = torch.normal(0, 1, size=(num_inputs, 1), requires_grad=True)b = torch.zeros(1, requires_grad=True)return [w, b]#定义L2范数惩罚项
def l2_penalty(w):return torch.sum(w.pow(2)) / 2  #L2范数公式需要开平方根,但这里L2范数惩罚项是L2范数的平方,所以不需要开平方根了#训练代码
def train(lambd):  #输入λ超参数w, b = init_params()  #初始化模型参数net, loss = lambda X: d2l.linreg(X, w, b), d2l.squared_loss  #net线性模型torch.matmul(X, w) + b;loss是均方误差num_epochs, lr = 100, 0.003animator = d2l.Animator(xlabel='epochs', ylabel='loss', yscale='log',xlim=[5, num_epochs], legend=['train', 'test'])for epoch in range(num_epochs):  #进行多次迭代训练for X, y in train_iter:  #每个epoch,取训练数据# 增加了L2范数惩罚项,# 广播机制使l2_penalty(w)成为一个长度为batch_size的向量l = loss(net(X), y) + lambd * l2_penalty(w)  #loss计算加上了λ×范数惩罚项l.sum().backward()  #这里计算损失和,下面参数更新时会对梯度求平均再更新参数d2l.sgd([w, b], lr, batch_size)  #进行参数更新操作if (epoch + 1) % 5 == 0:  #每5次epoch训练,评估一次模型的训练损失和测试损失animator.add(epoch + 1, (d2l.evaluate_loss(net, train_iter, loss),d2l.evaluate_loss(net, test_iter, loss)))print('w的L2范数是:', torch.norm(w).item())  #训练结束后,计算w的L2范数(没有平方)
#λ为0,无正则化项,训练
train(lambd=0)
d2l.plt.show()

在这里插入图片描述

#λ为10,有正则化项,训练
train(lambd=5)
d2l.plt.show()

在这里插入图片描述

权重衰减的简洁实现

#权重衰减的简洁实现
def train_concise(wd):net = nn.Sequential(nn.Linear(num_inputs, 1))   #定义模型for param in net.parameters():   #初始化参数param.data.normal_()loss = nn.MSELoss(reduction='none')  #计算loss,这里不包含正则项num_epochs, lr = 100, 0.003# 偏置参数没有衰减#在参数优化部分,计算梯度时加入了权重衰减#所以是计算loss时没计算正则项,只是在计算梯度时加入了权重衰减吗?trainer = torch.optim.SGD([{"params":net[0].weight,'weight_decay': wd},{"params":net[0].bias}], lr=lr)animator = d2l.Animator(xlabel='epochs', ylabel='loss', yscale='log',xlim=[5, num_epochs], legend=['train', 'test'])for epoch in range(num_epochs):   #训练100轮for X, y in train_iter:  #对于每轮,取数据训练trainer.zero_grad()   #梯度清零l = loss(net(X), y)  #计算lossl.mean().backward() #反向传播trainer.step()  #更新梯度if (epoch + 1) % 5 == 0:   #每5轮评估一次模型在测试集和训练集的损失animator.add(epoch + 1,(d2l.evaluate_loss(net, train_iter, loss),d2l.evaluate_loss(net, test_iter, loss)))print('w的L2范数:', net[0].weight.norm().item())
#没有进行权重衰减
train_concise(0)

在这里插入图片描述

#进行权重衰减
train_concise(5)

在这里插入图片描述

http://www.lryc.cn/news/182827.html

相关文章:

  • 堆--数组中第K大元素
  • ipad使用技巧
  • Windows系统上使用CLion远程开发Linux程序
  • github搜索技巧
  • Python生成器
  • flutter开发实战-使用FutureBuilder异步数据更新Widget
  • 1.2 数据模型
  • 【实用工具】谷歌浏览器插件开发指南
  • 应用层协议——DNS、DHCP、HTTP、FTP
  • XML文件读写
  • Win11 安装 Vim
  • Mac电脑BIM建模软件 Archicad 26 for Mac最新
  • JavaEE-网络编程套接字(UDP/TCP)
  • 微服务技术栈-Gateway服务网关
  • 函数形状有几种定义方式;操作符infer的作用
  • Java / MybatisPlus:JSON处理器的应用,在实体对象中设置对象属性,对象嵌套对象
  • 力扣 -- 1027. 最长等差数列
  • 正则验证用户名和跨域postmessage
  • jsbridge实战1:xcode swift 构建iOS app
  • 零基础部署nginx mysql springboot
  • 6-3 模式匹配
  • SQL JOIN 时 USING 和 ON 的异同
  • 安全学习_开发相关_JNDI介绍(注入)RMILDAP服务
  • C#学生选课及成绩查询系统
  • 【C语言】利用数组处理批量数据(一维数组和二维数组)
  • WPF中, 如何将控件的触发事件绑定到ViewModel
  • 解决Qt msvc编译器 中文显示乱码问题
  • JAVA面经整理(7)
  • CentOS7使用技巧
  • Nature Machine Intelligence | “化学元素知识+功能提示”双驱动,探索分子预测新方法