当前位置: 首页 > news >正文

3.正则化——新闻分类

影响结果出了最终的目标,还会有许多细节因素

在机器学习中,往往会面临很多过拟合和欠拟合的问题。
欠拟合是训练不到位,过拟合是训练过头,会导致泛化性差
在这里插入图片描述
正则化是在损失函数中添加一个惩罚项,以简化模型

在这里插入图片描述
对于惩罚项Penalty——L1、L2
L1正则化:
会使一些特征的权重变为0,因此可以用来做特征选择。
λ是超参数,用于控制正则化强度,wi是第i个特征的权重
优点:减少特征数量
缺点:可能会过度惩罚某些特征,导致一些有用信息被舍弃
在这里插入图片描述

L2正则化:
使所有特征的权重都变小且不为零。
优点:降低权重,防止过拟合
在这里插入图片描述

正则化有广泛的应用
在线性回归中:通过添加L1、L2进行正则化
在神经网络中:通过添加正则项,控制模型复杂度

多元线性回归+L1——Lasso回归
在这里插入图片描述

多元线性回归+L2——Ridge岭回归

新闻分类

from sklearn.datasets import fetch_20newsgroups
from sklearn.pipline import make_pipeline
from sklearn.feature_extraction.text import Countvectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_scoretrain = fetch_20newsgroups(subset="train")
test = fetch_20newsgroups(subset="test")#数据是文本文件,须通过pipeline提取,提取后通过CountVectorizer向量化,然后采用逻辑回归训练
pipeline = make_pipeline(CountVectorizer(), LogisticRegression(max_iter = 3000))pipeline.fit(train.data, train.target)y_pred = pipeline.predict(test.data)print("Accuracy:%。2f" % accuracy_score(test.target, y_pred))
http://www.lryc.cn/news/589533.html

相关文章:

  • 【stm32】新建工程
  • STM32裸机开发(中断,轮询,状态机)与freeRTOS
  • MyBatis与Spring整合优化实战指南:从配置到性能调优
  • Conda 核心命令快速查阅表
  • 系统编程是什么
  • 22-C#的委托简单使用-2
  • ai问答推荐企业排名优化?:五大企业核心竞争力全景对比
  • 从0开始学习R语言--Day47--Nomogram
  • 【51单片机先流水2秒后数码显示2秒后显示END】2022-9-5
  • 判断QMetaObject::invokeMethod()里的函数是否调用成功
  • 密码协议的基本概念
  • 【Linux手册】重定向是如何实现的?Linux下为什么一切皆文件?
  • 【env环境】rtthread5.1.0使用fal组件
  • npm install failed如何办?
  • 差分信号接口选型指南:深入解析LVDS、SubLVDS、SLVDS与SLVDS-EC**
  • 回顾一下Docker的基本操作
  • 项目:从零开始制作一个微信小程序(第六天)
  • 专业文档搜索工具,快速定位文本内容
  • Spring AI Alibaba 1.0 vs Spring AI 深度对比
  • EPLAN 电气制图(九):直流电源绘制+端子排绘制
  • 3.创建表-demo
  • 深入解析环境变量:从基础概念到系统级应用
  • 墨刀原型图的原理、与UI设计图的区别及转换方法详解-卓伊凡|贝贝
  • TypeScript之旅
  • 基于STM32与中航ZH-E3L字符卡通信在LED屏显示数据
  • ArrayList列表解析
  • [附源码+数据库+毕业论文]基于Spring+MyBatis+MySQL+Maven+vue实现的酒店预订管理系统,推荐!
  • Nestjs框架: 数据库架构设计与 NestJS 多 ORM 动态数据库应用与连接池的配置
  • 缓存穿透的“黑暗森林”假说——当攻击者学会隐藏恶意流量
  • 园区用电成本直降方案:智能微网调控系统一键峰谷优化