当前位置: 首页 > news >正文

R语言使用surveyCV包对NHANES数据(复杂调查加权数据)进行10折交叉验证

美国国家健康与营养调查( NHANES, National Health and Nutrition Examination Survey)是一项基于人群的横断面调查,旨在收集有关美国家庭人口健康和营养的信息。
地址为:https://wwwn.cdc.gov/nchs/nhanes/Default.aspx

在这里插入图片描述
既往咱们通过多篇文章对复杂加权数据的线性模型、逻辑回归模型、生存分析模型进行了分析。我们在建立数据模型后通常希望在外部数据验证模型的检验能力。然而当没有外部数据可以验证的时候,交叉验证也不失为一种方法。交叉验验证(交叉验证,CV)则是一种评估模型泛化能力的方法,广泛应用中于数证据采挖掘和机器学习领域,在交叉验证通常将数据集分为两部分,一部分为训练集,用于建立预测模型;另一部分为测试集,用于测试该模型的泛化能力。
咱们既往文章《基于R语言进行K折交叉验证》介绍了普通数据交叉验证,今天咱们来介绍一下使用surveyCV包进行复杂加权数据交叉验证,
该包通过在创建 CV 折叠以及计算测试集损失估计时考虑分层、聚类、FPC 的调查权重MSE(均方误差),对复杂的调查数据实现交叉验证 (CV)。模型,或逻辑模型的二元交叉熵)。
咱们先导入R包和数据

library(surveyCV)
library(survey)
library(ISLR)
data("api")

在这里插入图片描述
这次使用survey自带的加州学生的数据,包含有学生的成绩和其他数据。这个数据集带有6个数据,咱们使用的是apistrat数据
假设咱们想了解api00和ell线性关系,nfolds代表你想用多少折,其他都是一些调查函数的参数。
咱们先写出它的函数,这是一个默认线性函数

a<-"api00~ell"
cv.svy(apistrat, a,nfolds = 10, strataID = "stype", weightsID = "pw", fpcID = "fpc")

在这里插入图片描述
这样结果就出来了,这里的mean相当于MSE的平均值,表示误差的平均值,它可以有助于改善我们的模型,它和单用svymean函数这种算法是完全不一样的
如果咱们想了解多个模型

cv.svy(apistrat, c("api00~ell","api00~ell+meals","api00~ell+meals+mobility"),nfolds = 10, strataID = "stype", weightsID = "pw", fpcID = "fpc") 

在这里插入图片描述
这样就轻松出结果了,非常方便好用。我们可以看到添加协变量以后,MSE出现明显变化,变小了,表明添加协变量有助于改善MSE。
如果我们想指定集群而不是分层,更改一下clusterID这个变量,也非常方便

cv.svy(apiclus1, c("api00~ell","api00~ell+meals","api00~ell+meals+mobility"),nfolds = 10, clusterID = "dnum", weightsID = "pw", fpcID = "fpc")

在这里插入图片描述
如果咱们是有调查函数的,咱们需要用到cv.svydesign这个函数,指定一下就可以了

dstrat <- svydesign(id = ~1, strata = ~stype, weights = ~pw, data = apistrat, fpc = ~fpc)
cv.svydesign(formulae = c("api00~ell","api00~ell+meals","api00~ell+meals+mobility"),design_object = dstrat, nfolds = 10)

在这里插入图片描述
如果是已经生成了svyglm模型的,咱们需要使用cv.svyglm这个函数指定

glmstrat <- svyglm(api00 ~ ell+meals+mobility, design = dstrat)
cv.svyglm(glmstrat, nfolds = 10)

在这里插入图片描述
如果咱们是逻辑回归而不是线性回归,先生成一个调查函数

library(splines)
NSFG.svydes <- svydesign(id = ~SECU, strata = ~strata, nest = TRUE,weights = ~wgt, data = NSFG_data)

生成结果

NSFG.svyglm.logistic <- svyglm(LBW ~ ns(age, df = 3), design = NSFG.svydes,family = quasibinomial())
cv.svyglm(glm_object = NSFG.svyglm.logistic, nfolds = 4)

在这里插入图片描述
在这种情况下,平均列显示二进制交叉熵损失的平均值。

http://www.lryc.cn/news/213526.html

相关文章:

  • WOS与CNKI数据库的citespace分析教程及常见问题解决
  • NEFU数字图像处理(三)图像分割
  • UEditorPlus v3.6.0 图标补全,精简代码,快捷操作重构,问题修复
  • C++ Set
  • 基于知识库的chatbot或者FAQ
  • ZOC8 for Mac:超越期待的终端仿真器
  • 织梦dedecms后台档案列表显示空白或显示不了文章的解决方法
  • 10本值得阅读的量化交易书籍
  • c++通过对象的地址初始化指针,需要对指针进行释放么(企业链表衍生)
  • CentOS安装MySQL
  • AI:45-基于深度学习的声纹识别
  • Spring-cloud-openfeign拦截器RequestInterceptor接口
  • 自动化测试开发 —— 如何封装自动化测试框架?
  • Leetcode—2.两数相加【中等】
  • 拷贝音频、视频、word等二进制文件的实现方法,不掉帧
  • dmfldr-快速装载-载入(DM8:达梦数据库)
  • Postman测试金蝶云星空Webapi【协同开发云】
  • mongo常用操作符及查询例子
  • 41.排序练习题(王道2023数据结构第8章综合练习)
  • python爬虫,如何在代理的IP被封后立刻换下一个IP继续任务?
  • 小程序开发——小程序项目的配置与生命周期
  • C语言之用指针交换两个数
  • Day 48 动态规划 part14
  • 目标检测与图像识别分类的区别?
  • 群晖设置DDNS (服务商Godaddy被墙 DDNS-GO无法解析 采用自定义脚本方式完成DDNS更新)
  • 博客摘录「 MySQL不区分大小写设置」2023年10月31日
  • 【UE5】如何在UE5.1中创建级联粒子系统
  • SpringCloud(五) Eureka与Nacos的区别
  • C语言 DAY07:预编译,宏,选择性编译,库(静态库,动态库)
  • [EFI]asus strix b760-i 13900F电脑 Hackintosh 黑苹果efi引导文件