当前位置: 首页 > news >正文

大数据技术在民生资金专项审计中的应用

一、应用背景

目前,针对审计行业,关于大数据技术的相关研究与应用一般包括大数据智能采集数据技术、大数据智能分析技术、大数据可视化分析技术以及大数据多数据源综合分析技术。其中,大数据智能采集数据技术是通过网络爬虫或者WebService接口实现跨部门在线数据交互;大数据的多数据源综合分析技术是目前审计领域应用大数据比较成熟和主流的内容,它是通过对采集来的各行、各业、各类大数据,采用数据查询等常用方法或其他大数据技术方法进行相关数据的综合比对和关联分析,从而可以发现更多隐藏的审计线索。本文以大数据智能采集数据技术和大数据多数据源综合分析技术为例,设计大数据审计案例。

二、方案设计

本次以失业保险基金专项审计为案例,设计大数据审计方案,由下图可以看出,大数据审计的流程是:首先广泛采集不同原始数据;原始数据存在噪声、异常值、缺失值等问题,所以需要对原始数据预处理,方便后面数据分析;接着根据业务需求,选择合适的数据分析模型,数据量大的话可以选择MySQL、oracle、SqlServer等SQL语言对数据进行查询分析,数据量小的话可以选择excel常用的内嵌函数,技术是服务项目的,能解决项目问题的技术就是好技术;最后根据数据分析结果发现审计疑点。
在这里插入图片描述

三、数据采集、预处理

在民生资金审计项目中,要根据审计实施方案明确数据采集范围。失业保险基金审计项目需要采集的数据有业务数据和外部关联数据。业务数据包含相关政策法规、公示公告信息、领取失业补助金明细表、技能提升补贴明细表等,这些数据由被审计单位提供,也可以通过网络爬虫的方式获取政策法规、公示公告等文本信息。外部关联数据包含社保缴费记录、死亡信息、移民境外数据、被判刑收监执行数据等,这些数据包含一些敏感信息,难以直接采集,有的信息需要逐条从相关信息系统查询,给大数据审计工作带来阻力。

1、网络爬虫应用背景

在这里插入图片描述

2、什么是网络爬虫

网络爬虫是一种自动化程序,可以从互联网上抓取数据。爬虫通过HTTP协议与互联网上的服务器进行通信,获取HTML页面或者其他格式的数据。这些数据可以用于各种用途,例如搜索引擎、数据挖掘、舆情监测等。

3、Java中的网络爬虫框架

 Java中有很多优秀的网络爬虫框架,例如Jsoup、HttpClient、WebMagic等。本文将以WebMagic为例,介绍如何使用Java编写一个简单的网络爬虫程序。

4、WebMagic介绍

 WebMagic是一个基于Java开发的分布式网络爬虫框架。它提供了简单易用的API接口,可以方便地进行定制化开发。WebMagic支持多线程下载和分布式处理,并且支持解析HTML、XML和JSON等多种页面格式。

5、WebMagic的基本使用

①、定义一个爬虫类,实现PageProcessor接口,并重写其process方法。②、在process方法中,编写抓取逻辑,包括解析页面、提取数据等操作。③、使用WebMagic提供的选择器(Selector)工具,可以通过CSS选择器、XPath等方式来定位页面元素。④、利用Page对象提供的方法,获取页面数据,并保存到自定义的数据结构中。⑤、在抓取逻辑完成后,将数据输出到文件、数据库或其他目标。

6、具体Java代码实现

package com.nzsjj.service;import com.nzsjj.entity.Title;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.stereotype.Service;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.
http://www.lryc.cn/news/276296.html

相关文章:

  • 视觉SLAM十四讲|【四】误差Jacobian推导
  • 「实战应用」如何用DHTMLX Gantt构建类似JIRA式的项目路线图(一)
  • 【习题】应用程序框架
  • java基于ssm的线上选课系统的设计与实现论文
  • 汽车雷达:实时SAR成像的实现
  • 《C++语言程序设计(第5版)》(清华大学出版社,郑莉 董渊编著)习题——第2章 C++语言简单程序设计
  • 2023年生成式AI全球使用报告
  • 安全防御之漏洞扫描技术
  • SPON世邦 IP网络对讲广播系统 多处文件上传漏洞复现
  • Python综合数据分析_RFM用户分层模型
  • 【C++进阶04】STL中map、set、multimap、multiset的介绍及使用
  • 在 Linux 中开启 Flask 项目持续运行
  • 考研个人经验总结【心理向】
  • 如何在CentOS安装SQL Server数据库并通过内网穿透工具实现公网访问
  • jupyter内核错误
  • 设计模式的艺术P1基础—2.3 类之间的关系
  • 工业无人机行业研究:预计2025年将达到108.2亿美元
  • PCA主成分分析算法
  • Hyperledger Fabric 权限策略和访问控制
  • Day28 回溯算法part04 93. 复原IP地址 78. 子集 90. 子集 II
  • Linux系统常用的安全优化
  • Vue-4、单向数据绑定与双向数据绑定
  • 【Flutter 开发实战】Dart 基础篇:常用运算符
  • C++:ifstream通过getline读取文件会忽略最后一行空行
  • 力扣123. 买卖股票的最佳时机 III
  • Vue3:vue-cli项目创建
  • C# .Net学习笔记—— 异步和多线程(Task)
  • Python从入门到网络爬虫(读写Excel详解)
  • Mysql之子查询、连接查询(内外)以及分页查询
  • 计算机的存储单位