当前位置: 首页 > news >正文

国家统计局教育部各级各类学历教育学生情况数据爬取

教育部数据爬取

    • 1、数据来源
    • 2、爬取目标
    • 3、网页分析
    • 4、爬取与解析
    • 5、如何使用Excel打开CSV


1、数据来源


国家统计局:http://www.stats.gov.cn/sj/

在这里插入图片描述

教育部:http://www.moe.gov.cn/jyb_sjzl/

在这里插入图片描述

数据来源:国家统计局教育部文献教育统计数据2021年全国基本情况(各级各类学历教育学生情况)

我们看到,最新的数据是到2021年

2、爬取目标


本次,我们爬取2021年教育统计数据全国基本情况各级各类学历教育学生情况数据

在这里插入图片描述

数据(部分)如下:

在这里插入图片描述

爬虫前必备知识:Python网络爬虫基本库详解:https://blog.csdn.net/weixin_55629186/article/details/132415946

3、网页分析


经过分析,我们发现,数据形式为HTML,数据主要嵌入在table标签中

在这里插入图片描述

4、爬取与解析


1)环境准备

import numpy as np
import pandas as pd
import requests
import re
from bs4 import BeautifulSoup

2)发起请求,获取响应

# URL
url = 'http://www.moe.gov.cn/jyb_sjzl/moe_560/2021/quanguo/202301/t20230104_1038067.html'
# 数据保存路径
out_path = r"C:\Users\cc\Desktop"def get_html_str(callback):headers = {
http://www.lryc.cn/news/218137.html

相关文章:

  • mysql、clickhouse时间日期加法
  • 21.合并两个有序链表
  • thinkphp漏洞复现
  • 暴力递归转动态规划(十三)
  • java EE 进阶
  • 记录paddlepaddle-gpu安装
  • django如何连接sqlite数据库?
  • 面试算法47:二叉树剪枝
  • 云安全-云原生k8s攻击点(8080,6443,10250未授权攻击点)
  • 性能压力测试主要目标及步骤
  • VLAN与配置
  • API接口安全设计
  • 服务器的管理口和业务口
  • 【gpt redis】原理篇
  • python二次开发Solidworks:排雷以及如何排雷?
  • 广告引擎检索技术快速学习
  • Scala的类和对象
  • SQL中 <>(不等于)运算符只会匹配那些具有非空值的记录
  • 冒泡排序(Java)
  • k8s集群调度
  • Scala中类的继承、抽象类和特质
  • 小程序如何实现登录数据持久化
  • Maven本地配置获取nexus私服的依赖
  • 第02章-变量与运算符
  • SpringBoot数据响应、分层解耦、三层架构
  • go测试库之apitest
  • K8S删除资源后一直处于Terminating状态无法删除解决方法
  • jvm实践
  • redis-plus-plus访问REDIS集群
  • python把Word题库转成Excle题库