当前位置: 首页 > news >正文

python爬虫(二)爬取国家博物馆的信息

import requests
from bs4 import BeautifulSoup# 起始网址
url = 'https://www.chnmuseum.cn/zx/xingnew/index_1.shtml'
# 用于存储所有数据
all_data = []
page = 1
global_index = 1  # 定义全局序号变量并初始化为1
while True:html_url = requests.get(url).textif requests.get(url).status_code == 200:print(f"第 {page} 页,请求成功")else :print(f"第 {page} 页,请求失败")soup = BeautifulSoup(html_url, 'lxml')  # 'lxml'是解析器类型,用于解析HTML文档,lxml是一个高性能的Python XML和HTML解析库datas = soup.select('li')for data in datas:a = data.select_one('a')span = data.select_one('span')if span and a:my_date = span.get_text()my_title = a.get_text()my_href = a.get('href')[2:]print(global_index,my_title, my_date, my_href)# 添加序号all_data.append((global_index, my_date, my_title, my_href))global_index+=1# 判断数据是否达到100条if len(all_data) >= 100:break# 查找下一页链接page += 1url = f'https://www.chnmuseum.cn/zx/xingnew/index_{page}.shtml'# 将数据保存到CSV文件
with open("数据保存.csv", 'w', encoding='utf-8') as file:file.write('序号,时间,标题,网址\n')for data in all_data:file.write('{},{},{},{}\n'.format(data[0], data[1], data[2], data[3]))

结果如下:

在这里插入图片描述
在这里插入图片描述

http://www.lryc.cn/news/484816.html

相关文章:

  • 【mysql的当前读和快照读】
  • [CKS] Audit Log Policy
  • 【Linux】-学习笔记03
  • Leetcode热题100-32 最长有效括号
  • 【大数据学习 | HBASE】hbase的读数据流程与hbase读取数据
  • A027-基于Spring Boot的农事管理系统
  • Redisson的可重入锁
  • SQL Server Service Broker完整示例
  • CentOS7 升级OpenSSH9.0全过程和坑
  • RSTP的配置
  • 力扣257:二叉树的所有路径
  • Tcl 和 Python 在二次开发研究
  • 【NLP优化】Ubuntu 20.04 下 源码安装 CasADi + Ipopt / acados
  • [241110] 微软发布多智能体系统Magentic-One | 社区讨论:Ubuntu 26.04 LTS 发布前移除 Qt 5
  • AI风向标|算力与通信的完美融合,SRM6690解锁端侧AI的智能密码
  • MySQL查询执行(六):join查询
  • python习题练习
  • MySQL高级(二):一条更新语句是如何执行的
  • 在 Ubuntu 18.04 中搭建和测试 DNS 服务器
  • 算法学习第一弹——C++基础
  • javaWeb小白项目--学生宿舍管理系统
  • 如何优化Elasticsearch的查询性能?
  • 蓝桥杯每日真题 - 第12天
  • 从H264视频中获取宽、高、帧率、比特率等属性信息
  • Cyberchef配合Wireshark提取并解析TCP/FTP流量数据包中的文件
  • Nginx中使用keepalive实现保持上游长连接实现提高吞吐量示例与测试
  • 深度学习-卷积神经网络CNN
  • 241114.学习日志——[CSDIY] [Cpp]零基础速成 [03]
  • 大模型研究报告 | 2024年中国金融大模型产业发展洞察报告|附34页PDF文件下载
  • 数据库SQL——什么是实体-联系模型(E-R模型)?