当前位置: 首页 > news >正文

python 爬取人民新闻

基础信息获取:

要闻url:https://www.gov.cn/yaowen/liebiao/home.htm

下一页的url:https://www.gov.cn/yaowen/liebiao/home_1.htm

基础代码:

import re
import openpyxl
import requests
from lxml import etree
import osdef download_xinwen():basic_url = 'https://www.gov.cn/yaowen/liebiao/home.htm'for num in range(1, 5):print(f"Downloading:第{num}页")new_url = 'https://www.gov.cn/yaowen/liebiao/home_{}.htm'.format(num)headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'}response = requests.get(new_url, headers=headers)response.encoding = 'utf8'# print(response.text)html = etree.HTML(response.text)xinwen_info = html.xpath('//div//li//h4/a/text()')xinwen_lianjie = html.xpath('//h4/a/@href')for describe, download_url in zip(xinwen_info, xinwen_lianjie):print("新闻标题:", describe, "|", "新闻链接:", download_url)# if "https" not in download_url:#     original_str = download_url#     new_str = original_str.replace("./", "")#     download_url ="https://www.gov.cn/yaowen/liebiao/" + new_str#     # print(download_url)# print("新闻标题:", describe, "|", "新闻链接:", download_url)# new_xinwen_url = download_url.split('.')[-1]# print(new_xinwen_url)download_xinwen()

返回:

 可以看到有的url链接爬取下来之后不是全路径,针对这个问题加上如下代码:

在for循环内加上判断,如果https不在url列表里,说明这个url不是全路径,将./全部替换成空字符,再拼接下基础url,这样遍有了url全路径

             if "https" not in download_url:original_str = download_urlnew_str = original_str.replace("./", "")download_url ="https://www.gov.cn/yaowen/liebiao/" + new_strprint("新闻标题:", describe, "|", "新闻链接:", download_url)

再次运行调试:

url连接都是全路径了

http://www.lryc.cn/news/319758.html

相关文章:

  • 蓝桥杯刷题(九)
  • 【NTN 卫星通信】 车辆物联网设备通过NTN和TN切换的应用场景
  • html5cssjs代码 014 布局框架
  • [EFI]Lenovo Ideapad 530S-14IKB电脑 Hackintosh 黑苹果efi引导文件
  • FFmpeg-aac、h264封装flv及时间转换
  • TCP并发模型 || select || poll || epoll
  • 【开源】SpringBoot框架开发房屋出售出租系统
  • STM32的简单介绍
  • 浏览器同源策略及跨域问题
  • 【读书笔记】知识图谱概述
  • 用尾插的思路实现 “合并两个有序链表”
  • 大数据 - Spark系列《十四》- spark集群部署模式
  • 考研C语言复习进阶(2)
  • 设计模式学习笔记 - 设计原则与思想总结:1.总结回顾面向对象、设计原则、编程规范、重构技巧等知识点
  • WPF图表库LiveCharts的使用
  • 第十三届蓝桥杯省赛C++ C组《全题目+题解》
  • Linux——线程池
  • Linux:搭建ntp服务器
  • unity学习(57)——选择角色界面--删除角色2
  • Flutter:构建美观应用的跨平台方案
  • 【深度学习模型移植】用torch普通算子组合替代torch.einsum方法
  • 鸿蒙 Harmony 初体验
  • Jmeter+ant,ant安装与配置
  • 【MySQL基础】MySQL基础操作三
  • 【K8s】肿么办??Kubernetes Secrets并不是Secret哟!!
  • 数星星 刷题笔记 (树状数组)
  • Windows→Linux,本地同步到服务器
  • Pycharm连接远程服务器Anoconda中的虚拟环境
  • 无人机自动返航算法实现与优化
  • 切面条-蓝桥杯?-Lua 中文代码解题第1题