当前位置: 首页 > news >正文

Python爬虫实战(基础篇)—13获取《人民网》【最新】【国内】【国际】写入Word(附完整代码)

文章目录

  • 专栏导读
  • 背景
  • 测试代码
    • 分析
    • 请求网址
    • 请求参数
    • 代码测试
  • 数据分析
    • 利用lxml+xpath进一步分析
  • 将获取链接再获取文章内容
    • 测试代码
  • 写入word
  • 完整代码
  • 总结

在这里插入图片描述

专栏导读

🔥🔥本文已收录于《Python基础篇爬虫》

🉑🉑本专栏专门针对于有爬虫基础准备的一套基础教学,轻松掌握Python爬虫,欢迎各位同学订阅,专栏订阅地址:点我直达

🤞🤞此外如果您已工作,如需利用Python解决办公中常见的问题,欢迎订阅《Python办公自动化》专栏,订阅地址:点我直达

🔺🔺此外《Python30天从入门到熟练》专栏已上线,欢迎大家订阅,订阅地址:点我直达

背景

  • 由于我最近想学习关于人民网的一些信息,我看到页面有三个模块,分别是【最新】【国内】【国际】,于是我想获取这三个模块的文章,并写入word文档中

测试代码

分析

1、首先我们发现请求响应的返回不在【Response】中,而是直接在网页中

2、我们发现网页中有三个【li】标签,分别表示【最新】【国内】【国际】中的文章url

3、所以我们决定此次爬虫应该是用 lxml+xpath比较合适,说干就干!

在这里插入图片描述

请求网址

url: http://jhsjk.people.cn/

请求参数

代码测试

# -*- coding: UTF-8 -*-
'''
@Project :人民网爬虫 
@File    :main_.py
@IDE     :PyCharm 
@Author  :一晌小贪欢(278865463@qq.com)
@Date    :2024/3/3 11:54 
'''
import jsonimport requestsurl = 'http://jhsjk.people.cn/'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'}res_data= requests.post(url=url, headers=headers)
# print(res_data.text)
res_data.encoding = "utf-8"
print(res_data.text)

数据分析

利用lxml+xpath进一步分析

在这里插入图片描述

我们看见每一个 文章链接在a标签中文章标题在span标签中

知道这个就好办了!

先利用lxml获取所有的【li】

news_data = tree.xpath('//div[@class="news-box"]//div[@class="news"]//ul//li')

获取文章链接

url_data = i.xpath('a/@href')[0]

获取标题

title = i.xpath('a/span')<
http://www.lryc.cn/news/313543.html

相关文章:

  • 常见控件应用
  • 什么是降压恒流芯片?它有什么作用?
  • 14:00面试,15:00就出来了,问的问题过于变态了。。。
  • Maven的settings.xml配置
  • 利用redis实现秒杀功能
  • vscode 使用ssh进行远程开发 (remote-ssh),首次连接及后续使用,详细介绍
  • rabbitmq总结
  • 专利预审是什么
  • 淘宝商品详情数据丨商品搬家丨商品采集丨商城建站
  • redis(1)-key-value-基本概念
  • cocos creator 3.7.2使用shader实现图片扫光特效
  • 【C++杂货铺】详解string
  • 算法刷题day20:二分
  • 【Spring云原生】Spring Batch:海量数据高并发任务处理!数据处理纵享新丝滑!事务管理机制+并行处理+实例应用讲解
  • docker ubuntu20.04 安装教程
  • 防御保护----IPSEC VPPN实验
  • 音视频数字化(视频线缆与接口)
  • 爬虫实战——巴黎圣母院新闻【内附超详细教程,你上你也行】
  • mysql的语法总结2
  • 一度电竟然可以做这么多事情!
  • 【Go】golang值交换,指针
  • 共享WiFi软件哪家强?2024年共享wifi项目排名为你揭晓!
  • Hudi入门
  • LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS
  • 使用Pytorch导出自定义ONNX算子
  • unity-urp:视野雾
  • Spring Cloud Gateway介绍及入门配置
  • Thingsboard本地源码部署教程
  • 【MySQL 系列】MySQL 起步篇
  • C++的成员初始化列表