当前位置：首页 > news >正文

python爬虫-网页数据提取

news 2025/8/26 4:10:43

import requests
#headers = 网页右键->Network->最下面的User-Agent复制。
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"}
#你想要的网址
url = "https://www.xinpianchang.com/discover/article?from=navigator"
response = requests.get(url, headers=headers)
print(response)# 打印200 说明访问成功
#下面是正式的数据提取，构建xpath的对象
from lxml import etree
tree = etree.HTML(response.text)#页面的元素树
##示例1 标题
elements = tree.xpath('//h2[@class="truncate block"]')#在Elements寻找你想要的元素，可以在页面移动#光标
for element in elements:print(element.text)
##也可以在elements中右键copy xpath，这里需要分析一下，将复制的xpath删除一部分
print(tree.xpath('//*[@id="__next"]/section/main/div/div/div/div/div/a/div/ul/li[1]/span[2]')[0].text)
print(tree.xpath('//*[@id="__next"]/section/main/div/div/div/div/div/a/div/ul/li[2]/span[2]')[0].text)
print(tree.xpath('/html/body/div/section/main/div/div/div/div/div/div/a/h2')[1].text)

在这里插入图片描述

http://www.lryc.cn/news/135089.html

相关文章：

ZigBee的Many-to-One和Source Routing

七夕节 Chinese Valentine‘s Day 的由来

掌握JDK21全新结构化并发编程，轻松提升开发效率！

【SA8295P 源码分析】00 - 系列文章链接汇总 - 持续更新中

TCP拥塞控制详解 | 6. 主动队列管理

前端学习清单

go atomic原子操作详细解读

Vue用JSEncrypt对长文本json加密以及发现解密失败

Excel/PowerPoint折线图从Y轴开始（两侧不留空隙）

C++的类成员对齐

敏感挂载userhelper容器逃逸复现

深度解读Promise.prototype.finally

如何实现24/7客户服务自动化？建设智能客服知识库

和鲸 ModelWhale 与中科可控多款服务器完成适配认证，赋能中国云生态

selenium +Jmeter 的性能测试

探索高效的HTTP异步接口测试方法：从轮询等待到自动化方案

Android资深工程书之LiveData核心组件原理剖析

Vue的五种方法实现加减乘除运算

C++（1）Linux基础知识

接口自动化yaml文件读取与写入

Java Map、JSONObject、实体类互转

在Hive/Spark上执行TPC-DS基准测试 (PARQUET格式）

基于CentOS搭建私有仓库harbor

PDF怎么转Word？8 个最佳 PDF 转 Word 转换器

老板都爱看的财务数据分析报表，全在这了

ZooKeeper（zk）与 Eureka 的区别及集群模式比较分析

搜狗拼音占用了VSCode及微信小程序开发者工具快捷键Ctrl + Shit + K 搜狗拼音截图快捷键

PMI-ACP值得考吗?在中国的前景如何?

centos 安装防火墙，并开启对应端口号

学习微信小程序时间延迟setTimeout和setInterval的使用方法