当前位置: 首页 > news >正文

python爬虫-网页数据提取

import requests
#headers = 网页右键->Network->最下面的User-Agent复制。
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"}
#你想要的网址
url = "https://www.xinpianchang.com/discover/article?from=navigator"
response = requests.get(url, headers=headers)
print(response)# 打印200 说明访问成功
#下面是正式的数据提取,构建xpath的对象
from lxml import etree
tree = etree.HTML(response.text)#页面的元素树
##示例1 标题
elements = tree.xpath('//h2[@class="truncate block"]')#在Elements寻找你想要的元素,可以在页面移动#光标
for element in elements:print(element.text)
##也可以在elements中右键copy xpath,这里需要分析一下,将复制的xpath删除一部分
print(tree.xpath('//*[@id="__next"]/section/main/div/div/div/div/div/a/div/ul/li[1]/span[2]')[0].text)
print(tree.xpath('//*[@id="__next"]/section/main/div/div/div/div/div/a/div/ul/li[2]/span[2]')[0].text)
print(tree.xpath('/html/body/div/section/main/div/div/div/div/div/div/a/h2')[1].text)

在这里插入图片描述
在这里插入图片描述

http://www.lryc.cn/news/135089.html

相关文章:

  • ZigBee的Many-to-One和Source Routing
  • 七夕节 Chinese Valentine‘s Day 的由来
  • 掌握JDK21全新结构化并发编程,轻松提升开发效率!
  • 【SA8295P 源码分析】00 - 系列文章链接汇总 - 持续更新中
  • TCP拥塞控制详解 | 6. 主动队列管理
  • 前端学习清单
  • go atomic原子操作详细解读
  • Vue用JSEncrypt对长文本json加密以及发现解密失败
  • Excel/PowerPoint折线图从Y轴开始(两侧不留空隙)
  • C++的类成员对齐
  • 敏感挂载userhelper容器逃逸复现
  • 深度解读Promise.prototype.finally
  • 如何实现24/7客户服务自动化?建设智能客服知识库
  • 和鲸 ModelWhale 与中科可控多款服务器完成适配认证,赋能中国云生态
  • selenium +Jmeter 的性能测试
  • 探索高效的HTTP异步接口测试方法:从轮询等待到自动化方案
  • Android资深工程书之LiveData核心组件原理剖析
  • Vue的五种方法实现加减乘除运算
  • C++(1)Linux基础知识
  • 接口自动化yaml文件读取与写入
  • Java Map、JSONObject、实体类互转
  • 在Hive/Spark上执行TPC-DS基准测试 (PARQUET格式)
  • 基于CentOS搭建私有仓库harbor
  • PDF怎么转Word?8 个最佳 PDF 转 Word 转换器
  • 老板都爱看的财务数据分析报表,全在这了
  • ZooKeeper(zk)与 Eureka 的区别及集群模式比较分析
  • 搜狗拼音占用了VSCode及微信小程序开发者工具快捷键Ctrl + Shit + K 搜狗拼音截图快捷键
  • PMI-ACP值得考吗?在中国的前景如何?
  • centos 安装防火墙,并开启对应端口号
  • 学习微信小程序时间延迟setTimeout和setInterval的使用方法