当前位置: 首页 > news >正文

使用DrissionPage实现xhs笔记自动翻页并爬取笔记视频、图片

使用DrissionPage实现xhs笔记自动翻页并爬取笔记视频、图片

声明:

本文章中所有内容仅供学习交流使用,不用于其他任何目的,不提供完整代码,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!

本文章未经许可禁止转载,禁止任何修改后二次传播,擅自使用本文讲解的技术而导致的任何意外,作者均不负责,若有侵权,请私信作者立即删除!

  • 近期小红书xs又更新了,刚好最近需要爬取某博主下的笔记信息,时间比较仓促,于是使用拽神来实现数据爬取的目的
  • 爬取数据效果图如下:
    爬取标题、描述、发布时间、最后更新时间、视频以及图片
    图片需要保持在对应文章行中,排在最后列,并且视频和图片需要下载到本地,在游标ID列上做超链接,点击可以跳转对应的图片或视频
    在这里插入图片描述
    话不多说,开干

首先我们需要想一下,如果不通过代码,我们平常从网站上获取这些信息,实现我们的数据需求,都需要哪些操作?

  • 打开目标网站,登录
  • 登录后查找指定博主,进入主页
  • 点击文章,进入详情界面,可以获取标题、描述、发布时间、视频或图片等信息
  • 关闭上一个文章界面,继续点击下一个,重复操作
http://www.lryc.cn/news/609334.html

相关文章:

  • Coin Combinations I(Dynamic Programming)
  • Docker环境离线安装指南
  • 解剖 .NET 经典:从 Component 到 BackgroundWorker
  • node.js常用函数
  • GaussDB case when的用法
  • SpringBoot AI自动化测试实战案例
  • GitCode疑难问题诊疗
  • Linux命令基础(下)
  • 1.内核模块
  • 14.Redis 哨兵 Sentinel
  • 2. 字符设备驱动
  • IO流-对象流
  • 克罗均线策略思路
  • `npm error code CERT_HAS_EXPIRED‘ 问题
  • Java Stream API 编程实战
  • 2025年渗透测试面试题总结-2025年HW(护网面试) 77-1(题目+回答)
  • 《测试驱动的React开发:从单元验证到集成协同的深度实践》
  • 【2025ICCV-目标检测方向】WaveMamba:用于 RGB-红外目标检测的小波驱动曼巴融合
  • 百度招黑产溯源安全工程师
  • SQL注入SQLi-LABS 靶场less31-38详细通关攻略
  • Maxscript在选择的可编辑多边形每个面上绘制一个内部圆形
  • 【高等数学】第七章 微分方程——第十节 常系数线性微分方程组解法举例
  • [硬件电路-140]:模拟电路 - 信号处理电路 - 锁定放大器概述、工作原理、常见芯片、管脚定义
  • 类与对象(中),咕咕咕
  • Zama的使命
  • 零确认双花攻击
  • 8月3日星期日今日早报简报微语报早读
  • 《从原理到实践:MySQL索引优化与SQL性能调优全解析》
  • 【Redis学习路|第一篇】初步认识Redis
  • C的运算符与表达式