当前位置: 首页 > news >正文

小红书笔记爬虫

⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️
🐴作者:秋无之地

🐴简介:CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作,主要擅长领域有:爬虫、后端、大数据开发、数据分析等。

🐴欢迎小伙伴们点赞👍🏻、收藏⭐️、留言💬

这次来给大家分享一下小红书笔记的爬取方式,希望对大家有帮助!

一、找到目标数据:

小红书笔记的内容和互动数据(点赞数、收藏数、评论数)如下:

二、找到数据所在接口或页面:

通过f12,搜索笔记ID,找到对应的接口,然后在接口返回信息体中,搜索点赞数,发现找到对应的数据,说明这个接口或页面就是我们的目标

三、检查接口或页面的请求参数:

通过检查接口的请求参数,判断是否有加密参数、混淆参数等,下图可以看到,除了一个cookie参数以外,其他参数都是不变的

四、获取登录cookie:

一般获取登录cookie,方式有2种,第一种是接口请求,另一种是模拟登录,相对而言,第二种简单点。具体操作,请查下我另一个的一篇文章。

五、返回数据抽取目标数据:

目标数据是存放在这个字典中,可以使用正则匹配,匹配结果就能通过字典读取了。

# 正则匹配
note_result = re.findall(r'__INITIAL_STATE__=(.*?)</script>', note_res)[0].replace("undefined",'null')
###用户描述###
# 笔记标题
note_info_dict['title'] = note_dict['title']
# 笔记数据
interactions = note_dict['interactInfo']
# 点赞数
note_info_dict['liked_count'] = int(interactions['likedCount'])
# 收藏数
note_info_dict['collected_count'] = int(interactions['collectedCount'])
# 评论数
note_info_dict['comments_count'] = int(interactions['commentCount'])
# 分享数
note_info_dict['share_num'] = int(interactions['shareCount'])

以上就是我的分享,如果有什么不足之处请指出,多交流,谢谢!

如果喜欢,请关注我的博客:https://my.csdn.net/weixin_42108731

http://www.lryc.cn/news/158089.html

相关文章:

  • 国密GmSSL v2版本命令行方式生成国密sm2私钥、公钥、签名和验证签名
  • 2023年9月惠州/深圳CPDA数据分析师认证找弘博创新
  • it运维监控管理平台,统一运维监控管理平台
  • TDengine 官网换了新“皮肤”,来看看这个风格是不是你的菜
  • MFC:自绘CListBox,GetText返回一个乱码
  • shell 脚本发布前后端代码
  • 我的私人笔记(Linux中安装mysql)
  • IDEA版SSM入门到实战(Maven+MyBatis+Spring+SpringMVC) -Maven目录结构和idea的整合
  • Android Automotive概述
  • iOS 16.4更新指南:问题解答与新功能一览
  • Vue + Element UI 前端篇(八):管理应用状态
  • 开发常用代码区
  • SpringBoot+MySQL+Vue前后端分离的宠物领养救助管理系统(附论文)
  • ClickHouse 存算分离改造:小红书自研云原生数据仓库实践
  • STM32-DMA
  • 1065 A+B and C (64bit)
  • 阿里云效和阿里在线idea使用
  • [git] 删除分支中的内容 -> 空分支
  • git 配置
  • vue router进行路由跳转并携带参数(params/query)
  • Mysql触发器
  • 认识doubbo和rpc
  • get_views中list的arch格式
  • 淘宝商品销量接口API更新(总销+精准月销API)
  • Android 11编译第三弹 ADB开启ROOT权限
  • 《TCP/IP网络编程》--基于TCP实现字符串对话和文件传输
  • Feign负载均衡写法
  • OpenCV(二十八):连通域分割
  • 达梦控制台还原报错“管道失败”
  • [杂谈]-快速了解直接内存访问 (DMA)