当前位置: 首页 > news >正文

【爬虫专区】批量下载PDF (无反爬)

天命:只要没反爬,一切都简单

这次爬取的是绿盟的威胁情报的PDF

先看一下结构,很明显就是一个for循环渲染

burp抓包会发现第二次接口请求

接口请求一次就能获取到了所有的数据

然后一个循环批量下载数据即可,其实没啥难度的

import requests,osres = requests.get("https://nti.nsfocus.com/api/v2/report/notie/?page=1&size=200&order=reported")
data_dict = res.json() # 提取json格式
当前相对路径 = os.getcwd()  # 获取绝对路径,每个人电脑不一样,所以预算是相对路径
os.mkdir("PDF") # 在当前文件夹下,创建一个PDF文件夹# 提取data字段
data = data_dict['data']
for 数据 in data:日期 = 数据['created']日期 = 日期.split("T")[0]标题 = 数据['title']文件名 = 数据['children'][0]['file_name']url = "https://nti.nsfocus.com/api/v2/report/pdf/?file="+ 文件名 最终文件名 = 日期+标题+文件名response = requests.get(url, stream=True)  # 开始下载文件f = open(f"{当前相对路径}\\PDF\\{最终文件名}","wb")for 文件流 in response.iter_content(chunk_size=1024):  # 应该是提取每一页f.write(文件流)  # 把每一页写入PDF中print("文件已下载")

http://www.lryc.cn/news/294680.html

相关文章:

  • PostgreSQL解决序列(自增id)自动增长冲突
  • 1.0 Zookeeper 分布式配置服务教程
  • (Flutter 常用插件整理
  • vue2.0+使用md-edit编辑器
  • Java设计模式大全:23种常见的设计模式详解(二)
  • 【算法与数据结构】718、1143、1035、392、115、LeetCode最长重复子数组+最长公共子序列+不相交的线+判断子序列+不同的子序列
  • OCR文本纠错思路
  • 【java批量导出pdf】优化方案
  • Linux第42步_移植ST公司uboot的第3步_uboot命令测试,搭建nfs服务器和tftp服务器
  • C++枚举算法(3)
  • 【51单片机】LED的三个基本项目(LED点亮&LED闪烁&LED流水灯)(3)
  • Day 17------C语言收尾之链表的删除、位运算、预处理、宏定义
  • python_蓝桥杯刷题记录_笔记_全AC代码_入门5
  • 二叉树的详解
  • 【第三十五节】idea项目的创建以及setting和Project Structure的设置
  • 【c++】跟webrtc学引用计数
  • 开源免费的物联网网关 IoT Gateway
  • 华为OD机试真题C卷-篇3
  • [SWPUCTF 2021 新生赛]include
  • LeetCode、17. 电话号码的字母组合【中等,dfs回溯】
  • SSRF漏洞给云服务元数据带来的安全威胁
  • 【C++】强制类型转换
  • java日志框架总结(四 、JCL日志门面技术)
  • mfc140.dll丢失的几种修复方式,有效的解决文件丢失问题
  • 从一个小故事讲解观察者模式~
  • LeetCode、1137. 第 N 个泰波那契数【简单,动态规划】
  • Python爬虫urllib详解
  • Linux嵌入式开发+驱动开发-中断
  • android tv开发-1,leanback
  • chisel RegInit/UInt/U