当前位置: 首页 > news >正文

多线程爬取百度图片

'''
爬取网页图片'''
import urllib.parse
import requests
import os
import time
from concurrent.futures import ThreadPoolExecutorheaders = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36"
}
INPUT = input("要查询的图片")# 创建文件夹
if not os.path.exists(f"./图片/{INPUT}"):os.mkdir(f"./图片/{INPUT}")print("已创建文件夹")PAGES = int(input("要爬取的页数(1页30张)"))
INPUT_str = urllib.parse.quote(INPUT)# PAGE 是一个接口存放30张
start_time = time.time()
urls = []
for i in range(1,PAGES+1):url = f"https://image.baidu.com/search/acjson?tn=resultjson_com&logid=5179920884740494226&ipn=rj&ct=201326592&is=&fp=result&queryWord={INPUT_str}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&hd=&latest=&copyright=&word={INPUT_str}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&expermode=&nojc=&pn={ i*30}&rn=30&gsm=1e&1635054081427= "urls.append(url)def Request(url):global picture_numresponse = requests.get(url=url,headers = headers)# print(response.status_code)  # 状态码datas = response.json()['data']# print(len(datas)) # 长度for data in datas:try:url_every = data['thumbURL']url_type = data['type']response = requests.get(url=url_every,headers = headers).content# 多线程去执行的时候,为了防止覆盖,所以用时间戳代表每一张图片with open(f"./图片/{INPUT}/{int(time.time()*1000000)}.{url_type}","wb") as w:w.write(response)except:pass
# 多线程爬取图片
with ThreadPoolExecutor(max_workers=len(urls)) as e:for url in urls:e.submit(Request,url)end_time = time.time()
print("用时:",round(end_time-start_time,2))
http://www.lryc.cn/news/369422.html

相关文章:

  • RK3568-修改fiq-debugger调试串口
  • 我们离成功有多远呢?只要能完成自己阶段性的目标就算是一次成功
  • Golang 避坑指南
  • Java核心: JarIndex的使用
  • 1052 卖个萌(测试点1,2)
  • Vue 3与ESLint、Prettier:构建规范化的前端开发环境
  • npm安装依赖过慢
  • 计算机毕业设计 | SpringBoot+vue的教务管理系统
  • 深入探索深度学习的验证集:必要还是可选?
  • 初识C++ · 反向迭代器简介
  • fastapi学习前置知识点
  • 机器学习常见知识点 1:Baggin集成学习技术和随机森林
  • 容器(Docker)安装
  • 前端JS必用工具【js-tool-big-box】学习,获取当前浏览器向上滚动还是向下滚动,获取当前距离顶部和底部的距离
  • 【python】flask 框架
  • Word中插入Mathtype右编号,调整公式与编号的位置
  • 基于【Lama Cleaner】一键秒去水印,轻松移除不想要的内容!
  • VMware Workstation Ubuntu server 24 (Linux) 磁盘扩容 挂载硬盘
  • 表的设计与查询
  • 【react】如何合理使用useEffect
  • 计算机专业英语Computer English
  • 目前比较好用的LabVIEW架构及其选择
  • CSS之块浮动
  • 探索GPT-4V在学术领域的应用——无需编程即可阅读和理解科学论文
  • 耐用充电宝有哪些?优质充电宝到底选哪个?良心推荐!
  • 何为屎山代码?
  • 基于esp8266_点灯blinker_智能家居
  • Web前端开发交流群:深度探索、实践与创新的集结地
  • 苹果AI一夜颠覆所有,Siri史诗级进化,内挂GPT-4o
  • 量子计算的奥秘与魅力:开启未来科技的钥匙(详解)