当前位置: 首页 > news >正文

爬取图片python代码

在百度上爬取图片

pic_baidu.py

import re
import requests
from urllib import error
from bs4 import BeautifulSoup
import os
num = 0
numPicture = 0
file = ''
List = []def Find(url, A):global Listprint('正在检测图片总数,请稍等.....')t = 0i = 1s = 0while t < 1000:Url = url + str(t)try:Result = A.get(Url, timeout=7, allow_redirects=False)except BaseException:t = t + 60continueelse:result = Result.textpic_url = re.findall('"objURL":"(.*?)",', result, re.S)  # 先利用正则表达式找到图片urls += len(pic_url)if len(pic_url) == 0:breakelse:List.append(pic_url)t = t + 60return sdef recommend(url):Re = []try:html = requests.get(url, allow_redirects=False)except error.HTTPError as e:returnelse:html.encoding = 'utf-8'bsObj = BeautifulSoup(html.text, 'html.parser')div = bsObj.find('div', id='topRS')if div is not None:listA = div.findAll('a')for i in listA:if i is not None:Re.append(i.get_text())return Redef dowmloadPicture(html, keyword):global num# t =0pic_url = re.findall('"objURL":"(.*?)",', html, re.S)  # 先利用正则表达式找到图片urlprint('找到关键词:' + keyword + '的图片,即将开始下载图片...')for each in pic_url:print('正在下载第' + str(num + 1) + '张图片,图片地址:' + str(each))try:if each is not None:pic = requests.get(each, timeout=7)else:continueexcept BaseException:print('错误,当前图片无法下载')continueelse:string = file + r'\\' + '_' + str(num) + '.jpg'fp = open(string, 'wb')fp.write(pic.content)fp.close()num += 1if num >= numPicture:returnif __name__ == '__main__':  # 主函数入口##############################headers = {'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2','Connection': 'keep-alive','User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:60.0) Gecko/20100101 Firefox/60.0','Upgrade-Insecure-Requests': '1'}A = requests.Session()A.headers = headers###############################word = input("请输入搜索关键词:")# add = 'http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%BC%A0%E5%A4%A9%E7%88%B1&pn=120'url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + word + '&pn='tot = Find(url, A)Recommend = recommend(url)  # 记录相关推荐print('经过检测%s类图片共有%d张' % (word, tot))numPicture = int(input('请输入想要下载的图片数量:'))file = input('请建立存储图片的文件夹,输入文件夹名称即可:')y = os.path.exists(file)if y == 1:print('该文件已存在,请重新输入')file = input('请建立存储图片的文件夹,)输入文件夹名称即可:')os.mkdir(file)else:os.mkdir(file)t = 0tmp = urlwhile t < numPicture:try:url = tmp + str(t)result = A.get(url, timeout=10, allow_redirects=False)except error.HTTPError as e:print('网络错误,请调整网络后重试!')t = t + 60else:dowmloadPicture(result.text, word)t = t + 60print('当前搜索结束,感谢使用!')for re in Recommend:print(re, end='  ')
http://www.lryc.cn/news/260671.html

相关文章:

  • Android通过listview实现输入框自定义提示栏(代替AutoCompleteTextView自动完成文本框)
  • DA-AD试验
  • Leetcode—896.单调数列【简单】
  • vue2生命周期
  • 【Flink on k8s】 -- flink kubernetes operator 1.7.0 发布
  • Java网络编程,对使用UDP实现TCP(一)三次握手实现的补充
  • Redis 的常见使用场景
  • VRRP协议详解
  • Linux 常用命令----mktemp 命令
  • 基于ssm服装定制系统源码和论文
  • 【AI】如何准备mac开发vue项目的环境
  • BERT大模型:英语NLP的里程碑
  • JVM的类的生命周期
  • uni-app获取response header响应头(h5/app/小程序三端)
  • 本地部署语音转文字(whisper,SpeechRecognition)
  • js new 原理
  • 智能优化算法应用:基于黏菌算法3D无线传感器网络(WSN)覆盖优化 - 附代码
  • LeetCode每日一题——2132.用邮票贴满网格图
  • PyQt6 表单布局Form Layout (QFormLayout)
  • Python: any()函数
  • 一些AG10K FPGA 调试的建议-Douglas
  • 【模型量化】神经网络量化基础及代码学习总结
  • 次模和K次模是多项式可解吗?
  • 网络安全——SQL注入实验
  • 【cocotb】【达坦科技DatenLord】Cocotb Workshop分享
  • Kafka系列之:统计kafka集群Topic的分区数和副本数,批量增加topic副本数
  • 开具实习证明:在线实习项目介绍
  • MFC逆向之CrackMe Level3 过反调试 + 写注册机
  • 【Centos】
  • 1+X大数据平台运维职业技能等级证书中级