当前位置: 首页 > news >正文

python爬取图片(thumbURL和html文件标签分别爬取)

  当查看源代码,发现网址在thumbURL之后时,用此代码:

# 当查看源代码,发现网址在thumbURL之后时,用此代码:import requestsheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:121.0) Gecko/20100101 Firefox/121.0','Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8','Accept-Encoding':'gzip, deflate, br','Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2'
}url = input("请输入你想保存的图片的网址:")
response = requests.get(url, headers = headers)
print(response)
print(response.status_code)file = input("请输入你想图片保存在的文件夹名称:")import os
os.makedirs(f'./{file}', exist_ok = True)
# 新建目录,用于存储图片
# def makedirs(name, mode=0o777, exist_ok=False):
# 参数说明:
#     name:用于指定要创建目录的路径。
#     mode:指定目录的模式,默认模式为八进制的 777。类似于 chmod() 方法。
#     exist_ok:可选参数,如果值为 False,当要创建的目录已经存在时,抛出 FileExistsError 异常;如果值为True,
#         当要创建的目录已经存在时,不会抛出异常。默认值为 False。import re
html = response.text
image_url_list = re.findall('"thumbURL":"(.*?)",', html, re.S)
# 用于查找得到thumbURL后面的图片网址,目前还不会正则表达式# print(image_url_list)
q = 0
for url in image_url_list:# print(url)res=requests.get(url)picture=res.contentq+=1with open(f'{file}\\{q}.jpg',mode='wb') as f:f.write(picture)# 在小猫文件夹下保存图片,以q为图片文件名

 

#  当用requests.get请求得到的源代码是html文件,每一行是一个标签时,可以用此代码

# 当用requests.get请求得到的源代码是html文件,每一行是一个标签时,可以用此代码
import requests
from bs4 import BeautifulSoupheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:121.0) Gecko/20100101 Firefox/121.0','Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8','Accept-Encoding':'gzip, deflate, br','Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2'
}url = input("请输入你想保存的图片的网址:")
response = requests.get(url, headers = headers)
print(response)
print(response.status_code)file = input("请输入你想图片保存在的文件夹名称:")
# response=requests.get('https://www.umei.cc/meinvtupian/')
response.encoding='utf-8'
# print(response.text)
soup=BeautifulSoup(response.text,'html.parser')
# print(soup)import os
os.makedirs(f'./图片/{file}', exist_ok=True)lis = soup.find_all('div',class_="taotu-main")
# print(a)
print("*********")q=0t = 0
for l in lis:if(t == 0):print(l)t += 1p=l.find_all('img')for i in p:pic=i.get('data-original')print(pic)res=requests.get(pic)picture=res.contentq+=1with open(f'图片/{file}\\{q}.jpg',mode='wb') as f:f.write(picture)

http://www.lryc.cn/news/284628.html

相关文章:

  • MySQL、Oracle 常用SQL:建表、建视图、数据增删改查、常用condition
  • Docker(八)高级网络配置
  • VUE--- ref refs
  • 微信小程序之WXML 模板语法之数据绑定、事件绑定、wx:if和列表渲染
  • maven导入无法拉取所需依赖
  • 【2023-08-20】字节跳动秋招笔试四道编程题解
  • VPS网站发布-个人网站搭建与部署-个人简历网站示例-个人简历网站案例-网站推广
  • INTEWORK—PET 汽车软件持续集成平台
  • 【Git】 取消上一次commit或push
  • 回归预测 | Matlab基于OOA-SVR鱼鹰算法优化支持向量机的数据多输入单输出回归预测
  • Spring Boot整合MyBatis
  • MySQL语句 | 在MySQL中解析JSON或将表中字段值合并为JSON
  • 基于springboot+vue的图书个性化推荐系统(前后端分离)
  • 将自然数序列剔除掉包含4的数字,求第k(1e12)个数是什么
  • 用Photoshop来制作GIF动画
  • 原地swap(inplace_swap)
  • 《JVM由浅入深学习九】 2024-01-15》JVM由简入深学习提升分(生产项目内存飙升分析)
  • 统计学-R语言-4.6
  • git提权
  • 实验四 SQL语言
  • 2024年简历石沉大海,别投了,软件测试岗位饱和了....
  • JS执行顺序
  • Vscode 上安装 Compilot
  • Spring集成MyBatis与MyBatis-Plus添加分页插件
  • Windows下载安装vcpkg并使用它来安装第三方库(visualstudio)
  • leetcode-2788按分隔符拆分字符串
  • 使用Ctrl+Alt+T快速打开Windows Terminal终端
  • Redis 消息队列和发布订阅
  • 去掉element-ui的el-table的所有边框+表头+背景颜色
  • 还在手动复制文章吗?教你如何一键将文章从notion同步到WordPress