当前位置: 首页 > news >正文

python-爬取壁纸

代理池的,防止IP 被封

找到图片真实地址

现在看到的只是图片的预览地址 (previews)

1.检查:

2.鼠标变为箭头时查看网页源代码

关于怎样在源代码中找到图片的真实地址 ???

为什么在源代码界面 ctrl f 时候搜索的是 .png ???

首先图片地址是以 .jpg .png .jpeg 结尾

真实的图片地址是:

"contentUrl":"https://img3.wallspic.com/crops/0/5/0/6/7/176050/176050-old_paria_utah-paria-kanab-paria_river-towers_of_the_virgin-6319x4324.jpg"

用正则表达式匹配,只匹配高像素源图片

(r'contentUrl":"(https://img\d.wallspic.com/crops/.*?)"', response)

如果是下面的内容,则会连缩略图也匹配到

(r'"contentUrl":"(.*?)"',req)

最终代码:

import requests
import reurl = 'https://wallspic.com/cn/album/ji_shu/for_desktop'response = requests.get(url = url).textcontentUrl = re.findall(r'contentUrl":"(https://img\d.wallspic.com/crops/.*?)"', response)
j = 0
for i in contentUrl:j += 1Content = requests.get(url = i).contentprint(i)with open(f'Wallspic-{j}.jpg', mode = 'wb') as f:f.write(Content)print(f'[+] 壁纸{j}保存完成!')

最终结果是以.jpg的形式输出的

也可以以 .png的形式输出,.png是益处多多

Desktop Wallpapers - Download HD Desktop Backgrounds

https://wall.alphacoders.com/by_sub_category.php?id=170792&name=Black+Wallpapers

下载的慢可能是网速的原因,需要翻墙;或者给 idea 配置代理,

刷新电脑本地的线路,保持畅通。 

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

import requests
import redef download_wallpapers(start_page, end_page):for page in range(start_page, end_page+1):url = f'https://wallspic.com/cn/album/dianying/popular?page={page}'response = requests.get(url=url).textcontentUrl = re.findall(r'contentUrl":"(https://img\d.wallspic.com/crops/.*?)"', response)j = 0for i in contentUrl:j += 1Content = requests.get(url = i).contentprint(i)with open(f'p-{page}-{j}.jpg', mode = 'wb') as f:f.write(Content)print(f'[+] 壁纸{page}-{j}保存完成!')
# 下载第1页到第55页的壁纸
download_wallpapers(1, 55)

 

这段代码的作用是从wallspic.com网站下载电影壁纸,具体解读如下:

  1. 导入requests和re模块:
import requests
import re
  1. 定义一个函数download_wallpapers,该函数接受两个参数:起始页码start_page和结束页码end_page。
def download_wallpapers(start_page, end_page):
  1. 使用for循环遍历从start_page到end_page的所有页码。
for page in range(start_page, end_page+1):
  1. 构造每个页面的URL,并使用requests.get()方法获取页面的HTML文本。
url = f'https://wallspic.com/cn/album/dianying/popular?page={page}'
response = requests.get(url=url).text
  1. 使用正则表达式从HTML文本中提取出所有壁纸的下载链接。
contentUrl = re.findall(r'contentUrl":"(https://img\d.wallspic.com/crops/.*?)"', response)
  1. 使用for循环遍历所有壁纸的下载链接,并使用requests.get()方法下载每个壁纸。
for i in contentUrl:Content = requests.get(url = i).content
  1. 将每个壁纸保存到本地,并打印出保存完成的信息。
with open(f'p-{page}-{j}.jpg', mode = 'wb') as f:f.write(Content)print(f'[+] 壁纸{page}-{j}保存完成!')
http://www.lryc.cn/news/259477.html

相关文章:

  • 第31期 | GPTSecurity周报
  • 湖仓一体架构理论与实践汇总
  • Redission从入门到入门
  • PHP对接企业微信
  • 【原创】录剪视频的折腾之路
  • 【BI】FineBI功能学习路径-20231211
  • pytorch之torch.utils.data学习
  • Spring Boot 3中一套可以直接用于生产环境的Log4J2日志配置
  • iOS按钮控件UIButton使用
  • 小程序开发实战案例之三 | 小程序底部导航栏如何设置
  • Android : 序列化 JSON简单应用
  • Java小案例-RocketMQ的11种消息类型,你知道几种?(普通消息和批量消息)
  • 前端小技巧: 设计一个简版前端统计 SDK
  • DevOps搭建(十一)-Jenkins容器内部使用Docker详解
  • 用户访问认证
  • 前端知识(七)———HTTPS:保护网络通信安全的关键
  • element-ui按钮el-button,点击之后恢复之前的颜色
  • Excel: Python 如何干掉 VBA 系列 乙
  • 算法笔记—链表、队列和栈
  • MySQL中的时间函数整理汇总
  • stu06-VSCode里的常用快捷键
  • Bypass open_basedir
  • 【数据库设计和SQL基础语法】--查询数据--过滤
  • 关于git clone速度极慢的解决方法
  • 软件设计不是CRUD(8):低耦合模块设计实战——组织机构模块(下)
  • docker-compose Install gitea
  • 【Pytorch】学习记录分享1——Tensor张量初始化与基本操作
  • Python数据科学视频讲解:Python的数据运算符
  • 参数学习——糖果问题(人工智能期末复习)
  • 【深度学习】注意力机制(六)