当前位置: 首页 > news >正文

爬虫2—用爬虫爬取壁纸(想爬多少张爬多少张)

先看效果图:

 我这个是爬了三页的壁纸60张。


上代码了。

import requests
import re
import os
from bs4 import BeautifulSoupcount=0
img_path = "./壁纸图片/"#指定保存地址
if not os.path.exists(img_path):os.mkdir(img_path)
headers={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36 Edg/121.0.0.0",
"Accept":"image/avif,image/webp,image/apng,image/svg+xml,image/*,*/*;q=0.8",
"Accept-Encoding":"gzip, deflate, br",
"Accept-Language":"zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6"
}
for num in range(2,5,1):url=f"http://www.netbian.com/index_{num}.htm"html=requests.get(url,headers=headers)html.encoding = "gbk"print(html.status_code)if html.ok:html = html.text#print(html)soup = BeautifulSoup(html,'html.parser')all_list=soup.find(class_="list")all_img = all_list.find_all("img")for img in all_img:src=img['src']print(src)count+=1myimg = requests.get(src)file_name = f'{img_path}图片{str(count)}.jpg'# 图片和音乐WB的二进制写入方式f = open(file_name, "wb")f.write(myimg.content)

看起来还挺简单的,但是我花了,一下午的时间,去看b站和自己试试。才搞完。效率好低。

上面导入了re的包,我想用re但是我不会经过简单的尝试放弃了。

简单说一下代码吧!!!

1.上面那个头,在我上一篇的爬虫,有该怎么找!!!
2.

count=0
img_path = "./壁纸图片/"#指定保存地址
if not os.path.exists(img_path):os.mkdir(img_path)

这里count是图片名字,img_path是有没有这样一个文件夹,来让我存储我的壁纸。if么有就新建。

3.

for num in range(2,5,1):url=f"http://www.netbian.com/index_{num}.htm"html=requests.get(url,headers=headers)html.encoding = "gbk"print(html.status_code)

这里的gbk我想写一下:
GBK和UTF-8的解码方式——这个就是为了防止乱码

这个是在知乎上找的,very good!

4.

 这个就很重要了

html = html.text#print(html)soup = BeautifulSoup(html,'html.parser')all_list=soup.find(class_="list")all_img = all_list.find_all("img")for img in all_img:src=img['src']print(src)

细说吧:

其中这个all_list是找到所有的包含了图片的列表:

找到之后,再找img的照片

然后找到src后面的网址。

5. 下来这个也重要哈

            count+=1myimg = requests.get(src)file_name = f'{img_path}图片{str(count)}.jpg'# 图片和音乐WB的二进制写入方式f = open(file_name, "wb")f.write(myimg.content)

请求访问src,然后起个名字,然后wb的写入方式,然后写入文件


到这里了,学习之路任重而道远。过几天读卡器回来了,就可以继续搞k210了加油

爬虫还是得一步一步爬

http://www.lryc.cn/news/297715.html

相关文章:

  • 学习Android的第九天
  • 课时21:内置变量_脚本相关
  • ubuntu22.04@laptop OpenCV Get Started: 006_annotating_images
  • 【制作100个unity游戏之23】实现类似七日杀、森林一样的生存游戏10(附项目源码)
  • uniapp vue3怎么调用uni-popup组件的this.$refs.message.open() ?
  • 【深度学习:语义分割】语义分割简介
  • 前端开发_AJAX基本使用
  • OnlyOffice-8.0版本深度测评
  • 【Go】一、Go语言基本语法与常用方法容器
  • 杨中科 ASP.NETCORE 高级14 SignalR
  • 哪家洗地机比较好用?性能好的洗地机推荐
  • 学习与非学习
  • 牛客网SQL进阶127: 月总刷题数和日均刷题数
  • 19:Web开发模式与MVC设计模式-Java Web
  • Z字形变换
  • 飞书上传图片
  • Java微服务学习Day1
  • STM32标准库驱动W25Q64模块读写字库数据+OLED0.96显示例程
  • 【java】简单的Java语言控制台程序
  • 【服务器数据恢复】HP EVA虚拟化磁盘阵列数据恢复原理方案
  • 08-OpenFeign-结合Sentinel,实现熔断降级
  • 15.实现数组的扁平化
  • 对话模型Demo解读(使用代码解读原理)
  • Android 自定义BaseFragment
  • [C#] 如何对列表,字典等进行排序?
  • Mac 下载安装Java、maven并配置环境变量
  • 【多模态】27、Vary | 通过扩充图像词汇来提升多模态模型在细粒度感知任务(OCR等)上的效果
  • |Python新手小白低级教程|第二十章:函数(2)【包括石头剪刀布判断程序(模拟版)】
  • vue3 之 商城项目—home
  • git flow与分支管理