当前位置: 首页 > news >正文

Python 爬虫——爬取Web页面图片

从网页页面上批量下载jpg格式图片,并按照数字递增命名保存到指定的文件夹。
Web地址:http://p.weather.com.cn/2017/06/2720826.shtml#p=1

import urllib
import urllib.request
import re #正则表达式#解析页面
def load_page(url):request=urllib.request.Request(url) #发送网络请求response=urllib.request.urlopen(request)#根据url打开页面data=response.read() #获取页面响应数据return data#下载图片
def get_image(html):regx=r'http://[\S]*jpg'      #定义正则表达式,匹配页面图片元素pattern=re.compile(regx)         #编译表达式构造匹配模式get_image=re.findall(pattern,repr(html))  #进行正则匹配并返回结果num = 1#遍历获取的图片for img in get_image:image=load_page(img)#将图片存入到指定文件夹with open('E:\\Photo\\%s.jpg' %num,'wb') as fb:fb.write(image)print("正在下载第 %s张图片" %num)num = num + 1print("下载完成!")url='http://p.weather.com.cn/2017/06/2720826.shtml#p=1'
html=load_page(url)
get_image(html)

正则表达式相关知识:
https://deerchao.net/tutorials/regex/regex.htm

http://www.lryc.cn/news/526575.html

相关文章:

  • 微信小程序1.1 微信小程序介绍
  • 记录备战第十六届蓝桥杯的过程
  • AI 编程工具—Cursor进阶使用 Rules for AI
  • 以租赁合同的例子讲清楚 开源协议原理和区别
  • mysql如何修改密码
  • 解数独力扣
  • Zookeeper(28)Zookeeper的线性化写入和顺序一致性读是什么?
  • ARM嵌入式学习--第九天(串口通信)
  • Github 2025-01-25Rust开源项目日报Top10
  • Android BitmapShader简洁实现马赛克/高斯模糊(毛玻璃),Kotlin(三)
  • PCIE模式配置
  • python深入SQLAlchemy使用详解
  • Bootstrap4 模态框
  • GSI快速收录服务:让你的网站内容“上架”谷歌
  • vim如何设置制表符表示的空格数量
  • 【Uniapp-Vue3】setTabBar设置TabBar和下拉刷新API
  • 【玩转全栈】----Django模板的继承
  • 详解数据库系统概述
  • Windows的docker中安装gitlab
  • 基于微信小程序的健身管理系统设计与实现(LW+源码+讲解)
  • windows 安装 mysql 教程
  • Vue2+OpenLayers初始化高德地图
  • 六、深入了解DI
  • IMX6ull项目环境配置
  • Edge-TTS在广电系统中的语音合成技术的创新应用
  • 芸众商城小程序会员页面部分图标不显示问题解决办法
  • 手机app如何跳过无障碍权限实现弹框自动点击-ADB连接专题
  • 「 机器人 」扑翼飞行器控制的当前挑战与后续潜在研究方向
  • Vue入门(Vue基本语法、axios、组件、事件分发)
  • DELL EDI:需求分析及注意事项