当前位置: 首页 > news >正文

【python爬虫】—图片爬取

图片爬取

    • 需求分析
    • Python实现

需求分析

  • 从https://pic.netbian.com/4kfengjing/网站爬取图片,并保存

Python实现

  • 获取待爬取网页
def get_htmls(pages=list(range(2, 5))):"""获取待爬取网页"""pages_list = []for page in pages:url = f"https://pic.netbian.com/4kfengjing/index_{page}.html"response = requests.get(url)response.encoding = 'gbk'pages_list.append(response.text)return pages_list
get_htmls(pages=list(range(2, 5)))
  • 获取所有图片,并下载
def get_picturs(htmls):"""获取所有图片,并下载"""for html in htmls:soup = BeautifulSoup(html, 'html.parser')pic_li = soup.find('div', id='main').find('div', class_='slist').find('ul', class_='clearfix')image_path = pic_li.find_all('img')for file in image_path:pic_name = './practice05/' + file['alt'].replace(" ",'_') + '.jpg'src = file['src']src = f"https://pic.netbian.com/{src}"response = requests.get(src)with open(pic_name, 'wb') as f:f.write(response.content)print("图片已下载并保存为:{}".format(pic_name))htmls = get_htmls(pages=list(range(2, 5)))
get_picturs(htmls)
  • 爬取结果展示
    在这里插入图片描述
    在这里插入图片描述
http://www.lryc.cn/news/146981.html

相关文章:

  • 自动化运维工具—Ansible
  • uniapp 安卓平台签名证书(.keystore)生成
  • 缓存中间件Redis常考知识点
  • detour编译问题及导入visual studio
  • 江西武功山旅游攻略(周末两日游)
  • Django静态文件媒体文件文件上传
  • mysql 分库分表实现思路
  • Android深思如何防止快速点击
  • PHP自己的框架cookie()使用(完善篇七)
  • Spring Boot Dubbo Zookeeper(含ZK安装脚本)
  • BigDecimal百科全书
  • 【30天熟悉Go语言】11 数组的全方位使用与解析
  • 静态路由(详细理解+实例精讲)
  • leetcode做题笔记118. 杨辉三角
  • stm32之24.RTC闹钟usart端口修改配置
  • Spring Security无法调用接口错误解决
  • 运维Shell脚本小试牛刀(二)
  • 飞天使-python的模块与包与装饰器
  • linux shell脚本利用 kill -0 检查进程是否存在
  • 抖音视频删了怎么在电脑上找回来
  • 方面级别情感分析之四元组预测
  • 算法 稀疏数组 数组优化 数组压缩 二维数组转稀疏数组 算法合集(二)
  • 交换机端口安全实验
  • c# 本地化中英文切换
  • rabbitmq的优先级队列
  • SpringBoot的Cacheable缓存注解
  • uniapp的 picker 日期时间选择器
  • element ui-Pagination
  • [开发|java] 将数组使用环境变量传递配置给typesafe配置示例
  • MAC苹果电脑如何压缩rar文件?