当前位置: 首页 > news >正文

Python爬虫07_Requests爬取图片

一、爬取网页图片

即用 requests 下载一张网络图片,并以当前时间戳作为文件名保存到本地,初步理解实现程序化自动爬取图片数据。

import requests
import time
import datetimeif __name__ == "__main__":#爬取图片数据url = 'https://pics5.baidu.com/feed/023b5bb5c9ea15ce37c1c2b207b6b5fe3b87b2a5.jpeg@f_auto?token=be26647100a6ad7e4a182c2f70dcebf7'#伪造userAgentuserAgent = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:122.0) Gecko/20100101 Firefox/122.0'}#content返回的是二进制形式的图片数据#text(字符串),content(二进制),json()(对象)imgData = requests.get(url=url,headers=userAgent).content#获取当前日期和时间,时间戳形式current_time = time.time()current_timeStr = str(current_time)print("当前时间戳为:", current_timeStr)print('------------------------------------------------------------------')#获取当前时间,格式化可读形式dataTime = datetime.datetime.now()print("格式化时间为:", dataTime)print('------------------------------------------------------------------')#时间戳还原成可读日期时间格式timestamp = 1708009107.9769785  # 输入要还原的时间戳dt_object = datetime.datetime.fromtimestamp(timestamp)formatted_time = dt_object.strftime('%Y-%m-%d %H:%M:%S')print("还原后的时间为:", formatted_time)print('------------------------------------------------------------------')with open('E:/Reptile/img/'+ current_timeStr +'.jpeg','wb') as fp:fp.write(imgData)print("over! 保存成功!")

二、图片数据解析

必须以二进制方式返回图片数据的核心原因是:图片文件在底层就是一串原始字节(binary stream),而不是文本字符串;任何字符编码(如 UTF-8、GBK)都会破坏这些字节的原始顺序,导致图片打不开或损坏。
1、图片不是文本
text 属性会把服务器返回的内容先按某种字符编码(默认 UTF-8)解码成字符串,遇到非文本字节就可能丢码、替换或截断,从而破坏图片格式。
2、二进制 = 无损拷贝
使用 .content 直接拿到 未经任何编码转换的原始字节,写入文件时才能 1:1 还原服务器发来的位图数据。
3、文件系统写图片需要 bytes
open(…, ‘wb’) 要求写入 bytes 类型;如果误用 text(str 类型),Python 会尝试用默认编码把字符串再编码成字节,结果必然失真。

二进制是保证图片完整性的唯一正确方式。

http://www.lryc.cn/news/605919.html

相关文章:

  • 【Java23种设计模式】:模板方法模式
  • 【C语言】深度剖析指针(三):回调机制、通用排序与数组指针逻辑
  • PostgreSQL面试题及详细答案120道(01-20)
  • 前端方案设计:实现接口缓存
  • 什么是网络安全?网络安全包括哪几个方面?学完能做一名黑客吗?
  • 网络与信息安全有哪些岗位:(4)应急响应工程师
  • Amazon RDS for MySQL成本优化:RDS缓存降本实战
  • 前缀和-1314.矩阵区域和-力扣(LeetCode)
  • 隐私灯是否“可信”?基于驱动层的摄像头指示机制探析
  • 【1】数据可视化分析方法
  • 20250731在荣品的PRO-RK3566开发板的Android13下跑通敦泰的FT8206触控芯片
  • Google政策大更新:影响金融,Ai应用,社交,新闻等所有类别App
  • 新手教程:用外部 PostgreSQL 和 Zookeeper 启动 Dolphinscheduler
  • 25.(vue3.x+vite)两个pinia如何互相调用
  • Docker 初学者需要了解的几个知识点 (七):php.ini
  • LoggerFactory(日志门面框架核心工厂类)详解
  • 【C#设计模式】深入理解常见迭代器模式(Iterator Pattern)
  • 安装 docker compose v2版 笔记250731
  • docker离线安装mysql镜像
  • 内存网格、KV存储和Redis的概念、使用场景及异同
  • 分布式锁ZK与redis
  • Redis 存在哪些问题
  • 【问题】Docker 容器内的应用(如n8n),访问不到外部主机的应用(如mysql)
  • 【单片机】【分布式】从单机到分布式:Redis如何成为架构升级的关键力量
  • react调用接口渲染数据时,这些表格里的数据是被禁选的
  • 【Unity笔记04】数据持久化
  • TypeScript 基础介绍(二)
  • 雷霆战机游戏代码
  • ubuntu22.04系统入门 linux入门 简单命令基础复习 实现以及实践
  • Flask Bootstrap 后台权限管理方案