当前位置: 首页 > news >正文

爬虫的http和https基础

HTTP响应状态码响应状态码

下面来看下详细的状态码数值和说明:

200系列:
  • 200 OK:这个是最常见的,也是爬虫工程师最喜欢的,代表你本次的请求顺利拿到了响应,没有任何问题

  • 201 Created:201代表创建成功。通常是指浏览器或爬虫给服务器上传数据,服务器接受并验证数据没有问题之后,服务器返回客户端一个201,代表成功。提交数据,通常是POST方法提交

  • 202 Accepted:服务器拿到了数据,但是还没处理好结果,所以先发回一个202.这个状态码一般在爬虫中看不到,但是适合在异步操作的情况下返回。

300系列
  1. 301 Moved Permanently:当前资源的网址永久性迁移,并且会给你一个新的网址。值得注意的是,如果是POST请求拿到301,则下一次请求自动变成GET。

  2. 301 Moved Permanently:当前资源的网址永久性迁移,并且会给你一个新的网址。值得注意的是,如果是POST请求拿到301,则下一次请求自动变成GET。

  3. 301 Moved Permanently:当前资源的网址永久性迁移,并且会给你一个新的网址。值得注意的是,如果是POST请求拿到301,则下一次请求自动变成GET。

400系列
  1. 400 Bad Request:错误请求,400系列最典型的,看到这个错误,要么是请求头参数不对,要么是请求主体的内容错误。

  2. 401 Unauthorized:401认证错误,这个还是非常好识别的,身份无法识别或者身份权限不够,检查请求头中的身份字段信息和Cookie值。

  3. 403 Forbidden:禁止访问,大并发爬虫中比较容易碰到,问题很直观,你访问太多了【换IP或电脑】,或者身份权限不够【换身份信息】。

  4. 404 Not Found:404找不到,这个错误不用太在意,用浏览器测试几次就好,要么是你的网址写错了,要么是网址对应的网络资源无法加载【这不怪程序】。

  5. 405 Method Not Allowed:405方法不被允许,简单且少见的错误,意思就是你请求的姿势不对,检查请求方法,如Get、Post、Put、Delete,总有一个是对的。

500系列
  1. 500 Internal Server Error:网络错误,就和你断网了一样,具体点就是你的网络和网址所在网络,无法连通。

  2. 502 Bad Gateway:网关错误,请求出去要被网关解析目的地址并转发你的请求,这个错误就是网关不工作了,无法把你的请求发出去。这里的网关,可以理解成你的路由器或者你用的代理IP服务器。

  3. 503 Service Unavailable:服务不可用,这个就是目标服务器的问题了,你要做的是通知网站管理员或者等。一般情况下,国家网站部分有休息时间,例如晚上关网。商业服务器的服务不可用,大多是升级或者临时卡了,可以过段时间再试。

  4. 504 Gateway Timeout:网关超时,这个504和502,都是网关的问题,但是又不一样。504是你找网关转发,你默认等待180秒【3分钟】,然后网关超时了没理你;502的问题是,你压根就找不 到网关。

  5. 505 HTTP Version Not Supported:HTTP版本不支持,这个比较少见,但是肯定有。网站内容太新或者太旧,对客户端的http版本要求不一样。你需要检查下本次请求所使用的http版本,然后改 成网站指定版本,就可以解决这个问题。

爬虫解决HTTPS认证的解决问题认证的解决问题

解决方法:

  1. 验证错误,那就不验证

  2. 更新系统的证书库

  3. 更新pip库:pyopenssl和cryptography

解决思路:

  • 优先使用不认证,简单暴力,还有效

  • 运行或者部署爬虫时,记得同步pyopenssl和cryptography

  • 操作系统越新,约不容易碰到

爬虫请求不进行不验证

请求不验证操作

requests.get('中国铁路12306网站',verify=False)

  • 优势:在客户端与服务端建立连接的情况下,不会出现什么问题,数据会照常传输。

  • 缺点:可能被盗。

更新系统的证书库

更新系统证书库

更新pip库

更新pip库

总结

  • 优先使用不认证,简单暴力,还有效

  • 运行或部署爬虫时,记得同步pyopenssl和cryptography

  • 操作系统越新,越不容易碰到SSL错误

http://www.lryc.cn/news/238582.html

相关文章:

  • 读像火箭科学家一样思考笔记05_思想实验
  • mac gitee新建工程遇到的一些问题
  • 某60区块链安全之Call函数簇滥用实战一学习记录
  • 最新AIGC创作系统ChatGPT系统源码,支持最新GPT-4-Turbo模型,支持DALL-E3文生图,图片对话理解功能
  • openssl+ SM2 + linux 签名开发实例(C++)
  • U4_1:图论之DFS/BFS/TS/Scc
  • STM32框架之按键扫描新思路
  • 完美解决k8s master节点无法ping node节点中的IP或Service NodePort的IP
  • 弗洛伊德算法(C++)
  • 相对定位、绝对定位、固定定位、绝对定位堆叠顺序
  • px4+vio实现无人机室内定位
  • 享元模式 rust和java的实现
  • XmlElement注解在Java的数组属性上,以产生多个相同的XML元素
  • SQLServer 数字加千分位 用FORMAT函数强转不管多大位数
  • 说说mvc和mvvm的区别和联系
  • linux rsyslog综合实战2
  • AcWing 4. 多重背包问题 I 学习笔记
  • 解决selenium使用chrome下载文件(如pdf)时,反而打开浏览器的预览界面
  • 2024年山东省职业院校技能大赛中职组“网络安全”赛项竞赛试题-C
  • 基于Python实现用于实时监控和分析 MySQL 服务器的性能指标和相关信息工具源码
  • Android 10-13鼠标右键返回功能适配
  • 51单片机/STM32F103/STM32F407学习1_点亮LED灯
  • (Transfer Learning)迁移学习在IMDB上训练情感分析模型
  • 蓝桥杯每日一题2023.11.20
  • 【迅搜02】究竟什么是搜索引擎?正式介绍XunSearch
  • 【Sql】sql server还原数据库的时候,提示:因为数据库正在使用,所以无法获得对数据库的独占访问权。
  • 【Go语言实战】(26) 分布式搜索引擎
  • 【理解ARM架构】不同方式点灯 | ARM架构简介 | 常见汇编指令 | C与汇编
  • JS服务端技术—Node.js知识点锦集
  • 界面控件DevExpress WPF流程图组件,完美复制Visio UI!(一)