当前位置: 首页 > news >正文

爬虫你需要知道的:什么是http请求

1. 什么是http请求

我们将通过发送http请求来获取网页内容。http是HyperText Transfer Protocol的缩写,意思是超文本传输协议,它是一种客户端和服务器之间的请求响应协议。

浏览器就可以看作是一个客户端,当我们在浏览器地址栏输入想访问的网址,按下回车后,浏览器就会像服务端发送一个http请求,然后等待服务器返回给浏览器响应。

http有多种不同的请求方法,最常见的是getpost。由于爬虫程序大部分都是在获取数据,所以我们发送的请求大部分情况下都用get方法。

2. 一个完整的http请求组成

一个http请求由三个部分组成:

在这里插入图片描述

  • 请求行会包含方法类型、资源路径和协议版本等等

    资源路径指明了我们将要访问服务器的哪个资源,资源路径后方也可以添加查询参数。

    在这里插入图片描述

  • 请求头会包含一些给服务器的信息,比如Host、User-Agent、Accept等等

    Host 指主机域名,结合请求行里的路径资源,可以得到一个完整的网址。

    User-Agent 用来告知服务器客户端的相关信息,比如请求是浏览器发出来的还是其他东西发出来的如果是浏览器的话,类型是什么、版本是什么等等。

    Accept 是想告诉服务器客户端想接受的响应数据是什么类型的,接受多种类型的话,可以用逗号进行分隔,如果是*/*表示什么类型都可以。

  • 请求体里面可以放客户端传给服务器的其他任意数据,但是get方法的请求体一般是空的。

当服务端收到客户端传来的请求后,它会根据所有这些信息返回http响应,响应也由三个部分组成:

在这里插入图片描述

  • 状态行包含了协议版本、状态码、状态消息

    其中状态消息常见的有以下这些:

    在这里插入图片描述

  • 响应头会包含一些想要告知客户端的信息

    Date 是生成响应的日期和时间。

    Content-Type 返回内容的类型及编码格式。例如text/html;charset=utf-8 指响应类型是HTML,编码是utf-8。

  • 响应体里是服务端想要告知客户端的一些内容

    比如如果前面的内容类型是HTML,这里返回的就是HTML内容。


文章整理自:这绝对是全B站最用心(没有之一)的Python+爬虫公开课程

http://www.lryc.cn/news/277760.html

相关文章:

  • MCU FT61F14x入门
  • 星火大模型——多模态API调用(图像+文本)
  • 计算机基础面试题 |22.精选计算机基础面试题
  • kafka连接失败时springboot项目启动停机问题
  • 【算法题】46. 全排列
  • 可视可交互!在全志H618上用OpenCV读取图像显示到PyQt5窗口上
  • 现代密码学 补充1:两种窃听不可区分实验的区别
  • 多功能号卡推广分销管理系统 流量卡推广分销网站源码-目前市面上最优雅的号卡系统
  • MySQL语法及IDEA使用MySQL大全
  • 分布式系统网关和sentinel
  • 无法访问Bing网站 - 解决方案
  • Spring Boot 自动装配原理
  • golang如何生成csv文件
  • 你真的掌握了“C语言分支循环”吗
  • Apollo计算几何算法(一)
  • 计算机网络、浏览器相关高频面试题
  • 遥感单通道图像保存为彩色图像
  • 如何将字符串转换为整数
  • 如何在Linux上安装使用达芬奇DaVinci-Resolve视频剪辑|附带格式转换脚本
  • FlinkAPI开发之数据合流
  • 11 个 Python全栈开发工具集
  • 【GDAL】Windows下VS+GDAL开发环境搭建
  • 基于sumo实现交通灯控制算法的模板
  • 设计模式之单例模式的懒饿汉
  • 多平台多账号一站式短视频管理矩阵营销系统下载
  • go work
  • 基于JavaWeb+BS架构+SpringBoot+Vue智能菜谱推荐系统的设计和实现
  • SpringSecurity集成JWT实现后端认证授权保姆级教程-授权配置篇
  • 关系型非关系型数据库区别,以MongoDB为例在express中连接MongoDB示例
  • Java版商城:Spring Cloud+SpringBoot b2b2c实现多商家入驻直播带货及 免 费 小程序商城搭建的完整指南