当前位置：首页 > news >正文

网络原理-HTTP协议

news 2025/7/22 0:28:50

HTTP协议

HTTP协议全称为超文本传输协议,除了能传输字符串,还能传输图片、视频、音频等。

当我们在访问网页的时候,浏览器会从服务器上下载数据,这些数据都会放在HTTP响应中,然后浏览器再根据这个HTTP响应显示出网页信息。

抓包

抓包工具本质上是一个代理工具,即我们将构造好的请求首先发送给抓包工具,抓包工具然后解析请求,然后发送给服务器,最后再将服务器的响应返回。在这使用Fiddler抓包工具。

抓包工具原理：

当我们打开工具会出现如下信息:

认识HTTP请求/响应

HTTP请求是文本协议,不同于IP、TCP、UDP协议是二进制协议,因此我们可以通过抓包工具清楚的看出协议中的内容。

一个HTTP请求/响应由四部分组成:首行、报头(请求头/响应头)、空行、正文。

首行

在请求报文和响应报文中,首行具有一定的区别。

在请求报文中:

首行由方法+URL+版本号这三部分组成,中间由空格分隔。

方法: 方法描述的是语义,表示这次请求要干什么。例如: GET:表示从服务器获取xxx , POST: 表示想服务器传输xxx。

在这么多的方法里面,GET和POST方法最为常用。比如当获取网页信息的时候一般使用GET,而登录或者上传资源的时候使用POST。

虽然HTTP协议设计指出是希望程序员能够遵守这里规则,但是事与愿违,程序员不遵守也不影响,可以将一些参数放到其他位置。

URL:资源定位符,用来描述网络上的资源,俗称网址。在URL中有特定的格式：

服务器地址可以是域名或者IP地址。

带层次的文件路径表示要访问服务器上的哪个资源

查询字符串也叫query string,表示访问服务器的时候带上哪些参数,使用键值对的格式,键和值之间使用=,键值对之间使用&分隔,查询字符串以?开始。虽然知道了查询字符串的格式,但是我们并不能知道里面的内容和含义,因为程序员可以自定义。

片段标识符一般用在文档中,当你带上这个参数的时候,文档会直接展示那一页/段。

虽然规定了格式是这样,但是如果省略了某几个参数也不碍事。

当已经请求了当前域名的主页,此时这个主页如果又去请求当前域名的内容,此时就可以不带上域名/ip，会默认为前面的域名。

如果端口不写,会根据协议来自动添加端口号,如http协议自动添加的就是80,https添加的就是443。

如果省略带层次的文件路径,那么就相当于访问的是根目录,通常对应到服务器的主页。

查询字符串也是可以没有的,因为可以将内容写到正文中。

总之,http是一个非常灵活的协议。

版本号:表示当前http是啥版本,最新已经到了3.0,但是广为使用的还是1.0和1.1。

在响应报文中:

响应的首行和请求相比差异就比较大了。

响应报文的首行是由版本号+状态码+状态码的描述组成。

其中状态码大致有如下几类:

状态码	状态码描述
200	表示成功
404	表示访问的资源不存在
403	表示访问的资源没有权限
502	表示服务器挂了
504	表示服务器超时了
302	表示重定向,会跳转到其他网站

报头(header)

在报头中属性是使用键值对的形式进行描述的。每一行是一个键值对,键与键之间使用逗号分隔,键与值之间使用冒号分隔。

User-Agent:主要包含的是当前机器的系统和浏览器的版本。在互联网早期的时候,由于浏览器支持的功能可能并不一样,一些可以支持视音频,一些只能支持文字,通过版本号就可以进行区分,然后返回不同的页面了。如今各大浏览器的功能都差不多了,UA往往用来区分是PC端还是移动端。

Referer:描述了当前的页面是从哪里跳转的。当我们在一个页面中点击了广告,跳转到了广告页面,此时广告主的服务器就能统计是从谁那边过来的,后期就可以给不同的网站结广告费了。

Cookie:是浏览器本地存储数据的一种机制,用来缓存一些临时数据,当下次访问的时候节省访问时间。当浏览器再第一次访问服务器的时候,浏览器是一无所知的,因此需要加载很多的html,css,js,img东西,由于里面的有些内容可能会很久都不会变,就通过cookie保存机制将这些内容保存下来,下次就不需要再去请求了。

在cookie中使用的也是键值对的结构,并按照域名的维度区分不同网站的不同cookie。一个网站cookie会存储很对键值对,但往往会有一个很重要的键值对,用来表示用户的身份信息(当下次访问的时候就不要再登录了),为了实现身份识别的效果,服务器这边也需要一个Session机制来支持。