当前位置: 首页 > news >正文

Scrapy与分布式开发(2.1.2):python常用网络请求库httpx

Python httpx 模块详细讲解

一、引言

httpx 是一个用于发送 HTTP 请求的 Python 库,它提供了简单易用的 API,支持同步和异步请求,并且具有出色的性能和灵活性。httpxrequests 的一个现代替代品,它使用 httpcore 作为底层传输层,支持 HTTP/1.1 和 HTTP/2 协议。

二、安装

你可以使用 pip 命令来安装 httpx

pip install httpx

三、基本用法

发送 GET 请求

import httpxresponse = httpx.get('https://www.example.com')
print(response.status_code)  # 打印 HTTP 状态码
print(response.text)         # 打印响应内容

发送 POST 请求

import httpxpayload = {'key': 'value'}
response = httpx.post('https://www.example.com/post', json=payload)
print(response.status_code)
print(response.text)

其他 HTTP 方法

httpx 同样支持 PUT、DELETE、HEAD 等其他 HTTP 方法。

response = httpx.put('https://www.example.com/put', json=payload)
response = httpx.delete('https://www.example.com/delete')
response = httpx.head('https://www.example.com/head')

四、响应处理

状态码

print(response.status_code)  # 打印 HTTP 状态码

响应头

print(response.headers)  # 打印响应头信息

响应内容

print(response.text)      # 打印响应内容(字符串形式)
print(response.json())    # 如果响应内容是 JSON 格式,可以使用此方法解析
print(response.content)   # 打印响应内容(字节形式)

错误处理

如果请求发生错误,httpx 会抛出一个 httpx.HTTPError 异常。你可以使用 try-except 语句来捕获这个异常。

try:response = httpx.get('https://www.example.com/invalid')print(response.text)
except httpx.HTTPError as err:print(err)

五、高级特性

参数传递

在 GET 请求中,你可以使用 params 参数来传递查询字符串。

payload = {'key1': 'value1', 'key2': 'value2'}
response = httpx.get('https://www.example.com/get', params=payload)
print(response.url)  # 打印完整的 URL,包括查询字符串

自定义请求头

你可以使用 headers 参数为请求添加自定义的头部信息。

headers = {'User-Agent': 'my-app/0.0.1'}
response = httpx.get('https://www.example.com', headers=headers)

文件上传

使用 files 参数可以上传文件。

files = {'file': open('path/to/file', 'rb')}
response = httpx.post('https://www.example.com/upload', files=files)

认证

使用 auth 参数可以为请求添加 HTTP 认证。

from httpx import BasicAuthresponse = httpx.get('https://www.example.com', auth=BasicAuth('username', 'password'))

超时设置

使用 timeout 参数可以为请求设置超时时间。

response = httpx.get('https://www.example.com', timeout=5.0)  # 超时时间为 5 秒

代理设置

使用 proxies 参数可以设置代理服务器。

proxies = {'http': 'http','https': 'http',
}response = httpx.get('https://www.example.com', proxies=proxies)

流式响应

对于大文件或长时间运行的响应,你可能想要以流的方式处理数据,而不是一次性加载整个响应体。httpx 支持流式响应,允许你按需读取数据。

import httpxwith httpx.stream('GET', 'https://www.example.com/large-file') as response:for chunk in response.iter_content(chunk_size=8192):# 处理每个数据块process(chunk)

客户端会话

requestsSession 类似,httpx 提供了 ClientAsyncClient 类,用于创建客户端会话。这允许你在多个请求之间重用底层连接,从而提高了性能。

import httpx# 创建同步客户端会话
with httpx.Client() as client:response1 = client.get('https://www.example.com/api/data1')response2 = client.get('https://www.example.com/api/data2')# 创建异步客户端会话
async with httpx.AsyncClient() as client:response1 = await client.get('https://www.example.com/api/data1')response2 = await client.get('https://www.example.com/api/data2')

连接池管理

httpx 使用了连接池来管理底层 TCP 连接,这有助于减少建立连接的开销。你可以通过配置 httpx.Clienthttpx.AsyncClient 的连接池参数来定制连接池的行为。

# 同步客户端的连接池配置
with httpx.Client(limits=httpx.Limits(max_connections=100, max_keepalive=5)) as client:# ...# 异步客户端的连接池配置
async with httpx.AsyncClient(limits=httpx.AsyncLimits(max_connections=100, max_keepalive=5)) as client:# ...

请求和响应模型

httpx 提供了 RequestResponse 类,这些类可以用来手动创建请求和响应对象。这在某些高级用法中可能很有用,例如当你需要更细粒度的控制时。

import httpx# 创建请求对象
request = httpx.Request('GET', 'https://www.example.com')# 发送请求并获取响应
with httpx.Client() as client:response = client.send(request)# 处理响应
print(response.status_code)
print(response.text)

错误处理

除了标准的 httpx.HTTPError 异常,httpx 还提供了其他异常类,用于处理不同的错误情况。

try:response = httpx.get('https://www.example.com/invalid')response.raise_for_status()
except httpx.HTTPError as exc:print(f"HTTP error occurred: {exc}")
except httpx.RequestError as exc:print(f"A request error occurred: {exc}")
except httpx.ConnectError as exc:print(f"Connection error occurred: {exc}")

工具和实用功能

httpx 还提供了一些实用的工具和函数,如 httpx.URL 类用于解析和处理 URL,httpx.codes 模块包含 HTTP 状态码常量等。

from httpx import URL, codes# 解析 URL
parsed_url = URL('https://www.example.com/path?query=value#fragment')
print(parsed_url.scheme)  # 输出 'https'# 检查状态码是否表示成功
if response.status_code == codes.ok:# 处理成功的响应pass
http://www.lryc.cn/news/311577.html

相关文章:

  • 07. Nginx进阶-Nginx负载均衡
  • windows/linux下其他位置调用指定nodejs脚本报错Error: Cannot find module ‘esm’
  • 2024-03-05 linux 分区老显示满,Use 100%,原因是SquashFS 是一种只读文件系统,它在创建时就已经被填满,所有空间都被使用。
  • 蓝桥杯倒计时 41天 - KMP 算法
  • 《汇编语言》- 读书笔记 - 第13章-int 指令
  • 深入了解 Golang 条件语句:if、else、else if 和嵌套 if 的实用示例
  • 大数据和机器学习在气象预报中的应用-张平文院士
  • C#高级:Winform桌面开发中DataGridView的详解
  • java八股文复习-----2024/03/05----基础---反射,动态代理。序列化
  • 【人工智能】Anthropic发布强大的Claude3对齐GPT-4,大模型杂谈个人感想
  • 基于openKylin与RISC-V的MindSpore AI项目实践
  • 【牛客】VL64 时钟切换
  • Java设计模式——桥连模式
  • 数据结构与算法:堆排序和TOP-K问题
  • 【NR 定位】3GPP NR Positioning 5G定位标准解读(三)
  • 文件操作与IO(3) 文件内容的读写——数据流
  • 《PyTorch深度学习实践》第十一讲卷积神经网络进阶
  • Ansible的playbook的编写和解析
  • [环境配置]ssh连接报错“kex_exchange_identification: read: Connection reset by peer”
  • Mybatis-Plus——04,自动填充时间(新注解)
  • 【动态规划入门】最长上升子序列
  • LabVIEW眼结膜微血管采集管理系统
  • 通过GitHub探索Python爬虫技术
  • 【Python】-----基础知识
  • 如何学习、上手点云算法(二):点云处理相关开源算法库、软件、工具
  • 为什么会对猫毛过敏?如何缓解?浮毛克星—宠物空气净化器推荐
  • Linux学习-etcdctl安装
  • Qt应用软件【文件篇】读写文件技巧
  • GO常量指针
  • 微服务间通信重构与服务治理笔记