当前位置: 首页 > news >正文

Python requests爬虫

Python的requests库是一个强大且易于使用的HTTP库,用于发送HTTP请求和处理响应。它是Python中最受欢迎的网络爬虫框架之一,被广泛用于从网页中提取数据、爬取网站和进行API调用。

使用requests库,你可以轻松地发送各种HTTP请求,包括GET、POST、PUT、DELETE等。你可以创建一个HTTP请求对象,设置请求头、请求体和其他参数,然后发送请求并获取响应。requests库提供了许多方便的方法来处理响应,包括获取响应内容、解析JSON、解析HTML等。

如果本地 Python 环境没有安装 requests,可以在命令提示符窗口输入命令

pip install requests

安装 requests 模块

我们可以随便打开一个网页,F12->“Ctrl+R”刷新,双击名称中的项

可以看到User-Agent和Cookie

以下是一些常用的requests库功能和用法:

  1. 发送GET请求:

    response = requests.get(url)
    

  2. 发送POST请求:

    response = requests.post(url, data=payload)
    

  3. 设置请求头:

    headers = {'User-Agent': 'Mozilla/5.0'}
    response = requests.get(url, headers=headers)
    

  4. 传递URL参数:

    params = {'key1': 'value1', 'key2': 'value2'}
    response = requests.get(url, params=params)
    

  5. 发送文件:

    files = {'file': open('file.txt', 'rb')}
    response = requests.post(url, files=files)
    

  6. 获取响应内容:

    print(response.text)
    

  7. 解析JSON响应:

    json_data = response.json()
    

  8. 解析HTML响应:

    from bs4 import BeautifulSoup
    soup = BeautifulSoup(response.text, 'html.parser')
    

  9. 处理异常:

    try:response = requests.get(url)response.raise_for_status()
    except requests.HTTPError as e:print('HTTPError:', e)
    except requests.ConnectionError as e:print('ConnectionError:', e)
    except requests.Timeout as e:print('Timeout:', e)
    except requests.RequestException as e:print('RequestException:', e)
    

以上只是requests库的一小部分功能,它还提供了许多其他高级功能和选项,例如会话管理、认证、代理设置等,可以帮助你轻松地进行网络爬虫和API调用。

完整的请求函数例程:

import requestsdef get_html(url):'''两个参数:param url:统一资源定位符,请求网址:param headers:请求头:return html 网页的源码:return sess 创建的会话'''# 请求头headers={'User-Agent': '复制了放这里'}# 创建Session, 并使用Session的get请求网页sess = requests.Session()response = sess.get(url=url,headers = headers)# 获取网页信息文本html = response.textreturn html, sess

http://www.lryc.cn/news/398221.html

相关文章:

  • Docker 基本管理及部署
  • Ubuntu下安装配置和调优Docker,支持IPV6
  • Proteus + Keil单片机仿真教程(六)多位LED数码管的动态显示
  • WEB开发-HTML页面更新部分内容
  • 休息时间c++
  • zabbix 自定义监控项及触发器
  • easyExcel 不规则模板导入数据
  • 前端调试技巧(npm Link,vscode调试,浏览器调试等)
  • SSL证书到期自动巡检脚本-推送钉钉告警
  • Winform打印编程基础
  • Python编程实例-Python的隐藏特性
  • 防火墙安全策略利用
  • SystemUIService启动-Android13
  • linux权限深度解析——探索原理
  • Qt学生管理系统(付源码)
  • 重磅!新公司法正式实施,这些变化你必须知道! ️
  • [Flask笔记]一个完整的Flask程序
  • 企业专利布局怎么弄
  • ArduPilot开源飞控之AP_Mount_Topotek
  • React组件间通信的几种方式
  • 2024最新国际版抖音TikTok安装教程,免root免拔卡安卓+iOS,附全套安装工具!
  • kafka与zookeeper的SSL认证教程
  • 为何数字化转型项目会夭折?深入分析失败的关键因素
  • 数据结构(其二)--线性表
  • 软链接node_modules
  • Apache中使用SSI设置
  • Java Stream API详解:高效处理集合数据的利器
  • Python使用策略模式和openpyxl库创建Excel文件并追加内容
  • libcoap3对接华为云平台
  • 【鸿蒙学习笔记】关系型数据库概述