当前位置: 首页 > news >正文

Python爬虫01

requests模块

文档

  • 安装
pip/pip3  install  requests
  • response.text 和 response.content的区别
1.response.text 等价于 response.content.decode("推测出的编码字符集")response.text
类型:str
编码类型:requests模块自动根据Http头部对响应的编码(response.encoding)作出有根据的推测,推测的文本编码response.content
类型:bytes
编码类型:没有指定2.通过对response.content进行decode,来解决中文乱码
response.content.decode() 默认utf-8
response.content.decode("gbk")
常见的编码集
utf-8
gbk
gb2312
ascii
iso-8859-1 3.response响应对象的其他常用属性或方法
response.url 响应url(有时候响应url和请求url不一致)
response.status_code 响应状态码
response.request.headers 响应对应的请求头
response.headers 响应头
response.request._cookies 响应对应请求的cookie;返回cookieJar类型
response.cookies 响应cookie(经过set-cookie动作;返回cookieJar类型)
response.json() 自动将json字符串类型的响应内容转换为python对象
  • headers参数的使用
requests.get(url, headers=headers)- headers 参数接收字典形式的请求头- 请求头字段名作为key,字段对应的值作为value
  • 发送带参数的请求
- 直接URL上拼接https://www.baidu.com/s?wd=python- 构建字典,交给paramskw = {"wd":"python"}requests.get(url, headers=headers, paramas=kw)
  • headers中携带cookie
requests.get(url, headers=headers)
  • cookies参数的使用
保持会话
# 构建cookie字典
requests.get(url, cookies=cookies)
  • cookieJar的转换方法
1.转换方法
cookies_dict = resquests.utils.dict_from_cookiejar(response.cookies)
2.其中response.cookies返回的就是cookiejar类型的对象
3.requests.utils.dict_from_cookiejar 函数返回cookies字典 
  • 超时时间timeout的使用
response = requests.get(url, timeout=3)
  • 代理ip参数proxies的使用

response = requests.get(url, proxies=proxies)
proxies的形式:字典
eg:
proxies = {"http":"http://xxxx","https":"https://xxx"
}
  • 使用verify参数忽略CA证书
verify=False
verify 参数能忽略CA证书的认证import requests
url = "xxxx"
response = requests.get(url, verify=False) 
  • requests发送post请求
response = requests.post(url, data)
data 参数接收一个字典 
  • requests.session进行状态保持
requests.session的作用自动处理cookie,即下一次请求会带上前一次的cookie
requests.session的应用场景自动处理连续的多次请求过程中产生的cookie
requests.session的使用方法session = requests.session()  #实例化session对象response = session.get(url, headers, ...)response = session.post(url, data, ...)session对象发送get或者post请求的参数,与requests模块发送请求的参数完全一致 
http://www.lryc.cn/news/431700.html

相关文章:

  • 关于vue项目启动报错Error: error:0308010C:digital envelope routines::unsupported
  • 随笔1:数学建模与数值计算
  • SDN架构详解
  • platform框架
  • 零成本搞定静态博客——十分钟安装hugo与主题
  • windows C++ 并行编程-转换使用取消的 OpenMP 循环以使用并发运行时
  • 经验笔记:跨站脚本攻击(Cross-Site Scripting,简称XSS)
  • 演示:基于WPF的DrawingVisual和谷歌地图瓦片开发的地图(完全独立不依赖第三方库)
  • 【C++】static作用总结
  • 视频提取字幕的软件有哪些?高效转录用这些
  • (4)SVG-path中的椭圆弧A(绝对)或a(相对)
  • docker国内镜像源报错解决方案
  • 《C++进阶之路:探寻预处理宏的替代方案》
  • 【综合案例】使用鸿蒙编写掘金评论列表案例
  • 【springboot】使用缓存
  • <Linux> 基础IO
  • OpenFeign的使用(一)
  • 【Python报错已解决】`AttributeError: move_to requires a WebElement`
  • 数据结构(邓俊辉)学习笔记】排序 2——快速排序:性能分析
  • 在postman中使用javascript脚本生成sign签名
  • 设计模式—2—单例模式
  • 服务器数据恢复—磁盘坏扇区导致raid6阵列崩溃的数据恢复案例
  • 原码、反码、补码
  • 排序算法之计数排序详细解读(附带Java代码解读)
  • Linux:如何使用 Crontab
  • AI模型:追求全能还是专精?-- 之7 智能工厂程序设计
  • 如何在本地服务器部署SeaFile自托管文件共享服务结合内网穿透打造私有云盘?
  • 学习记录:js算法(二十五):合并两个有序链表
  • 43. 1 ~ n 整数中 1 出现的次数【难】
  • K8S - 理解volumeMounts 中的subpath