当前位置: 首页 > news >正文

初识爬虫4

1.理解代理ip,正向代理和反向代理

2.代理ip分类,根据匿名度分类:透明,匿名,高匿

 

3.防止频繁向同一个域名发送请求被封ip,需使用代理ip

# -*- coding: utf-8 -*-
import requestsurl = 'https://www.baidu.com'proxies = {'http': 'http://47.122.65.254:8080',# 'https': 'https://47.122.65.254:8080'
}
response = requests.get(url, proxies=proxies)
print(response.content)

4.CA证书

# -*- coding: utf-8 -*-
import requestsurl = 'https://www.baidu.com'
response = requests.get(url, verify=False)
print(response.content)

5.简易爬虫,实现金山翻译的爬取

import requests# 获取翻译包的url,需要去掉多余的保护壳:
# https://ifanyi.iciba.com/index.php?c=trans&m=fy&client=6&auth_user=key_web_new_fanyi&sign=9X%2BHAviAKqteMMuVvr%2B0X9RriqVIAJSQ%2BxmfU0q7dIE%3D
url = 'https://ifanyi.iciba.com/index.php?c=trans'
# 构建请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36','Referer': 'https://www.iciba.com/','Host': 'ifanyi.iciba.com'
}
while True:# 实现用户输入的功能content = input('请输入您想翻译的内容(输入"exit"结束程序):')# 检查是否需要退出if content.lower() == 'exit':break# 构建参数字典post_data = {'from': 'auto','to': 'auto','q': content,}# 发送请求res = requests.post(url, headers=headers, data=post_data)res_1 = res.content.decode()# 输出翻译结果print(eval(res_1)['out'])
http://www.lryc.cn/news/435552.html

相关文章:

  • Golang | Leetcode Golang题解之第387题字符串中的第一个唯一字符
  • 【CanMV K230 AI视觉】 人体检测
  • 解决浏览器自动将http网址转https
  • linux邮件配置
  • 基于springboot+vue乒乓球预约管理系统
  • Linux 基础命令-文件权限与所有权
  • 气压测试实验(用IIC)
  • C++ lambda闭包消除类成员变量
  • 等待唤醒机制和阻塞队列
  • IO多路复用是如何处理多个客户端同时访问一个数据的
  • QT中使用UTF-8编码
  • 我对 monorepo 的一些思考
  • Java学习Day41:骑龙救!(springMVC)
  • Redis 常用命令总结
  • Mysql SqlServer 分页
  • 电子支付原理
  • 什么是OAuth 2.0?OAuth 2.0的工作流程是什么?与OAuth 1.0有哪些区别?
  • Unity+LeapMotion2的使用
  • 【CanMV K230 AI视觉】 跌倒检测
  • 谈谈PCIe VID、DID、SSID、SSVID背后的智慧
  • 9月11日
  • 昇腾310内存拷贝测试
  • ‘$store‘ is not defined.
  • 如何利用Linux提升工作效率和安全性?
  • 初始Linux 和 各种常见指令
  • 【稀疏矩阵】使用torch.sparse模块
  • 如何增加谷歌网站曝光率?
  • 虚幻中的c++(持续更新)
  • 83-MySQL 索引有几种
  • 文献解读-The trans-omics landscape of COVID-19