当前位置: 首页 > news >正文

代理的基本原理和多线程的基本原理

目录

  • 爬虫代理
  • 常见代理
  • 多线程
  • 并发和并行
  • Python中的多进程和多线程

爬虫时我们不到一杯茶的功夫就出现了403.打开网页一看会说您的IP访问频率太高,出现这种情况是因为网站采取了一些反爬虫措施,限制某个IP在一定时间内的请求次数,如果超过一定的阈值就直接拒绝提供服务并返回错误信息。我们可以通过伪装IP的方式,让服务器识别不出请求是我们本机发出的。

爬虫代理

使用代理来隐藏真实的IP,让服务器以为是代理服务器在请求自己,这样在爬取过程中不断的更换代理,就可以避免被封禁的情况。
我们通常对代理进行一些分类,可以根据协议来分为FTP代理服务器,主要用于访问FTP服务器,一般有上传,下载,缓存,端口一般为21,2121.
HTTP代理服务器:主要用于访问网页。一般有过滤和缓存,端口一般为80,8080,3128.
SSL/TLS主要用于访问加密网站,一般有SSL加密功能,端口一般为443。等等
根据代理的匿名程度,也可以分为高度匿名代理(会将数据包原封不动的转发,使服务器看来是一个普通的客户端在访问,记录的IP则是代理服务器的IP)普通匿名代理(会对数据包进行一些改动,服务端可能会发现是一个代理的服务器) 透明代理(直接告诉真实IP)间谍代理(由个人或者组织创建代理服务器用于记录用户传送的数据,对其进行记录,研究,监控)

常见代理

最好使用高度匿名代理,使用付费代理更为好用比免费强很多。

多线程

进程就是线程的集合,进程是由一个或者多个线程构成的,比如听音乐就是一个线程,

并发和并行

处理器同一时刻只能处理一条指令,并发是指对多个线程的指令被快速轮换的执行,例如处理器先执行线程a的指令一段时间,再执行b,再换回a。
并行是指同一时刻有多条指令在多个处理器上执行,这意味者必须有多个处理器。

Python中的多进程和多线程

Python中的GIL 限制导致不论是在单核还是多核条件下同一时刻只能运行一个线程,使得python多线程无法发挥多核并行的优势。GIL为全局解释器锁,在Pyhthon多线程下每个线程被分为三步,获取GIL,执行对应的线程代码,释放。相当于每个GIL就是一个通行证,总体来看Python的多进程会比多线程更有优势。

http://www.lryc.cn/news/6123.html

相关文章:

  • T38,数的递归
  • QT+ OpenGL 变换
  • 【算法】前缀和
  • 《Redis实战篇》七、Redis消息队列
  • android组件化
  • 华为OD机试真题Python实现【特异性双端队列】真题+解题思路+代码(20222023)
  • 24.架构能力
  • 前端原生 CSS 跑马灯效果,无限轮播(横竖版本,带渐变遮罩,简单实用)
  • 4.8 注解与自定义注解
  • webpack 的热更新是如何做到的?原理是什么?
  • 嵌入式ARM设计编程(一) 简单数据搬移
  • 【Selenium】十分钟手把手带你学会WebDriver API
  • 3DMAX高级弯曲插件使用教程
  • 前端面试题之性能优化大杂烩
  • SpringBoot+Vue实现养老智慧服务平台
  • tigervnc2023
  • 智能三子棋(人机大战)—— 你会是最终赢家吗?万字讲解让你实现与自己对弈
  • 【自制开发板】自制STM32F407开发板(含TFT 8080串口屏幕接口)
  • openvino yolov5/ssd 实时推流目标检测在html上显示
  • 基于FPGA的 SPI通信 设计(1)
  • 为什么西门子、美的等企业这样进行架构升级,看看改造效果就知道了
  • open3d点云配准函数registration_icp
  • HTML编码规范
  • PDF SDK for Linux 8.4.2 Crack
  • vb 模块和作用域的关系
  • Redis分布式锁
  • 京东前端经典面试题整理
  • django+mysql实现一个简单的web登录页面
  • python cartopy手动导入地图数据绘制底图/python地图上绘制散点图:Downloading:warnings/散点图添加图里标签
  • JavaScript中常用的数组方法