当前位置: 首页 > news >正文

Python多线程爬虫为何效率低下?解析原因并提高爬虫速度的方法

目录

  • 一、知识点
    • 二、多线程语法
      • GIL
        • 单线程
        • 多线程
          • 单线程
          • 多线程
      • 最后的惊喜

一、知识点

线程(Thread)也叫轻量级进程,是操作系统能够进行运算调度的最小单位,它被包含在进程之中,是进程中的实际运作单位。线程自己不拥有系统资源,只拥有一点在运行中必不可少的资源,但它可与同属的一个进程的其它线程共享进程所拥有的全部资源。一个线程可以创建和撤销另一个线程,同一进程中的多个线程之间可以并发执行。

二、多线程语法

在Python中实现多线程编程需要用到的就是threading模块中的Thread类,我们来看看最简单的语法,我们首先来一个简单的函数。

def task(num):count = 0for i in range(num):count += 1print(count)nums = [100, 1000, 10000]
for num in nums:task(num)# 100
#1000
#10000

我们用三个子线程分别计算。

import threadingdef task(num):count = 0for i in range(num):count += 1print(count)nums = [100, 1000, 10000]
for num in nums:t = threading.Thread(target=task, args=(num,))t.start()

利用Thread创建线程,target参数接收函数名,args参数接收函数的参数,start方法启动线程。

这里还需要讲解一下join方法,他的作用是让主线程等待,直到该子线程结束。我们来看看加该方法和不加该方法,最终的结果是怎么样的。

import threadingdef task():num = 0for i in range(10000000):num += 1print(num)t = threading.Thread(target=task)
t.start()
print('end')# end
# 10000000import threadingdef task():num = 0for i in range(10000000):num += 1print(num)t = threading.Thread(target=task)
t.start()
t.join()
print('end')# 10000000
# end

GIL

在说概念之前,我们还是以上面的代码为例,分别求单线程和多线程代码运行的时间。

单线程

import timedef task(num):count = 0for i in range(num):count += 1print(count)nums = [1000000, 100000000, 1000000000]
start = time.time()
for num in nums:task(num)
end = time.time()
print(end - start)# 50.44705629348755

多线程

import threading
import timedef task(num):count = 0for i in range(num):count += 1print(count)nums = [1000000, 100000000, 1000000000]
ts = []
start = time.time()for num in nums:t = threading.Thread(target=task, args=(num,))t.start()ts.append(t)for t in ts:t.join()end = time.time()
print(end - start)# 55.022353172302246

你会发现多线程比单线程花费的时间还要更多,这是因为GIL的原因。

GIL的全称是Global Interpreter Lock(全局解释器锁),Python最初的设计理念在于,为了解决多线程之间数据完整性和状态同步的问题,设计为在任意时刻只能由一个线程在解释器中运行。因此Python中的多线程是表面上的多线程(同一时刻只有一个线程),不是真正的多线程。

但是如果是因为GIL的原因,就说多线程无用是不对的,对于IO密集的程序,多线程是要比单线程快的。我们举一个简单的爬虫案例。

单线程
import timedef task(url):s = url.split('_')[-1]time.sleep(int(s)) #这里模拟请求等待urls = ['url_1', 'url_2', 'url_3']
start = time.time()
for url in urls:task(url)
end = time.time()
print(end - start)# 6.013520002365112
多线程
import threading
import timedef task(url):s = url.split('_')[-1]time.sleep(int(s))ts = []
urls = ['url_1', 'url_2', 'url_3']
start = time.time()for url in urls:t = threading.Thread(target=task, args=(url,))t.start()ts.append(t)for t in ts:t.join()end = time.time()
print(end - start)# 3.005527973175049

这时候我们就能看到多线程的优势了,虽然多线程只是在各线程来回切换,但是可以让IO堵塞的时间切换到其他线程做其他的任务,很适合爬虫或者文件的操作。

最后的惊喜

最后这里有准备一些Python的学习资料需要的自取哈

http://www.lryc.cn/news/62490.html

相关文章:

  • Python 标准方形信号定义(完美实现)
  • [Daimayuan] 走不出的迷宫(C++,图论,DP)
  • 【LeetCode: 1416. 恢复数组 | 暴力递归=>记忆化搜索=>动态规划 】
  • centos7查看磁盘io
  • 浅析低代码开发的典型应用构建场景v
  • 3 连续模块(二)
  • ElasticSearch 部署及安装ik分词器
  • 汽车充电桩检测设备TK4860C交流充电桩检定装置
  • 备份和恢复:确保数据安全
  • 8 DWA(一)
  • mysql慢查询日志
  • Sentinel介绍及搭建
  • 最受信任的低代码平台排行榜
  • Django框架之创建项目、应用并配置数据库
  • 软件测试之基础概念学习篇(需求 + 测试用例 + 开发模型 + 测试模型 + BUG)
  • Windows下版本控制器(SVN) - 1、开发中的实际问题+2、版本控制简介
  • Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head Synthesis 笔记
  • SpringBoot 项目整合 Redis 教程详解
  • 3ASC25H214 DATX130以力控制为基础的装配应用方面已经形成了一个解决方案
  • Java的位运算
  • FastDFS分布式文件存储
  • Android的AAC架构
  • 高功率激光切割中不良现象的排除技巧
  • MySQL-----复合查询
  • 10.Yarn概述
  • MFC实现背景透明,控件不透明的对话框,且点击图片有事件响应
  • 案例01-tlias智能学习辅助系统01-增删改查+参数传递
  • Spring之Bean的配置与实例
  • “不保留活动”打开,导致app返回前台崩溃问题解决
  • 解读vue3源码(3)——watch