当前位置: 首页 > news >正文

Python 爬虫性能相关总结

这里我们通过请求网页例子来一步步理解爬虫性能

当我们有一个列表存放了一些url需要我们获取相关数据,我们首先想到的是循环

简单的循环串行

这一种方法相对来说是最慢的,因为一个一个循环,耗时是最长的,是所有的时间总和
代码如下:这里我们通过请求网页例子来一步步理解爬虫性能

当我们有一个列表存放了一些url需要我们获取相关数据,我们首先想到的是循环

简单的循环串行

这一种方法相对来说是最慢的,因为一个一个循环,耗时是最长的,是所有的时间总和
代码如下:

import requestsurl_list = ['http://www.baidu.com','http://www.pythonsite.com','http://www.cnblogs.com/'
]for url in url_list:result = requests.get(url)print(result.text)

通过线程池

通过线程池的方式访问,这样整体的耗时是所有连接里耗时最久的那个,相对循环来说快了很多

import requests
from concurrent.futures import ThreadPoolExecutordef fetch_request(url):result = requests.get(url)print(result.text)url_list = ['http://www.baidu.com','http://www.bing.com','http://www.cnblogs.com/'
]
pool = ThreadPoolExecutor(10)for url in url_list:#去线程池中获取一个线程,线程去执行fetch_request方法pool.submit(fetch_request,url)pool.shutdown(True)

线程池+回调函数

这里定义了一个回调函数callback线程池+回调函数

这里定义了一个回调函数callback
请添加图片描述

from concurrent.futures import ThreadPoolExecutor
import requestsdef fetch_async(url):response = requests.get(url)return responsedef callback(future):print(future.result().text)url_list = ['http://www.baidu.com','http://www.bing.com','http://www.cnblogs.com/'
]pool = ThreadPoolExecutor(5)for url in url_list:v = pool.submit(fetch_async,url)#这里调用回调函数v.add_done_callback(callback)pool.shutdown()

通过进程池

通过进程池的方式访问,同样的也是取决于耗时最长的,但是相对于线程来说,进程需要耗费更多的资源,同时这里是访问url时IO操作,所以这里线程池比进程池更好

import requests
from concurrent.futures import ProcessPoolExecutordef fetch_request(url):result = requests.get(url)print(result.text)url_list = ['http://www.baidu.com','http://www.bing.com','http://www.cnblogs.com/'
]
pool = ProcessPoolExecutor(10)for url in url_list:#去进程池中获取一个线程,子进程程去执行fetch_request方法pool.submit(fetch_request,url)pool.shutdown(True)

进程池+回调函数

这种方式和线程+回调函数的效果是一样的,相对来说开进程比开线程浪费资源

from concurrent.futures import ProcessPoolExecutor
import requestsdef fetch_async(url):response = requests.get(url)return responsedef callback(future):print(future.result().text)url_list = ['http://www.baidu.com','http://www.bing.com','http://www.cnblogs.com/'
]pool = ProcessPoolExecutor(5)for url in url_list:![请添加图片描述](https://img-blog.csdnimg.cn/8ea42ad01558457a9db314a715b3e8b6.png)v = pool.submit(fetch_async, url)# 这里调用回调函数v.add_done_callback(callback)pool.shutdown()

主流的单线程实现并发的几种方式

asyncio
gevent
Twisted
Tornado
下面分别是这四种代码的实现例子:

asyncio例子1:

import asyncio@asyncio.coroutine #通过这个装饰器装饰
def func1():print('before...func1......')# 这里必须用yield from,并且这里必须是asyncio.sleep不能是time.sleepyield from asyncio.sleep(2)print('end...func1......')tasks = [func1(), func1()]loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.gather(*tasks))
loop.close()
http://www.lryc.cn/news/45540.html

相关文章:

  • Baumer工业相机堡盟工业相机如何设置网口的IP地址(工业相机连接的网口设置IP地址步骤)
  • Android MediaCodec设置H264 Profile到High
  • QT之QSysInfo(查看电脑信息)
  • 中国塑料编织袋产业竞争状况及投资前景预测报告2023-2029年
  • 从头用脚分析FFmpeg源码 - av_read_frame
  • 第17章_触发器
  • 3956. 截断数组
  • React Labs: 我们最近在做什么——2023 年 3 月
  • 文件系统设计详解
  • 好看~立马启动python实现美女通通下
  • Git 安装设置
  • Python-闭包
  • Gitlab中Pipeline语法四
  • Go语言精修(尚硅谷笔记)第五章
  • 三、MySQL 高级(DML 增删改)
  • 面向AI编程的本质是什么?
  • 深入浅出——深度学习训练中的warmup
  • 你知道如何用C语言将格式化数据和字符串相互转换吗?
  • 免费一键生成原创文章-原创文章批量生成
  • 【数据库管理】④重做日志Redo Log
  • 5-python文件操作
  • 企业级Oracle入门Linux/Unix基础①
  • NexNoSQL Client:Elasticsearch、Redis、MongoDB三合一的可视化客户端管理工具
  • 如果大学能重来,我绝对能吊打90%的大学生,早知道这方法就好了
  • FactoryBean是现在的执行时机
  • 自定义注解使用
  • 2023年全国最新高校辅导员精选真题及答案42
  • Python模拟星空
  • IDE集成开发工具-IDEA(一)之IDE的概念
  • 基于Java+Springboot+vue的汽车租赁系统设计与实现【源码(完整源码请私聊)+论文+演示视频+包运行成功】