当前位置: 首页 > news >正文

python爬虫之aiohttp多任务异步爬虫

python爬虫之aiohttp多任务异步爬虫

爬取的flash服务如下:

from flask import Flask
import timeapp = Flask(__name__)@app.route('/bobo')
def index_bobo():time.sleep(2)return 'Hello bobo'@app.route('/jay')
def index_jay():time.sleep(2)return 'Hello jay'@app.route('/tom')
def index_tom():time.sleep(2)return 'Hello tom'if __name__ == '__main__':app.run(threaded=True)

运行启动flask服务后,多任务爬取代码如下:

#环境安装:pip install aiohttp
#使用该模块中的ClientSession
import requests
import asyncio
import time
import aiohttpstart = time.time()
urls = ['http://127.0.0.1:5000/bobo','http://127.0.0.1:5000/jay','http://127.0.0.1:5000/tom'
]async def get_page(url):async with aiohttp.ClientSession() as session:#get()、post():#headers,params/data,proxy='http://ip:port'async with await session.get(url) as response:#text()返回字符串形式的响应数据#read()返回二进制形式的响应数据#json()返回的就是json对象#注意:获取响应数据操作之前一定要使用await进行手动挂起page_text = await response.text()print(page_text)tasks = []for url in urls:c = get_page(url)task = asyncio.ensure_future(c)tasks.append(task)loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))end = time.time()print('总耗时:',end-start)
http://www.lryc.cn/news/382443.html

相关文章:

  • 1964springboot VUE小程序在线学习管理系统开发mysql数据库uniapp开发java编程计算机网页源码maven项目
  • 【前端项目笔记】3 用户管理
  • 【文献及模型、制图分享】基于SSP-RCP不同情景的京津冀地区土地覆被变化模拟
  • 基于单片机的智能台灯控制系统
  • PrestaShop的一些使用介绍
  • 零基础女生如何入门人工智能,从哪里下手?学习时间大概要多久?
  • 简答分享python学习进修网站
  • linux高级编程(I/O)
  • Java面试——认证与授权
  • 【经典算法OJ题讲解】
  • 大数据面试题之Zookeeper面试题
  • JVM 内存区域
  • 全网最强剖析Spring AOP底层原理
  • Vscode中的行尾序列CRLF/LF不兼容问题
  • 常见加密方式:MD5、DES/AES、RSA、Base64
  • 如何在 C++/Qt/CMake 项目中构建 Rust 代码
  • 封装了一个优雅的iOS转场动画
  • 数据中心技术:大数据时代的机遇与挑战
  • 29、架构-技术方法论之向微服务迈进
  • 点云处理实操 1. 求解点云法向
  • XSS+CSRF组合拳
  • PasteSpiderFile文件同步管理端使用说明(V24.6.21.1)
  • NLP中两种不同的中文分词形式,jieba和spaCy
  • 【数据库】四、数据库编程(SQL编程)
  • 17.RedHat认证-Ansible自动化运维(下)
  • React Suspense的原理
  • React的生命周期函数详解
  • DoubleSummaryStatistics 及其相关类之-简介
  • java线程间的通信 - join 和 ThreadLocal
  • 差分GPS原理