当前位置: 首页 > news >正文

『赠书活动 | 第十七期』《Python网络爬虫:从入门到实战》

在这里插入图片描述

💗wei_shuo的个人主页

💫wei_shuo的学习社区

🌐Hello World !


『赠书活动 | 第十七期』

本期书籍:《Python网络爬虫:从入门到实战》


赠书规则:评论区:点赞|收藏|留言
评论区留言:"人生苦短,我用Java"
活动截止时间:8月21日
赠书数量:2
Tip:中奖后博主私信通知 | 三天内不回复将视为 | 自动放弃
书籍介绍

本书介绍了Python3网络爬虫的常见技术。首先介绍了网页的基础知识,然后介绍了urllib、Requests请求库以及XPath、Beautiful Soup等解析库,接着介绍了selenium对动态网站的爬取和Scrapy爬虫框架,最后介绍了Linux基础,便于读者自主部署编写好的爬虫脚本

进程和线程

进程可以理解为是正在运行的程序的实例。进程是拥有资源的独立单位,而线程不是独立的单位。由于每一次调度进程的开销比较大,为此才引入的线程。一个进程可以拥有多个线程,一个进程中可以同时存在多个线程,这些线程共享该进程的资源,线程的切换消耗是很小的。因此在操作系统中引入进程的目的是更好地使多道程序并发执行,提高资源利用率和系统吞吐量;而引入线程的目的则是减小程序在并发执行时所付出的时空开销,提高操作系统的并发性能

单线程改为多线程


import requests
from lxml import etree
import time
import osdirpath = '图片/'
if not os.path.exists(dirpath):os.mkdir(dirpath)  # 创建文件夹header = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
}
def get_photo():url = 'https://www.huya.com/g/4079/'  # 目标网站response = requests.get(url=url, headers=header)  # 发送请求data = etree.HTML(response.text)  # 转化为html格式return datadef jiexi():data = get_photo()image_url = data.xpath('//a//img//@data-original')image_name = data.xpath('//a//img[@class="pic"]//@alt')for ur, name in zip(image_url, image_name):url = ur.replace('?imageview/4/0/w/338/h/190/blur/1', '')title = name + '.jpg'response = requests.get(url=url, headers=header)  # 在此发送新的请求with open(dirpath + title, 'wb') as f:f.write(response.content)print("下载成功" + name)time.sleep(2)if __name__ == '__main__':jiexi()

if __name__ == "__main__":threads = []start = time.time()# 创建四个进程for i in range(1, 5):thread = threading.Thread(target=jiexi(), args=(i,))threads.append(thread)thread.start()for thread in threads:thread.join()end = time.time()running_time = end - startprint('总共消耗时间 : %.5f 秒' % running_time)print("全部完成!")  # 主程序

在这里插入图片描述

作者简介

在这里插入图片描述

内容结构及配套资源

在这里插入图片描述

在这里插入图片描述

抽奖时间:2023.8.21
公布方式:评论区公布,私信通知

🌼 结语:创作不易,如果觉得博主的文章赏心悦目,还请——点赞👍收藏⭐️评论📝


在这里插入图片描述

http://www.lryc.cn/news/119186.html

相关文章:

  • C++——vector介绍及其简要模拟实现
  • Vue2嵌入HTML页面空白、互相传参、延迟加载等问题解决方案
  • 目标检测中的IOU
  • 微信小程序实现双向滑动快捷选择价格(价格区间)
  • W5500-EVB-PICO 做TCP Server进行回环测试(六)
  • Flowise AI:用于构建LLM流的拖放UI
  • Vue原理解析:Vue到底是什么?
  • Playwright 和 Selenium 的区别是什么?
  • 【面试题】前端面试十五问
  • 09-1_Qt 5.9 C++开发指南_Qchart概述
  • 烘焙光照贴图,模型小部分发黑
  • gitblit windows部署
  • opencv基础53-图像轮廓06-判断像素点与轮廓的关系(轮廓内,轮廓上,轮廓外)cv2.pointPolygonTest()
  • 【LeetCode每日一题】——575.分糖果
  • 添加水印图片的java代码
  • uniapp创建项目入门【详细】
  • pytest功能特性介绍
  • UIE在实体识别和关系抽取上的实践
  • Baklib: 逆袭语雀的在线帮助中心,知识库管理工具
  • web 3d场景构建+three.js+室内围墙,仓库,楼梯,货架模型等,第一人称进入场景案例
  • EditPlus取消自动.bak备份
  • LLM - Transformer LLaMA2 结构分析与 LoRA 详解
  • 前端技术搭建五子棋游戏(内含源码)
  • AST入门与实战(三):if节点转switch节点(瑞数5)
  • 小白到运维工程师自学之路 第七十一集 (kubernetes网络设置)
  • day17 enum abstract interface 枚举 抽象 接口
  • c刷题(二)
  • 【leetcode】15. 三数之和(medium)
  • 【css】属性选择器
  • Redis_概述