当前位置: 首页 > news >正文

Python 网络爬取的时候使用那种框架

尽管现代的网站多采取前后端分离的方式进行开发了,但是对直接 API 的调用我们通常会有 token 的限制和可以调用频率的限制。

2023-09-19_11-42-21

因此,在一些特定的网站上,我们可能还是需要使用网络爬虫的方式获得已经返回的 JSON 数据结构,甚至是处理已经完成界面展示的数据了。

Selenium

与BeautifulSoup和Scrapy相比,Selenium是一个不同的工具。

Selenium 并不是为网络爬取而生的。它实际上是为网络测试而开发的。Selenium被用于网络应用程序的自动化测试。

它使网络浏览器自动化,你可以用它来代表你在浏览器环境中进行操作。然而,它后来也被纳入了网络爬取的范畴。Selenium可以发送网络请求,还带有一个分析器。通过Selenium,你可以从HTML文档中提取数据,就像你使用Javascript DOM API那样。

Selenium的主要优势在于它能加载Javascript,并能帮助你访问JavaScript背后的数据,而不一定要自己经历发送额外请求的痛苦。这使得Selenium不仅对自己有用,而且对其他工具也有用。

使用Scrapy或BeautifulSoup 的网络爬虫如果需要只有在加载Javascript文件时才能获得的数据,就会使用Selenium。

Selenium 会启动一个浏览器,同时在这个浏览器中进行操作的模拟。

同时 Selenium 还具有 HTML 的 DOM 分析能力,通过选择器,你可以选择需要的数据。

Scrapy

Scrapy是一个网络抓取框架,它配备了大量的工具,使网络抓取和爬取变得简单。它在设计上是多线程的,并建立在Twisted之上。Twisted是一个异步网络框架,遵循对服务器的非阻塞I/O调用。因为它是多线程和非阻塞的,所以它在性能方面实际上是最好的,实际上是3个工具中最快的。Scrapy比这三个工具的一个优势是,它带有发送请求和解析响应的模块。

Scrapy 是开发复杂的网络抓取和爬虫工具,因为你可以创建大量的工作者,而且每个工作者都能毫不费力地工作。它的建立是为了消耗更少的内存,并将CPU资源的使用降到最低。事实上,一些基准测试表明,Scrapy在抓取方面比其他工具快20倍。它是可移植的,而且其功能可以扩展。

与Scrapy相关的主要问题是,它不是一个以初学者为中心的工具。

Scrapy 的文档比较难读,学习曲线也比较陡峭,我不认为这个工具比较适合初学者来使用。

Scrapy的一个主要缺点是它不能渲染 JavaScript;你必须发送 Ajax 请求来获取隐藏在JavaScript事件后面的数据。

这种情况对当前前后端分离的技术来说,还是有点麻烦的,我们必须要比较清楚的分析 AJAX 的数据请求。

BeautifulSoup

对应 Java 世界来说,Java 会有一个 JSoup。

一个针对 HTML 的 Dom 文件分析器和选择器,BeautifulSoup 在Python 中做了同样的工作。

通过让你对 HTML 界面中的内容进行分析和处理以便于能够从中获取数据。

比如说,如果界面中有表格,在表格中有数据,我们需要获取的就是表格中的数据的话,就可以使用 DOM 分析工具来进行分析。

总结

因最近我们在对爬虫的使用进行研究,对上面 3 个框架都有了一些探讨。

个人觉得比较简单的还是 Selenium,同时 Selenium 也足够强大,能够满足我们对一些小网站的爬虫分析。

Python 网络爬取的时候使用那种框架 - Python - iSharkFly

http://www.lryc.cn/news/170698.html

相关文章:

  • CentOS7安装源设置
  • pool = multiprocessing.Pool()报错:module object has no attribute Pool
  • Linux Shell 实现一键部署podman
  • Biome-BGC生态系统模型与Python融合技术
  • Matlab图像处理-区域描述
  • openGauss学习笔记-69 openGauss 数据库管理-创建和管理普通表-更新表中数据
  • Flink RowData 与 Row 相互转化工具类
  • 企业架构LNMP学习笔记48
  • docker部署neo4j
  • 融云观察:AI Agent 是不是游戏赛道的下一个「赛点」?
  • 运用谷歌浏览器的开发者工具,模拟搜索引擎蜘蛛抓取网页
  • uni-app 点击蒙版层时关闭自定义弹窗
  • 【红包雨功能的】环境部署(弹性伸缩、负载均衡、Redis读写分离、云服务器部署)
  • 基于Java的设计模式-策略模式
  • 小程序多种姿势更换文章
  • 读书笔记-《ON JAVA 中文版》-摘要25[第二十二章 枚举]
  • DNDC模型建模方法及应用
  • Kafka为什么是高性能高并发高可用架构
  • QT-day3
  • 开发自测的测试用例设计方法
  • 【AI视野·今日Sound 声学论文速览 第七期】Tue, 19 Sep 2023
  • MySQL 清空表 截断表
  • 2020-2023中国高等级自动驾驶产业发展趋势研究-中国高等级自动驾驶发展近况
  • Spring学习之ImportBeanDefinitionRegistrar接口
  • React 全栈体系(八)
  • 4.开放-封闭原则
  • oracle递归with子句
  • 如何在Proteus进行STM32F103C8T6模拟以及keil5开发
  • C# OpenCvSharp 图片模糊检测(拉普拉斯算子)
  • 志高团队:广阔前景 全新的投资理财体验