当前位置：首页 > news >正文

一文图解爬虫（spider）

news 2025/8/19 15:08:41

—引导语

互联网（Internet）进化到今天，已然成为爬虫（Spider）编制的天下。从个体升级为组合、从组合联结为网络。因为有爬虫，我们可以更迅速地触达新鲜“网事”。

在这里插入图片描述

那么爬虫究竟如何工作的呢？允许博主慢慢道来。

一、网络搜索算法

深度搜索算法（DFS），座右铭：一路狂奔止南墙

定义：深度优先搜索属于图算法的一种，英文缩写为DFS（Depth First Search）。
特点：要达到被搜索结构的叶结点（即那些不包含任何超链的HTML文件）。]

广度搜索算法（BFS），座右铭：相邻相杀何时了

定义：广度优先搜索也属于图算法的一种，英文缩写为BFS（Breath First Search）。
特点：从被搜索结构的一个节点出发，先遍历其相邻节点，再遍历相邻节点的相邻节点。

如果依然不甚理解，可以参考示意图：
在这里插入图片描述

二、制造爬虫

基于算法这个大脑，爬虫也就有了交通地图。这时耳边响起了一句儿歌：“红灯停，绿灯行，黄灯亮了等一等”。
此时，爬虫开启了无敌模式，无畏无惧，不吃不喝也能日行三万里。
但是还是要听主人的话吧？欣慰至极。
爬虫架构
上图是一个经典的爬虫设计图，也就是各零部件的交互指导，下面进行简单阐述。

1. 客户端

也就是爬虫的出发地点，可以是主流的任何终端设备

2. URL队列

在产生一个URL队列前，先要指定一个“队长”，就好比丐帮的一代长老。如此便可以代代相传，从一个人变成一直队伍，直到夺取天下。

3. 网页解析器

好比淘金一样，我们需要经过严选才能找到自己想要的金子。数据即金子。

4. 网页下载器

可以理解为一个播种机，如何让一粒黄豆变成一串串豆角，需要我们辛勤的耕耘与浇灌。

结语

只要具备以上条件，一只爬虫即可问世，请允许它开始放肆的工作吧（手动狗头）。
各位伙伴熟悉了么？

查看全文

http://www.lryc.cn/news/226594.html

腾讯云3年期轻量应用服务器优惠（薅羊毛教程）

多个div横向排列的几种方法

【编程语言发展史】Go语言的发展历史

深入理解JVM虚拟机第二十三篇：详解JVM当中的栈顶缓存技术

通过easyexcel导出数据到表格

C++入门学习（4）引用（讲解拿指针比较）

温度采集DS18B20

同城跑腿服务预约小程序的作用如何

前后端开发迭代

Git可视化界面的操作，SSH协议的以及IDEA集成Git

CSS的初步学习

小程序样式问题

大数据毕业设计选题推荐-生产大数据平台-Hadoop-Spark-Hive

什么是Ribbon的饥饿加载？有什么优势？

苹果手机安装未上架APP应用测试教程

asp.net core自定义授权过滤器

SW如何显示样条曲线的控标

CSS 的 link 标签放在 head 标签之间的作用

【VS2019 Qt5 VTK9.2】临时解决配置相关问题的简单方法

国际版腾讯云/阿里云：云解析DNS是什么

深度学习之基于Django+Tensorflow商品识别管理系统

postman 参数化使用csv导入外部数据

C语言概述

elasticsearch分词器

# 深度解析 Socket 与 WebSocket：原理、区别与应用

C++17中std::optional的使用

c++求三个数的最小公倍数

Flink 基础 -- 尝试Flink

kubeadm部署k8s及高可用

GEE：将鼠标变成十字指针，点击获取影像值，显示值到UI中