当前位置: 首页 > news >正文

一文图解爬虫(spider)

—引导语

互联网(Internet)进化到今天,已然成为爬虫(Spider)编制的天下。从个体升级为组合、从组合联结为网络。因为有爬虫,我们可以更迅速地触达新鲜“网事”

在这里插入图片描述


那么爬虫究竟如何工作的呢?允许博主慢慢道来。

一、网络搜索算法
  • 深度搜索算法(DFS),座右铭:一路狂奔止南墙

定义:深度优先搜索属于图算法的一种,英文缩写为DFS(Depth First Search)。
特点:要达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件)。]

  • 广度搜索算法(BFS),座右铭:相邻相杀何时了

定义:广度优先搜索也属于图算法的一种,英文缩写为BFS(Breath First Search)。
特点:从被搜索结构的一个节点出发,先遍历其相邻节点,再遍历相邻节点的相邻节点。

如果依然不甚理解,可以参考示意图:
在这里插入图片描述

二、制造爬虫

基于算法这个大脑,爬虫也就有了交通地图。这时耳边响起了一句儿歌:“红灯停,绿灯行 ,黄灯亮了等一等”
此时,爬虫开启了无敌模式,无畏无惧,不吃不喝也能日行三万里。
但是还是要听主人的话吧?欣慰至极。
爬虫架构
上图是一个经典的爬虫设计图,也就是各零部件的交互指导,下面进行简单阐述。

1. 客户端

也就是爬虫的出发地点,可以是主流的任何终端设备

2. URL队列

在产生一个URL队列前,先要指定一个“队长”,就好比丐帮的一代长老。如此便可以代代相传,从一个人变成一直队伍,直到夺取天下。

3. 网页解析器

好比淘金一样,我们需要经过严选才能找到自己想要的金子。数据即金子。

4. 网页下载器

可以理解为一个播种机,如何让一粒黄豆变成一串串豆角,需要我们辛勤的耕耘与浇灌。


结语

只要具备以上条件,一只爬虫即可问世,请允许它开始放肆的工作吧(手动狗头)。
各位伙伴熟悉了么?

http://www.lryc.cn/news/226594.html

相关文章:

  • 腾讯云3年期轻量应用服务器优惠(薅羊毛教程)
  • 多个div横向排列的几种方法
  • 【编程语言发展史】Go语言的发展历史
  • 深入理解JVM虚拟机第二十三篇:详解JVM当中的栈顶缓存技术
  • 通过easyexcel导出数据到表格
  • C++入门学习(4)引用 (讲解拿指针比较)
  • 温度采集DS18B20
  • 同城跑腿服务预约小程序的作用如何
  • 前后端开发迭代
  • Git可视化界面的操作,SSH协议的以及IDEA集成Git
  • CSS的初步学习
  • 小程序样式问题
  • 大数据毕业设计选题推荐-生产大数据平台-Hadoop-Spark-Hive
  • 什么是Ribbon的饥饿加载?有什么优势?
  • 苹果手机安装未上架APP应用测试教程
  • asp.net core自定义授权过滤器
  • SW如何显示样条曲线的控标
  • CSS 的 link 标签放在 head 标签之间的作用
  • 【VS2019 Qt5 VTK9.2】临时解决配置相关问题的简单方法
  • 国际版腾讯云/阿里云:云解析DNS是什么
  • 深度学习之基于Django+Tensorflow商品识别管理系统
  • postman 参数化使用csv导入外部数据
  • C语言概述
  • elasticsearch分词器
  • # 深度解析 Socket 与 WebSocket:原理、区别与应用
  • C++17中std::optional的使用
  • c++求三个数的最小公倍数
  • Flink 基础 -- 尝试Flink
  • kubeadm部署k8s及高可用
  • GEE:将鼠标变成十字指针,点击获取影像值,显示值到UI中