当前位置: 首页 > news >正文

爬虫基础(五)爬虫基本原理

目录

一、爬虫是什么

二、爬虫过程

(1)获取网页

(2)提取信息

(3)保存数据

三、爬虫可爬的数据

四、爬虫问题


一、爬虫是什么

互联网,后面有个网字,我们可以把它看成一张蜘蛛网。

爬虫,后面有个虫子,我们可以把它看成蜘蛛。

爬虫之于互联网,就是蜘蛛之于蜘蛛网。

蜘蛛每爬到一个节点,就是爬虫访问了一个网页。

用正式的话来说,

爬虫,就是自动提取、保存网页信息的程序。

二、爬虫过程

(1)获取网页

获取网页,就是获取网页的源代码

(注:因为源代码包含各种信息,所以要获取源代码)

(2)提取信息

提取信息,一般采用正则表达式

另外,由于网页结构具有一定规则,所以有的是采用其他方式提前的

如:

Beautiful Soup、pyquery、lxml

(3)保存数据

保存数据,可以保存为TXT文件、JSON文件

当然,也可以保存到数据库:MySQL、MongoDB等。

三、爬虫可爬的数据

在以前的文章中,我们知道网页中的信息都藏在URL中,所以一般来说,只要是URL的数据,我们就可以抓取。

四、爬虫问题

最常见的一个问题,就是无法爬出完整数据

即,我们爬出来的数据,和我们看到的数据并不一样,这是怎么回事呢?

因为,在该网站的HTML代码中

可能引入了app.js文件,其负责整个文件的渲染。

而当浏览器打开这个界面时,首先加载HTML内容

然后引入app.js文件,并发起请求。

然后执行该文件中的JavaScript代码,

而JavaScript代码会改变HTML中的节点,并添加内容,最后得到内容

但是当我们使用库:urllib和request请求界面时,只得到HTML代码

但它不会继续加载JavaScript文件,所以我们就无法载入完整内容。

至于解决办法,我们会在后续文章中一一道来。

http://www.lryc.cn/news/529508.html

相关文章:

  • 力扣【1049. 最后一块石头的重量 II】Java题解(背包问题)
  • FFmpeg rtmp推流直播
  • WordPress Icegram Express插件Sql注入漏洞复现(CVE-2024-2876)(附脚本)
  • 重构字符串(767)
  • IO进程线程复习
  • 深入理解Linux内核的虚拟地址到物理地址转换机制及缓存优化
  • 2025年01月29日Github流行趋势
  • yolov11、yolov8部署的7种方法(yolov11、yolov8部署rknn的7种方法),一天一种部署方法,7天入门部署
  • 【ArcGIS遇上Python】批量提取多波段影像至单个波段
  • Node.js MySQL:深度解析与最佳实践
  • wordpress外贸独立站常用询盘软件
  • Kotlin 委托详解
  • Cursor 简介:AI 如何改变编程体验
  • Fiddler(一) - Fiddler简介_fiddler软件
  • 实测数据处理(Wk算法处理)——SAR成像算法系列(十二)
  • P1775 石子合并(弱化版)
  • 一文回顾讲解Java中的集合框架
  • 多模态论文笔记——NaViT
  • 智能小区物业管理系统推动数字化转型与提升用户居住体验
  • I2C基础知识
  • 护眼好帮手:Windows显示器调节工具
  • MongoDb user自定义 role 添加 action(collStats, EstimateDocumentCount)
  • mysql学习笔记-数据库其他调优策略
  • Office / WPS 公式、Mathtype 公式输入花体字、空心字
  • (done) MIT6.S081 2023 学习笔记 (Day6: LAB5 COW Fork)
  • SYN Flooding的攻击原理
  • MYSQL--一条SQL执行的流程,分析MYSQL的架构
  • cmd命令行无法进入D:盘怎么办
  • CRC校验详解
  • windows系统本地部署deepseek及webui界面