当前位置：首页 > news >正文

爬虫的流程

news 2025/7/14 0:35:57

爬虫的流程

获取网页
提取信息
保存数据
自动化程序
能爬怎样的数据

获取网页

获取网页就是获取网页的源代码，源代码里包含了网页的部分有用信息，所以只要把源代码获取下来，就可以从中提取想要的信息
浏览器访问网页的本质：浏览器向服务器发送请求——>返回的响应体便是网页源代码——>浏览器解析源代码呈现页面
python访问网页的本质：python利用urllib、requests等库实现HTTP请求——>由response等库获取响应，得到响应之后需要解析数据结构中的 body 部分得到网页的源代码——>。。。

提取信息

由于网页的结构有一定的规则，所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库
利用正则表达式来提取想要的数据

保存数据

提取信息后，我们一般会将提取到的数据保存到某处以便后续使用
保存形式：可以简单保存为 TXT 文本或 JSON 文本，也可以保存到数据库，如 MySQL

自动化程序

自动化程序：意思是说爬虫可以代替人来完成这些操作。（数量特别大时）

能爬怎样的数据

能对应URL，基于HTTP或HTTPS协议的，都可以抓取

http://www.lryc.cn/news/445409.html

相关文章：

Git之如何删除Untracked文件(六十八)

k8s集群自动化管理

yum库 docker的小白安装教程（附部分问题及其解决方案）

python如何实现日期加减

springboot实战学习笔记（4）(Spring Validation参数校验框架、全局异常处理器)

网络七层协议

从 Oracle 集群到单节点环境（详细记录一次数据迁移过程）之一：生产环境与目标服务器详情

【软件测试】详解测试中常用的几种测试方法

开始学习深度学习-前言

Liveweb视频汇聚平台支持GB28181转RTMP、HLS、RTSP、FLV格式播放方案

详解c++：new和delete

【深度学习】（5）--搭建卷积神经网络

边学英语边学 Java｜Synchronization in java

k8s StorageClass 存储类

3D Slicer医学图像全自动AI分割组合拳-MONAIAuto3DSeg扩展

分布式光伏的发电监控

微信小程序----日期时间选择器（自定义时间精确到分秒）

3D生成技术再创新高：VAST发布Tripo 2.0，提升AI 3D生成新高度

ONNX Runtime学习之InferenceSession模块

【TS】TypeScript内置条件类型-ReturnType

【c语言数据结构】超详细！模拟实现双向链表(初始化、销毁、头删、尾删、头插、尾插、指定位置插入与删除、查找数据、判断链表是否为空)

第十四届蓝桥杯嵌入式国赛

（k8s）kubernetes集群基于Containerd部署

python内置模块pathlib.Path类操作目录和文件

react开发环境搭建

python 逻辑语句简记

8.进销存系统（基于springboot的进销存系统）

深入理解主键回显：提升数据操作效率与准确性

springboot+阿里云物联网教程

QT Creator cmake 自定义项目结构，编译输出目录指定