当前位置: 首页 > news >正文

爬虫的流程

爬虫的流程

  • 获取网页
  • 提取信息
  • 保存数据
  • 自动化程序
  • 能爬怎样的数据

获取网页

  • 获取网页就是获取网页的源代码,源代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息
  • 浏览器访问网页的本质:浏览器向服务器发送请求——>返回的响应体便是网页源代码——>浏览器解析源代码呈现页面
  • python访问网页的本质:python利用urllib、requests等库实现HTTP请求——>由response等库获取响应,得到响应之后需要解析数据结构中的 body 部分得到网页的源代码——>。。。

提取信息

  • 由于网页的结构有一定的规则,所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库
  • 利用正则表达式来提取想要的数据

保存数据

  • 提取信息后,我们一般会将提取到的数据保存到某处以便后续使用
  • 保存形式:可以简单保存为 TXT 文本或 JSON 文本,也可以保存到数据库,如 MySQL

自动化程序

  • 自动化程序:意思是说爬虫可以代替人来完成这些操作。(数量特别大时)

能爬怎样的数据

能对应URL,基于HTTP或HTTPS协议的,都可以抓取

http://www.lryc.cn/news/445409.html

相关文章:

  • Git之如何删除Untracked文件(六十八)
  • k8s集群自动化管理
  • yum库 docker的小白安装教程(附部分问题及其解决方案)
  • python如何实现日期加减
  • springboot实战学习笔记(4)(Spring Validation参数校验框架、全局异常处理器)
  • 网络七层协议
  • 从 Oracle 集群到单节点环境(详细记录一次数据迁移过程)之一:生产环境与目标服务器详情
  • 【软件测试】详解测试中常用的几种测试方法
  • 开始学习深度学习-前言
  • Liveweb视频汇聚平台支持GB28181转RTMP、HLS、RTSP、FLV格式播放方案
  • 详解c++:new和delete
  • 【深度学习】(5)--搭建卷积神经网络
  • 边学英语边学 Java|Synchronization in java
  • k8s StorageClass 存储类
  • 3D Slicer医学图像全自动AI分割组合拳-MONAIAuto3DSeg扩展
  • 分布式光伏的发电监控
  • 微信小程序----日期时间选择器(自定义时间精确到分秒)
  • 3D生成技术再创新高:VAST发布Tripo 2.0,提升AI 3D生成新高度
  • ONNX Runtime学习之InferenceSession模块
  • 【TS】TypeScript内置条件类型-ReturnType
  • 【c语言数据结构】超详细!模拟实现双向链表(初始化、销毁、头删、尾删、头插、尾插、指定位置插入与删除、查找数据、判断链表是否为空)
  • 第十四届蓝桥杯嵌入式国赛
  • (k8s)kubernetes集群基于Containerd部署
  • python内置模块pathlib.Path类操作目录和文件
  • react开发环境搭建
  • python 逻辑语句简记
  • 8.进销存系统(基于springboot的进销存系统)
  • 深入理解主键回显:提升数据操作效率与准确性
  • springboot+阿里云物联网教程
  • QT Creator cmake 自定义项目结构, 编译输出目录指定