当前位置: 首页 > news >正文

数据分析——Python网络爬虫(三){爬虫基本原理}

爬虫基本原理

  • 爬虫基本流程
  • 拉取什么数据
  • JavaScript渲染页面
  • cookies
  • 爬虫代理
  • 检查robots.txt
  • 爬虫的攻与防

爬虫基本流程

   • 获取网页源代码:通过库来实现,urllib,requests等实现http请求
   • 提取信息:分析网页源代码,提取数据,如正则表达式,beautiful soup,pyquery,lxml等
   • 保存数据:保存为txt,json或数据库

拉取什么数据

   • Html代码
   • Json字符串(api接口,手机端大部分是这种数据格式)
   • 二进制文件(图片,音频,视频等)
   • 各种扩展名的文件:css,JavaScript,各种配置文件等

JavaScript渲染页面

   • 用urllib或requests抓取网页时,得到的源代码和浏览器中看到的 不一样
   • 越来越多的网页采用ajax、前端模块化工具来构建,整个网页都JavaScript渲染出来的
   • 需要分析ajax接口,或使用selenium等库实现模拟JavaScript渲染
   • 页面渲染

cookies

   • cookies在浏览器端,在访问动态网页时候浏览器会自动附带上它发送给服务器,服务器通过识别cookies并鉴定其是哪个用户,判断其是否登录状态,然后返回对应的响应
   • cookies

爬虫代理

   • 代理网络用户去取得网络信息
     代理的作用:突破自身IP访问限制,访问团体内部资源,提高访问 速度,隐藏真实IP
   • 爬虫代理可以获得较好的爬取效果(防止被封禁或输入验证码登录)

检查robots.txt

  Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取
  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面

豆瓣的robots.txt在这里插入图片描述

爬虫的攻与防

在这里插入图片描述

http://www.lryc.cn/news/398400.html

相关文章:

  • Linux 忘记root密码,通过单用户模式修改
  • 安卓热门面试题二
  • agents 分类
  • 【期末考试复习】概率论与数理统计(知识点模式 - 复习题2)
  • Jetpack Compose实现一个简单的微信UI
  • myeclipse开发ssm框架项目图书管理系统 mysql数据库web计算机毕业设计项目
  • 网络安全防御 -- 防火墙安全策略用户认证综合实验
  • 捷配笔记-PCB阻焊颜色对产品有什么影响?
  • 网信大数据信用报告查询怎么查?网信大数据有什么作用?
  • 【Vue】vue-element-admin组件化功能
  • [论文笔记]涨点近5%! 以内容中心的检索增强生成可扩展的级联框架:Pistis-RAG
  • 时钟系统框图(时钟树)解析
  • DNS缓存详解
  • 一款好用的特殊字符处理工具
  • 双重锁定:零信任沙箱 完美的安全保障
  • 【小沐学Python】在线web数据可视化Python库:Bokeh
  • GitHub 站点打不开
  • 前端开发工具
  • Everything搜索无法搜索到桌面的文件(无法检索C盘 或 特定路径的文件)
  • React@16.x(52)Redux@4.x(1)- 核心概念
  • pytest系列——pytest_runtest_makereport钩子函数获取测试用例执行结果
  • Oracle数据库模式对象
  • 各地户外分散视频监控点位,如何实现远程集中实时监看?
  • Vue笔记12-新的组件
  • PySide6开发桌面程序,PySide6入门实战(下)
  • Java面试八股之Redis有哪些数据类型?底层实现分别是什么
  • 分布式应用系统设计:即时消息系统
  • 【YashanDB知识库】调整NUMBER精度,再执行统计信息收集高级包偶现数据库异常退出
  • ComfyUI+MuseV+MuseTalk图片数字人
  • 【Python】从基础到进阶(三):深入了解Python中的运算符与表达式