当前位置: 首页 > news >正文

初识爬虫1

学习路线:爬虫基础知识-requests模块-数据提取-selenium-反爬与反反爬-MongoDB数据库-scrapy-appium。

对应视频链接(百度网盘):正在整理中

爬虫基础知识:

1.爬虫的概念

总结:模拟浏览器,发送请求,获取响应。
2.爬虫的作用
        数据采集
        软件测试
        抢票
        网站上的投票
        网络安全
3.爬虫的分类
        数量
        是否获取数据
        url与数据的关系

 4.爬虫的流程
        url
        发请求,获取响应
        解析

5.http复习
        http以及https的概念和区别
        HTTPSH比HTTP更安全,但是性能更低
6.常见的请求头与响应头
请求头
host                                                域名
Connection                                     长连接
Upgrade-Insecure-Requests          升级为HTTPS请求
***User-Agent                                 用户代理,提供系统信息和浏览器信息
***Referer                                       页面跳转处,防盗链(图片/视频)
***Cookie                                        状态保持
响应头                                             Set-Cookie
7.状态码
所有的状态码都不可信,一切以是否从抓包得到的响应中获取到数据为准
network中抓包得到的源码才是判断依据,elements中的源码是渲染之后的源码

8.浏览器请求的过程
        发送所有请求,进行渲染
爬虫
        只发送指定请求,不会渲染


骨骼文件:html静态文件
肌肉文件:js/ajax请求
皮肤:css/font/图片

源代码        控制台        所有源代码        响应

Network:点刷新,可以看到响应

http://www.lryc.cn/news/439305.html

相关文章:

  • 【趣学Python算法100例】兔子产子
  • HTTP 四、HttpClient的使用
  • C语言:结构体变量
  • bibtex是什么
  • 【大模型专栏—进阶篇】智能对话全总结
  • MVC应用单元测试以及请求参数的验证
  • 算法:TopK问题
  • .json文件的C#解析,基于Newtonsoft.Json插件
  • 四、(JS)JS中常见的加载事件
  • [网络]https的概念及加密过程
  • React 嵌套类名样式不生效
  • 20Kg载重30分钟续航多旋翼无人机技术详解
  • 详解c++:认识类
  • HTML5中的重要元素详解
  • 八股文知识汇总(常考)
  • unity 图片置灰shader
  • 【C语言】(指针系列2)指针运算+指针与数组的关系+二级指针+指针数组+《剑指offer面试题》
  • 探索信号处理:使用傅里叶小波变换分析和恢复信号
  • 俄罗斯方块——C语言实践(Dev-Cpp)
  • 关于wp网站出现的问题
  • 为什么H.266未能普及?EasyCVR视频编码技术如何填补市场空白
  • 最全 高质量 大模型 -评估基准数据集(不定期更新)
  • react 中, navigate 跳转链接 2种写法
  • k8s Service 服务
  • 安全建设当中的冷门知识
  • python画图|极坐标下的3D surface
  • html+css+js网页设计 旅游 大理旅游7个页面
  • Day 29~42 JavaWeb
  • 小程序开发设计-第一个小程序:创建小程序项目④
  • C++设计模式——Mediator中介者模式