当前位置: 首页 > news >正文

爬虫笔记_

爬虫简介

在这里插入图片描述
在这里插入图片描述

爬虫初始深入

爬虫在使用场景中的分类

  • 通用爬虫:
    • 抓取系统重要组成部分。抓取的是一整张页面数据
  • 聚焦爬虫:
    • 是建立在通用爬虫的基础上。抓取的是页面中特定的局部内容。
  • 增量式爬虫
    • 监测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

  • 反爬机制
    • 可以通过制定相应的策略或技术手段防止爬虫进行爬取。
  • 反反爬策略
    • 可以通过制定相关策略或技术手段破解反爬机制从而可以获取门户网站中相关的数据。

反爬机制:robots.txt协议

君子协议,规定了网站中哪些数据可以被爬虫爬取,哪些不可以。

HTTP&HTTPS

超文本传输协议:服务器和客户端进行数据交互的一种形式

常用请求头信息

  • User-Agent:请求载体的身份标识
  • Connection:请求完毕后,是断开连接还是保持连接

常用响应头信息

  • Content-Type: 服务器响应回客户端的数据类型。

https协议

  • 安全的超文本传输协议

加密方式

  • 对称密钥加密:将密文和密钥一起发送
  • 非对称密钥加密:公开密钥加密,私有密钥解密。(客户端拿到的公钥可能被篡改)
  • 证书密钥加密(https):加入证】书认证机构在这里插入图片描述

requests模块基础

在这里插入图片描述
在这里插入图片描述

以json文件保存到本地

file = open('./huanzhuanpin.json','w',encoding='utf-8')
json.dump(all_data,fp=file,ensure_ascii=False)
http://www.lryc.cn/news/174640.html

相关文章:

  • Spring设计模式,事务管理和代理模式的应用
  • 基于海康Ehome/ISUP接入到LiveNVR实现海康摄像头、录像机视频统一汇聚,做到物联网无插件直播回放和控制
  • Linux下git安装及使用
  • python读取图片
  • 虚幻4学习笔记(15)读档 和存档 的实现
  • Spring面试题22:Spring支持哪些ORM框架?优缺点分别是什么?Spring可以通过哪些方式访问Hibernate?
  • 流行的Python库numpy及Pandas简要介绍
  • 【二、安装centOS】
  • 【动手学深度学习-Pytorch版】序列到序列的学习(包含NLP常用的Mask技巧)
  • AUTOSAR 面试知识回顾
  • 华为NFC设置教程(门禁卡/公交卡/校园卡等)
  • 基于微信小程序的音乐播放器设计与实现(源码+lw+部署文档+讲解等)
  • 如何取消显示Notepad++每行显示的CRLF符号
  • 数据结构与算法之时间复杂度和空间复杂度(C语言版)
  • TLS/SSL(十) session缓存、ticket 票据、TLS 1.3的0-RTT
  • C++设计模式_06_Decorator 装饰模式
  • MySQL 8.0数据库主从搭建和问题处理
  • 公众号迁移多久可以完成?
  • Spring Cloud Stream Kafka(3.2.2版本)使用
  • 8位微控制器上的轻量级SM2加密算法实现:C语言详细指南与完整代码解析
  • neo4j下载安装配置步骤
  • 【机组】计算机系统组成课程笔记 第二章 计算机中的信息表示
  • 指针笔试题详解
  • MySQL 日志管理、备份与恢复
  • vtk- 数据类型(一) 三角链实例代码
  • Git大全
  • Touch命令使用指南:创建、更新和修改文件时间戳
  • Windows开启 10 Telnet
  • 高教杯数学建模A题程序设计要点与思路
  • Spring Boot的新篇章:探索2.0版的创新功能