当前位置: 首页 > news >正文

【Python】网络爬虫经验之谈

爬虫经验之谈

    • 对爬虫的认识
    • 网站分析
    • 技术选型
    • JS逆向
    • 反爬机制
    • 结语

近段时间,因为工作需要做一些爬虫的开发,分享一下走过的坑和实战的经验吧!

对爬虫的认识

  • F12查看的网络请求,找到相应的接口查看一下json数据来源和构造。我爬取的网站很多信息是需要vip登录才可以获取的。我最开始试图破解vip这一步,结果是我天真了。后来查了一些资料才发现,爬虫干不了这个,得是黑客渗透才行!!看来之前的我还是对爬虫理解不透彻,,原来爬虫没有那么高端。其实就是对可见数据的抓取,完全是提高效率罢了,越界的事儿不是它的范畴

网站分析

目前爬虫获取数据基本分为两种情况,可选择一种使用,也可结合使用
1、找到url规律,get请求html,然后提取想要的数据
2、找到请求json数据的接口,模拟接口传参获取json数据
第一种情况

1、适用于html较为规律的情况下,几乎一眼就能看出。通常这种网站的开发都是非常简单的
2、有部分网页是js渲染过的,所以直接拿下来之后的html是不全的。需要用到splash这样的渲染库,它会把js渲染后的html给到你

第二种情况

1、最实用的手段,也是工程师们最喜欢的方式

技术选型

爬虫相关的最受欢迎的技术栈和相关描述,可以根据业务需要自行选取:

  • selenium:自动化模拟浏览器。这种方式效率比较低,但是比较简单,若遇到需要登陆时的滑块破解,有一定的破解难度
  • requests库:模拟登录维持会话与对方服务器进行交互。也是上述网站分析第二种情况的常用方式,也是非常非常受欢迎的方式。我个人最喜欢的,也是个人觉得性价比最高的。
  • pyspider:国人开发的一款web ui的爬虫框架。适用于简单的爬虫,效率高,我个人不是很喜欢,局限性太大
  • scrapy:很强大的爬虫框架,将爬虫脚本带向工程化开发和管理。如果需要将爬虫做成工程的话,比如做数据维护这类的长期需求,建议用这个
  • 数据解析用Beautifulsoup、re正则、pyquery,lxml都是没有问题的。本人基本是结合使用,我相比更喜欢正则
  • fiddle:网络数据抓包,可以查看网络请求和其带的数据,方便做接口查询和错误排查

JS逆向

JS逆向简单讲就是在JS里面找到我们想要的东西。举个例子:接口中返回的数据是经过加密的,我们拿到过后是一串密文,但是在前端显示是正常的,那么此数据就是在后端加密,前端JS解密的。那么我们需要找到JS解密的代码,将密文解密得到我们想要的明文。
我喜欢用的方式是:找到那个加密的变量,JS全局搜索变量,很快就可以找到需要的JS解密代码

反爬机制

反扒机制通常都是因为请求频率过高而遭刀封禁,常见封禁如下所示

  • IP封禁 : 搭建ip池,轮流使用
  • user-agent封禁 :搭建user-agent池,轮流使用
  • 账户封禁:维持多个账号,轮流使用

结语

我这里给新手提供一些爬虫向导,欢迎指正。最后强调一遍爬虫是:对可见数据的抓取,完全是提高效率罢了,越界的事儿不是它的范畴
简单分为关键三步:
1、查找接口,模拟参数
2、请求访问,抓取数据
3、提高数据抓取效率,实现快速抓取

http://www.lryc.cn/news/6518.html

相关文章:

  • 数学建模美赛【LaTeX】公式、表格、图片
  • 【大数据】YARN节点标签Node Label特性
  • C# SolidWorks二次开发 API-命令标签页的切换与按钮错乱问题
  • ElasticSearch 7.6.1
  • Linux系列 操作系统安装及服务控制(笔记)
  • Linux基础 - NTP时间同步
  • golang 入门教程:迷你 Twitter 后端
  • CPP2022-30-期末模拟测试03
  • 华为OD机试真题Python实现【最多等和不相交连续子序列】真题+解题思路+代码(20222023)
  • 二叉搜索树
  • 数据结构(三):集合、字典、哈希表
  • Linux内核驱动开发(一)
  • TCP/IP协议二十问
  • 常用Array数组操作方法
  • 【C++】set/multiset、map/multimap的使用
  • vue3语法
  • 对象之间的关系
  • 云原生时代顶流消息中间件Apache Pulsar部署实操-上
  • Python实现基于openCV+百度智能云平台实现《1:N人脸考勤机》文章最后附带源码!
  • 因为锁的问题,我们被扣了1万
  • 【STM32笔记】低功耗模式下的RTC唤醒(非闹钟唤醒,而是采用RTC_WAKEUPTIMER)
  • 浏览器渲染中的相关概念
  • 【MySQL】数据类型
  • L2-037 包装机
  • MySQL -查询日志、二进制日志、错误日志、慢查询日志
  • TCP实现可靠传输的实现
  • 2/14考试总结
  • 程序环境和预处理详解
  • The Social-Engineer Toolkit(社会工程学工具包)互联网第一篇全模块讲解
  • Windows11去掉不满足系统要求的提示水印