Python3 网络爬虫开发实战
JavaScript逆向爬虫
JavaScript接口加密技术,JavaScript有以下两个特点:
- JS代码运行在客户端,所以它必须在用户浏览器加载并运行
- JS代码公开透明,所以浏览器可以直接获取到正在运行的JS源码。
所以JS代码不安全,任何人都可以读、分析、复制、盗用甚至篡改。
所以JS接口加密是很容易被找到或模拟的,那么为了防止这种情况,可以对JS代码压缩、混淆、加密。
浏览器调试
通过对浏览器的调试,比如Ajax请求,可以对Ajax请求添加断点,当浏览器运行到断点时,通过调用堆栈寻找上层方法,在上层方法中即可以找出JS接口的加密逻辑。
同时通过开发者工具当中的Override来改写JS文件。
改写JS文件有以下作用等:
- 发现 JavaScript 文件中包含很多阻挠调试的代码或者无效代码、干扰代码,想要将其删除。
- 调试到某处,想要加一行 console.log 输出一些内容,以便观察某个变量或方法在页面加载过程中的调用情况。在某些情况下,这种方法比打断点调试更方便。
- 调试过程遇到某个局部变量或方法,想要把它赋值给 window 对象以便全局可以访问或调用。
- 在调试的时候,得到的某个变量中可能包含一些关键的结果,想要加一些逻辑将这些结果转发到对应的目标服务器。
HooK技术
HooK技术就是将某个方法在他执行前,提前获取到,所以也叫钩子函数。获取到后,我们可以很快速定位到加密入口的位置,非常方便。
在 JavaScript 逆向的时候,我们经常需要追踪某些方法的堆栈调用情况。但在很多情况下,一些 JavaScript 的变量或者方法名经过混淆之后是非常难以捕捉的,这个时候就可以利用到HooK技术。
结合Tampermonkey插件可以很方便的执行JS代码。