当前位置: 首页 > news >正文

How to collect data

How to collect data

  • 爬虫
    • Java
    • Python
      • urllib
      • requests
      • BeautifulSoup
    • 反爬虫
      • 信息校验型反爬虫
      • 动态渲染反爬虫
      • 文本混淆反爬虫
      • 特征识别反爬虫
      • App反爬虫
      • 验证码
  • 自动化测试工具
    • Selenium
    • Appium
    • QMetry Automation Studio
    • TestComplete
  • RPA
    • 商业化产品
      • 艺赛旗
      • 影刀
      • UIPath
    • 开源产品
      • Robot Framework RPA

爬虫

Java

Python

urllib

requests

BeautifulSoup

反爬虫

信息校验型反爬虫

  • User-Agent反爬虫

  • Cookie反爬虫

  • 签名验证反爬虫

  • WebSocket握手验证反爬虫

  • WebSocket消息校验反爬虫

  • WebSocket Ping反爬虫

动态渲染反爬虫

文本混淆反爬虫

  • 图片伪装反爬虫
  • CSS偏移反爬虫
  • SVG映射反爬虫
  • 字体反爬虫
  • 文本混淆爬虫通用解决办法

特征识别反爬虫

  • WebDriver识别
  • 浏览器特征
  • 爬虫特征
  • 隐藏链接反爬虫

App反爬虫

  • App手抓包
  • APK文件反编译
  • 代码混淆反爬虫

验证码

  • 字符验证码
  • 计算型验证码
  • 滑动拼图验证码
  • 文字点选验证码

自动化测试工具

Selenium

Appium

QMetry Automation Studio

TestComplete

RPA

商业化产品

艺赛旗

影刀

UIPath

开源产品

Robot Framework RPA

参考文献

  • 火车头采集网站内页URL(图文)教程
  • 技术研究 | 零编程数据爬取之:火车头数据爬取(一)
  • 火车头/高铁采集器怎么使用,新手保姆级教程
  • 学习seo网站运营的第31天-火车头采集的学习
  • 2023年全球十大最佳自动化测试工具
  • 推荐几款常用Web自动化测试神器
  • 八千字直接带你学完《基于Python的Selenium4从入门到高级》全教程
  • Selenium+dddocr轻松解决Web自动化验证码识别
  • 巧用 selenium 解决验证码,模拟登陆某流行网站
  • 【道高一尺魔高一丈】7种反爬虫策略及规避手段
  • 10个好用到爆的"反爬虫"措施
  • 五个优秀开源RPA框架
  • Python 3反爬虫原理与绕过实践 / 韦世东著 / 人民邮电出版社 2020-01 / ISBN: 978711528735
http://www.lryc.cn/news/277345.html

相关文章:

  • 二刷Laravel 教程(用户注册)总结Ⅳ
  • 跨国制造业组网方案解析,如何实现总部-分支稳定互联?
  • 网络的设置
  • CentOS常用命令
  • Linux运维之切换到 root 用户
  • 【2024系统架构设计】 系统架构设计师第二版-层次式架构设计理论与实践
  • SpringSecurity的注解@PreAuthorize的失效问题
  • k8s的集群调度
  • 简单易懂的理解 PyTorch 中 Transformer 组件
  • 搭建Eureka服务注册中心
  • 【React】react-router-dom中的HashRouter和BrowserRouter实现原理
  • 生物信息学中的可重复性研究
  • css-img图像同比缩小
  • SpringBoot+Prometheus+Grafana搭建应用监控系统
  • QT c++和qml交互实例
  • mysql基础-数据操作之增删改
  • 写字母(文件)
  • 基于Jackson自定义json数据的对象转换器
  • 【Java】缓存击穿解决方案
  • 【HarmonyOS】掌握 Stage 模型的核心概念与应用
  • 2024年甘肃省职业院校技能大赛 “信息安全管理与评估”赛项样题卷①
  • 我的AI之旅开始了
  • Day25 235二叉搜索树的公共祖先 701二叉搜索树插入 450二叉搜索树删除
  • android系列-init 挂载文件系统
  • Spring 七种事务传播性介绍
  • Count the Colors ZOJ - 1610
  • MATLAB点云处理总目录
  • C语言逗号表达式如何计算
  • Ubuntu 本地部署 ChatGPT-Next-Web
  • 小程序商城搭建:快速入门指南