当前位置: 首页 > news >正文

新版百度、百家号旋转验证码识别

昨天突然发现,百度旋转验证码发生了变化,导致使用老版本验证码训练出来的识别模型效果不佳。所有昨天花了一天时间完成了新版模型的训练。

老版本验证码

新版本验证码

 

新版的验证码感觉像是AI绘画随机生成的,还有随机阴影出现。 

验证码识别过程

1、利用爬虫采集图像

首先我们开发爬虫去采集新版本的图片素材。爬取过程中发现cookie有一定的时效性,没有花过多时间在图片的反爬上做研究。

2、人工标记

为了保障识别的精度,这里需要进行大量的人工标记,旋转角度可能有误差,最好控制在1-2度以内,数据质量决定了模型预测效果

  3、训练模型

4、测试验证

我们将训练好的模型用100张图片来进行测试,虽然识别出来角度有所偏差,但是这个误差范围都能够使验证通过,所以正确率接近100%。因为100张测试图片比较少,所以保守估计正确率应该在99%左右。

如果再想提升正确率,可以再增加训练的数据量,就需要再投入大量人力,这个投入与提升产出比需要自己权衡。

5、免费使用地址

我将训练好的模型放在了网上,可以供大家免费学习使用:得塔云

6、总结分析
(1)目前见到的验证码图片可能是AI生成的,所以出现新图片的概率会很大,所以对标注、识别难度会大大增加。

(2)和老版本相比,新版本图像采集加入了一些反爬措施,也增加了一些难度。

(3)目前我没有使用 selenium 进行实战测试,可能会遇到更多反爬措施。

各位大神也请指出我的不足,或者有其他建议都可以给我留言,或私信我,谢谢指点。
 

 

http://www.lryc.cn/news/115664.html

相关文章:

  • PMP考试每日一练(8月8日)
  • 机器学习实战1-kNN最近邻算法
  • 【eNSP】静态路由
  • 算法训练Day42|1049. 最后一块石头的重量 II ● 494. 目标和 ● 474.一和零
  • HBase-组成
  • 第一部分:领域中的基本概念
  • react使用ref调用子组件的方法
  • JVM面试突击班2
  • 【80天学习完《深入理解计算机系统》】第二天 2.2 整数的表示【有符号数,无符号数,符号数的扩展,有无符号数的转变】
  • 基于 CentOS 7 构建 LVS-DR 群集以及配置nginx负载均衡
  • golang trace view 视图详解
  • zju代码题:4-6
  • 数据链路层概述
  • Python代码使用技巧汇总:提升你的编程技能
  • Ae 效果:CC Spotlight
  • 如何在页面中嵌入音频和视频?
  • Unity 中检测射线穿过的所有的物体
  • LeetCode 29题:两数相除
  • Axure RP9中使用Echarts示例
  • 利用Jmeter做接口测试全流程分析
  • 超级浏览器与指纹浏览器:功能与特点的比较
  • 云端同步、高效无界:5款免费的跨平台思维导图软件推荐!
  • OpenAI允许网站阻止其网络爬虫;谷歌推出类似Grammarly的语法检查功能
  • SpringBoot操作Jedis
  • 实现静态资源访问的几种方法
  • chrome 下 autocomplete=off (禁止记住密码)不起作用解决方案
  • 设计模式-简单工厂模式(静态工厂模式)java实现
  • 如何共享笔记本电脑网络
  • Android 高级进阶知识整理
  • 一文详解 DolphinDB SQL 标准化