当前位置: 首页 > news >正文

【Python机器学习】k-近邻算法简单实践——识别手写数字

为了简化理解,需要识别的数字已经使用图形处理软件,处理成具有相同的色彩和大小32*32的黑白图像,并转换成文本格式

准备数据:将图像转换为测试向量

实际图像存储在trainingDigits的2000个例子和testDigits中的900个测试数据

我们使用trainingDigits目录中的数据训练分类器,使用testDigits目录中的数据测试分类器的效果。

为了使用分类器,我们必须将图像格式化处理为一个向量。我们将32*32的二进制图像矩阵转换为1*1024的向量。首先,要创建一个函数,将图像转换为向量:该函数创建一个1*1024的NumPy数组,然后打开给定的文件,循环读出文件的前32行,并将每行的头32个字符值存储在NumPy数组中,最后返回数组:

def img2vector(filename):returnVect=zeros((1,1024))fr=open(filename)for i in range(32):lineStr=fr.readlines()for j in range(32):returnVect[0,32*i+j]=int(lineStr[j])return returnVect

测试算法:使用k-近邻算法识别手写数字

将数据输入到分类器,检测分类器的执行效果:

def handwritingClassTest():hwLabels=[]trainingFileList=listdir('trainingDigits')m=len(trainingFileList)trainingMat=zeros((m,1024))for i in range(m):fileNameStr=trainingFileList[i]fileStr=fileNameStr.split('.')[0]classNumStr=int(fileStr.split('_')[0])hwLabels.append(classNumStr)trainingMat[i,:]=img2vector('trainingDigits/%s'%fileNameStr)testFileList=listdir('testDigits')errorCount=0.0mTest=len(testFileList)for i in range(mTest):fileNameStr=testFileList[i]fileStr=fileNameStr.split('.')[0]classNumStr=int(fileStr.split('_')[0])vectorUnderTest=img2vector('testDigits/%s'%fileNameStr)classifierResult=classify0(vectorUnderTest,trainingMat,hwLabels,3)print('识别为:%d,实际为:%d'%(classifierResult,classNumStr))if(classifierResult!=classNumStr):errorCount=errorCount+1print('错误数:',errorCount)print('错误率:',errorCount/float(mTest))

在上述代码中,将trainingDigits目录中的文件存储在列表中,然后可以得到目录中有多少文件,并将其存储在变量m中。接着,代码创建一个m行1024列的训练矩阵,该矩阵的每行数据存储一个图像。

我们可以从文件名中解析出分类数字。该目录下的文件按照规则命名,然后我们可以将类代码存储在hwLabels向量中,使用前面的img2vector函数载入图像。

下一步中,我们对testDigits目录中的文件执行类似的操作,使用classify0()函数测试目录下的每个文件。

可以看到,错误率只有1%左右。通过改变变量k的值,修改函数的训练、测试样本的数目,都会对错误率产生影响。

实际使用这个算法时,算法的执行效率并不高,因为算法需要为每个测试向量做2000次距离计算,每个距离计算包括了1024个维度浮点运算,总共要执行900次。

http://www.lryc.cn/news/410342.html

相关文章:

  • Linux源码阅读笔记14-IO体系结构与访问设备
  • 只出现一次的数字-位运算
  • pyqt designer使用spliter
  • 【ROS 最简单教程 002/300】ROS 集成开发环境安装 (虚拟机版): Noetic
  • 防洪评价报告编制方法与水流数学模型建模技术
  • 【Python学习手册(第四版)】学习笔记10-语句编写的通用规则
  • Flink笔记整理(五)
  • 数据分析概要【数据分析---偏企业】
  • PDF编辑器大分享,这三款加速PDF编辑!
  • Python --Pandas库基础方法(2)
  • 《Programming from the Ground Up》阅读笔记:p75-p87
  • Python面试整理-常用标准库
  • halcon_C#联合halcon打开摄像头
  • 无标题栏窗口通过消息模拟拖动窗口时,无法拖动的一个原因
  • 每天一个数据分析题(四百五十四)- 调研问卷
  • 红酒与家居:打造优雅生活空间
  • 未来生成式 AI 的发展方向,是 Chat 还是 Agent?
  • powershell@日期和时间命令和对象
  • 【Golang 面试 - 基础题】每日 5 题(八)
  • LeetCode 算法:在排序数组中查找元素的第一个和最后一个位置 c++
  • 会话存储、本地存储,路由导航守卫、web会话跟踪、JWT生成token、axios请求拦截、响应拦截
  • strcmp库函数原型
  • 在 Vue.js 项目中延迟加载子组件
  • 何时会用到设计模式、七大设计原则介绍
  • 编程语言发展历史:赋值与相等运算符的变迁历程
  • 求职Leetcode题目(2)
  • 深入探索 Postman:使用 API 性能测试优化你的 Web 服务
  • 校车购票小程序的设计
  • 拯救数据危机!2024年最受欢迎的数据恢复软件评测
  • 记一次因为在html两个地方引入vue.js导致组件注入失败的问题