当前位置: 首页 > news >正文

计算机视觉的四项基本任务辨析

计算机视觉是使计算机能理解采集设备采集的图像视频的一门学科,目的是让计算机实现人的视觉功能——对客观世界的三维场景的感知、识别和理解。换句话说,要让计算机具备通过二维图像认识三维环境的能力。

目录

三个阶段

视觉层级

基本任务 

技术难点


三个阶段

计算机视觉研究图像包括图像处理、图像分析、图像理解三个阶段。

视觉层级

计算机视觉可以划分为初级视觉、中级视觉、高级视觉三个层级:

初级视觉图像修复、超分辨率重建
中级视觉图像分割、物体检测
高级视觉图像描述、动作识别

基本任务 

计算机视觉包括四项基本任务:分类、定位、检测和分割

  • 分类:解决“图像是什么”的问题,即给定一张图或一段视频,判断图片或视频所属的类别
  • 定位:解决“目标在哪里”的问题,即判断图像中的目标具体在图像的什么位置,位置通常以包围盒的形式表示,通常面向单一或给定数目的目标。
  • 检测:解决“哪里有哪些哪种类别的目标”的问题,即发现图片中的目标并判断目标种类,检测任务面向的图像中出现的目标种类和数目都不定。
  • 分割:解决“每个像素属于哪个目标/场景”的问题,分为。检测只需要框出每个目标的包围盒,分割则需要进一步判断图像中哪些像素属于哪个目标。分割包括语义分割、实例分割和全景分割,语义分割不区分属于相同类别的不同实例,实例分割则需要区分出哪些像素属于相同类别的不同实例。全景分割可以认为是实例分割和语义分割的结合。

技术难点

难点示例
平面内旋状物品正放、倒放、侧放的检测
超平面旋转肢体等三维动作的检测
背景干扰复杂场景下的目标检测
光照变化图片过曝或图片过暗

http://www.lryc.cn/news/611463.html

相关文章:

  • 力扣148:排序链表
  • # Kafka 消费堆积:从现象到解决的全链路分析
  • VUE+SPRINGBOOT从0-1打造前后端-前后台系统-邮箱重置密码
  • python-自定义抠图
  • Python日志记录库——logaid
  • mq_unlink系统调用及示例
  • RC和RR的区别
  • 一文搞定JavaServerPages基础,从0开始写一个登录与人数统计页面
  • Python 函数详解
  • SpringCloud学习------Hystrix详解
  • 通俗版23种设计模式解析
  • 苍穹外卖Day10
  • 智慧酒店:科技赋能下的未来住宿新体验
  • Datawhale AI夏令营 第三期 task2 稍微改进
  • 山东省天地图API申请并加载到QGIS和ArcGIS Pro中
  • 数据结构 实现单链表
  • LeetCode347.前K个高频元素(hash表+桶排序)
  • Chisel芯片开发入门系列 -- 18. CPU芯片开发和解释8(流水线架构的代码级理解)
  • 思途Mybatis学习 0805
  • LeetCode 刷题【31. 下一个排列】
  • 《Python基础》第3期:使用PyCharm编写Hello World
  • C++ 变量初始化方式总结 | 拷贝初始化 | 列表初始化 | 值初始化
  • 【C语言】动态内存管理详解
  • Kafka 的基本操作(1)
  • 国内办公安全平台新标杆:iOA一体化办公安全解决方案
  • 【基础】第八篇 Java 位运算符详解:从基础到实战应用
  • 【java】大数据insert的几种技术方案和优缺点
  • 一种基于机器学习的关键安全软件WCET分析方法概述与实际工作原理举例
  • 多传感器融合
  • 机器人权利:真实还是虚幻,机器人权利研究如何可能,道德权利与法律权利