图像识别入门 - SUSTC-XLAB/crops GitHub Wiki
图像识别兴起
从二十世纪九十年代起,随着智能无线设备的迅速普及以及通过互联网共享图像和视频的兴起,以图像和视频为主的多媒体内容以一个很快地速度在增长。而图像和视频反映了人类知识、互动和对话的很大一部分,蕴藏着价值巨大的信息。同时,图像和视频需要更大的存储和带宽容量以及更高的安全/隐私标准。对于许多应用程序,自动理解图像/视频将为增强客户体验提供新的商业机会。统计数据显示,图像识别市场预计从2016年的159.5亿美元扩大到2021年的389.2亿美元,每年的复合年增长率达到19.5%。巨大的商业需求让图像识别算法在世界范围内方兴未艾。
图像识别介绍
顾名思义,图像识别是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。图像识别的目标是识别图像中的对象并理解上下文,图像识别属于机器知觉,机器知觉是机器学习(ML)和人工智能(AI)的一部分。图像识别过程可以分成下面几个阶段:图像获取、预处理、特征选择以及训练过程。
图像成像方式
理解图像是如何产生的是解决图像类问题的第一步。最常见的成像方式是单反相机——手机相机等相机的成像方式。下图直观的展示了这种成像的原理。现实生活中遇到的成像方式绝大多是属于这类成像。除此之外,还有如下图中的X-ray,红外,显微,遥感,结构光等多种成像方式。在处理和分析这些图像的时候,理解图像的成像方式和其中的内容表达方式对最后的处理效果会起到关键的基础性作用。
图像处理
图像处理问题可以大致的分为低、中、高三个层次。低层处理主要是图像的增强、降低噪声、边缘等特征的提取、基本的压缩等。中层的图像处理方法一般解决的是图像的分类,物体的检测、定位、分割以及图像的语义分割等。高层的处理是比较复杂的综合应该用。比如图像的自动注释,人脸和人脸姿态的识别,自动驾驶等等。 高级的图像处理问题本质也是将复杂的高层问题分解为中级和低级的子问题来解决。比如常见的通过人脸比对进行身份验证,一般都包括了人脸检测定位,人脸关键点定位,特征计算和比对的过程。传统的图像分析算法中,各种滤波器的设计占有很大的一部分比例。理解滤波器的原理和使用的场景是做图像分析工作中很大的一块,比较成功的计算特征的方法有,边缘特征,Scale-invariant feature transform(SIFT),Histogram of Gradient (HOG)等。
图像识别研究方法
图像识别历史悠久。在计算机视觉,物体识别,机器视觉,场景理解,图像理解,图像分类和图像分析等不同名称下,存在相关和/或同义字段的图像识别。计算机(或机器)的视觉总体上涵盖了识别作为一个子部分,同时它也涉及图像重组和重构。在更高层次上,有两种不同的技术方法能够解决图像识别任务。 第一种方法(我们称之为传统图像识别)的重点在于从图像中查找和提取人工设计的特征(如边缘,角落,颜色)以帮助分类对象。自80年代和90年代以来,传统的图像识别方法通常通过从图像中提取一系列特征来实现,实际上通过多年的实验和分析手动编码。然后使用学习算法来基于这些人工设计特征来识别图像中的对象。 在第二种方法中,目标仍然是提取帮助识别图像中的对象的特征。然而,它不是利用人工设计的特征,而是利用自动化程序从原始图像像素数据中“学习”这些显着的特征。学习使用大量的图像进行。人工神经网络模型,特别是深度神经网络,近年来已经彻底改变了这种方法。顾名思义,深层神经网络是可能具有更多神经元层的神经网络,其中每层神经元连接到下一层(不一定完全连接),并且能够学习输入图像的更高层表示(特征)。这个想法已经存在了很长一段时间,然而,在过去的十年中,实现了巨大的图像数据集和巨大的处理能力。它使这种方法变得可行,因为它已经引起了计算机视觉方面的革命。当使用深度神经网络时,学习被称为深度学习。
Reference
https://www.jianshu.com/p/cc70dbbc2a4e