1
关注中国自动化产业发展的先行者!
2024中国自动化产业年会
2024
2023年工业安全大会
OICT公益讲堂
当前位置:首页 >> 资讯 >> 行业资讯

资讯频道

计算机视觉简述
  • 作者:潘春洪;张彩霞
  • 点击数:2466     发布时间:2006-02-22 09:11:27
  • 分享到:
简要地回顾了计算机视觉的发展史,并对它的两个重要研究内容-重建和识别作了重点介绍,最后列举了一些应用实例。
关键词:



    人们常说:眼睛是心灵的窗户,通过眼睛人们可以轻易地交流情感,眼睛也是与外界交流的窗口,这些都是通过“看”来完成的。

    人们可以很容易“看到”一幅画,但这一“简单”过程并不如此简单,大致上它可以分为以下几个阶段:首先是通过眼睛将图成像在视网膜上;其次大脑对图像进行理解;最后根据处理的结果做出反应。用比较专业一点的语言来描述,该过程包括了识别、描述与理解三个层次;这其中还隐含了边缘检测(各物体的轮廓等)、图像的分割(各物体区域的划分)等阶段。以上实际上概述了视觉系统的三个层次,即低层阶段:基于图像特征提取及分割阶段;中层阶段:基于物体的几何模型与图像特性表达阶段;高层阶段:基于景物知识的描述、识别与理解阶段,这是根据先验知识介入的程度划分的,且实现起来也越来越困难。

    毫无疑问,如何人工实现这一过程是极具挑战性和应用前景的一项工作,计算机视觉也因此而应运而生。计算机视觉是研究用计算机和成像设备来模拟人和生物视觉系统功能的技术学科,其目标是从图像或图像序列中获取对外部世界的认知和理解,即利用二维图像恢复三维环境中物体的几何信息,比如形状、位置、姿态、运动等,并能描述、识别与理解。

    计算机视觉的基础是各种成像设备,例如CCD(Charge Coupled Device )摄像机(数码相机属于此类型)、红外摄像机、医学上常用的核磁共振成像、X射线成像等,这些设备不仅可以成像,还可以获取比人眼更丰富的图像,人们可以形象地把摄像机看成计算机视觉的视网膜部分。可以说从人类拍摄出第一幅图像开始,就为计算机视觉的诞生奠定了基础。

    而计算机视觉的核心是数字电子计算机,其发展可谓突飞猛进,在计算和存储能力上,人脑已经无法与之相比,人们的目标就是利用计算机非凡的计算处理能力来代替人脑实现对图像的理解,而计算机日新月异的发展也使得这一愿望越来越成为可能。

    用于指导“计算机”这个大脑运作的核心是计算机视觉的理论方法,计算机视觉使用的理论方法主要基于几何、概率和运动学计算与三维重构的视觉计算理论,它的基础包括射影几何学、刚体运动力学、概率论与随机过程、图像处理、人工智能等理论。 在20世纪70年代,视觉研究大多采用模式识别的方法;80年代,开始采用空间几何的方法以及物理知识进行视觉研究;90年代以后,随着智能机器人视觉研究的发展,引入了许多新的理论与技术如主动视觉理论、不变量理论、融合技术等,并应用于许多计算机视觉系统中。

    研究计算机视觉,不得不提的是英国已故科学家戴维?马尔(David Marr),他在计算机视觉发展史上可谓写下了浓重的一笔。在20世纪70年代末,他提出了第一个较为完善的视觉系统框架,即计算视觉理论框架。他认为视觉是一个复杂的信息处理过程,并有不同的信息表达方式和不同层次的处理过程,而最终的目的是实现计算机对外部世界的描述。由此,他提出了三个层次的研究方法,即计算理论层、表征与算法层以及实现层。并且设想出了自下而上,没有反馈的视觉处理框架,他认为视觉的主要任务是获得物体的三维形状,并把获取过程分为三个阶段,即原始基元图(primal sketch)→2.5维图( 2.5dimensional sketch)→3维模型表示。其中,基元图由二维图像中的边缘点、直线、曲线、顶点等基本几何元素或特征组成;2.5维图是指对基元图进行一系列处理运算,推导出可见表面的朝向、轮廓等几何信息,是在观察者坐标系下描述的部分的、不完整的三维物体形状(另一部分是物体的背面或被遮挡的部分);3维模型表示则描述物体坐标系下的各种形状及其空间组织。

    迄今为止,研究者们在Marr计算视觉理论框架下,进行了大量的研究,并取得了丰富的成果,最瞩目也最完善的成果当属基于几何方法的计算机视觉理论体系。



图1 摄像机成像的针孔模型




    日常生活中最常用的成像设备-数码相机的理想成像模型是针孔模型,很多视觉研究内容都是在这种模型下进行的。如图1所示,可以看出:景物点、针孔、景物点的像三点共线。为了方便起见,通常认为图像平面在针孔的前面,即虚拟图像的位置,除了是相互倒立的外,二者是完全等价的。利用成像设备,获取了图像,这时图像点的位置已经确定,如果针孔的位置也可以确定的话,那么根据三点共线的约束,可知景物点一定在这条射线上,但是这条射线上的每一点成像都是相同的,所以仅从一幅图像是无法确定景物点距离摄像机光心(即针孔位置)的深度的。这样,若再有一幅包含上述景物点的图像(同一景物点在不同相机下的像称为一对对应点),则存在另一条射线,两条射线相交,从而可以确定出景物点的空间位置,如图2所示,对于两幅或多幅图像上的每对对应点都进行类似的处理,则可获得物体的三维形状信息,如图3所示。这种由两幅或多幅两维图像恢复物体三维几何形状的方法,即是立体视觉方法,这一过程就是三维重建。其间包含了许多步工作,例如特征提取、匹配、摄像机标定、运动估计等,每一步都凝结了众多研究者的心血,并取得了大量优秀的研究成果,像Canny边缘检测算子,Harris角点检测,Tsai块标定,张正友的平面模板标定等。



图2 立体视觉



 



图3  两幅图像的三维重建




    在Marr计算视觉理论框架下,观测者(计算机)只是被动地分析获取的静态图像,并不对成像设备(摄像机)做任何控制,这使得许多视觉任务(如识别、导航等)难以完成。可以想一下人类的视觉,人们在看的时候,眼球通常不自觉地或半自觉地跳动或转动,这说明大脑在主动且交互式地接受外界的信息。因此,有学者提出了主动视觉、有目的的视觉、定性视觉等理论,但主动视觉的研究往往与有目的的以及定性视觉的研究结合在一起。在主动视觉系统中,摄像机的状态参数如焦距、缩放、聚散度都可以控制,加之具有可以精确控制的平台,使得许多不适定的视觉任务变为适定的。图4为一主动视觉平台,下方是一小车,最上方是两个摄像机,计算机可以控制车和摄像机的运动、调整摄像机的注视点,并通过精确控制平台的运动,可以获得摄像机的运动参数,从而使一些原本是非线性的问题变成线性问题,提高了计算速度和准确性,这对实时地获取外界信息并做出反应(如避障)是非常重要的。



图4 主动视觉系统平台




    除了重建,视觉的另一个任务是识别。其基本方法是首先建立物体模型,然后使用各种匹配算法从图像中识别出与物体模型最相似的物体。这里,就用到了先验知识,即识别前,物体模型需事先存储在计算机中,这是很显然的事情。平常人们能从图中认出事物,是因为大脑对它们的特征有了事先的认识。在物体识别中,“假设检验”是一种很重要的识别方法,又称为基于模型的识别方法,如图5所示。从图像进行重建人们已经粗略地作了介绍,用其重建出的部分模型与模型库中的物体模型作比较,方法是先“假设”,后“检验”,即假设待识物体是模型库中的某个物体,然后为了减少匹配时间,只利用部分几何元素来判断它们是否匹配,如果不匹配,则改变假设;反之,则用其他几何元素在图像中对该匹配做“检验”,以此来判断是否需要再修改假设,并重复上述过程。因此,这是一种自下而上与自上而下策略的结合。



图5  假设检验方法




    可以看出,识别过程涉及了视觉中从低到高所有层次,它是当前计算机视觉领域最困难但也是最活跃的领域。之所以困难,可以借用宋朝著名诗人苏轼的一首诗概括:“横看成岭侧成峰,远近高低各不同”,这说明同一事物,因观测的角度不同甚至会产生截然相反的图像,但是即使同一幅图像,也可能有天壤之别的感受,如图6所示,左图中看起来凹的,而右图像是凸的,但是这是同一幅图像,只不过倒置了一下,但却让人们看到了如此有趣的现象。



图6  一对倒置图




    由于计算机视觉系统发展遭遇到众多瓶颈问题,如:图像分割的不稳定性、二维图形到三维立体的病态问题、机器缺少大规模并行处理能力等,使得现有的计算机视觉系统在识别能力、实时性上与人类视觉相差甚远,更不可比拟的是,选择性注意的能力,即人类视觉分分秒秒都在接受外界的信息,但是人们并不会对所有的信息都处理,而是对很多都会“视而不见”。从总体的理论研究和应用角度来说,国内外在计算机视觉的研究水平还是处于起步阶段,目前还没有一个完整的理论体系能统一和解决所有的计算机视觉问题。



图7  工业机器人识别和定位零件系统示意图


图8  Rocky7

    虽然困难重重,然而计算机视觉技术正在蓬勃地发展着,且已经有了广泛的应用。例如:零件识别与定位,图7是一个具有简单视觉的工业机器人系统示意图,其视觉系统由一个位于零件传输带上方的摄像机和相关的视觉信息处理系统组成。为了有利于视觉系统将零件从传输带上分离出来,并进行识别和定位,可以选择与零件颜色差别较大的传输带。由于工业环境的结构、照明等因素可以严格地控制,使得这种机器人视觉系统在工业生产和装配中得到了成功的应用;再如,移动机器人导航,图8是美国NASA/JPL开发的Rocky7火星探测移动机器人,在其后部、前部及桅杆上都安装了一对黑白CCD摄像机,另外,在桅杆上还安装了一个用于近距离成像的摄像机。借助于这些视觉系统,Rocky7可以进行障碍检测、自身车辆检查、挖掘/倾倒核查等任务;其他的象安全鉴别、监视与跟踪;运动分析;工业产品、农作物生长及食品检测;智能交通系统;娱乐等。更可喜的是,在我国,指纹识别已达到实用阶段,人脸识别也已研究成功。
目前,基于内容的图像数据查询、基于内容的图像自动索引等成为很热门的研究和应用课题,可应用于数字图书馆、体育图像自动分析、运动物体自动跟踪等系统,根据物体的二维图像提取相应的特征不变量进行识别和分类也是一个十分重要的研究方向。同时,三维物体识别也开始进入了实用阶段。可以看到,视觉技术在如此多的领域都已经成功地得到了应用,而且越来越贴近生活,虽然这些还只是计算机视觉研究与应用的冰山一角,只是迈出了万里长征的第一步,但人们有理由相信有一天计算机会拥有人一样的视觉识别和理解能力,为人们带来精彩的生活。

参考文献:

[1]  马颂德, 张正友. 计算机视觉: 计算理论与算法基础[M]. 科学出版社, 1997.

[2]  贾云得, 机器视觉[M]. 科学出版社, 2000.

[3]  D.马尔著, 姚国正, 刘磊, 汪云九译. 视觉计算理论[M]. 科学出版社, 1988.

[4]  朱淼良, 计算机视觉[M]. 浙江大学出版社, 1997.

[5]  D. A. Forsyth, J.Ponce著, 林学

热点新闻

推荐产品

x
  • 在线反馈
1.我有以下需求:



2.详细的需求:
姓名:
单位:
电话:
邮件: