章毓晋
男,教授,博士生导师。主要科学研究领域为其积极倡导的图像工程(图像处理、图像分析、图像理解及其技术应用)和相关学科。已在国内外发表了300余篇图像工程研究论文,出版了专著《图象分割》和《基于内容的视觉信息检索》,编著了《英汉图像工程辞典》,主编出版了 "Advances in Image and Video Segmentation" 和 "Semantic-Based Visual Information Retrieval"。
摘要:本文对与机器视觉和图像技术相关的一些名词给出了简洁概括的定义,对机器视觉中主要涉及的图像技术的原理进行了介绍,并给出了一些图像技术应用的实例和结果。
关键词:机器视觉;图像工程;图像出来;图像分析;图像理解;图像技术
Abstract: This paper provides the brief and general definitions of some terms related to
machine vision and image techniques. It also gives some specified introductions for the
principles of image techniques used in machine vision and shows some real examples and
results for the applications of these image techniques.
Key words: Machine Vision; Image Engineering; Image Processing; Image Analysis; Image
Understanding; Image Techniques
机器视觉与图像技术各有特点并有密切的联系。本文拟对此给予概括的介绍和讨论。
1 名词和定义
先给出一些与机器视觉和图像技术相关名词的定义[1]。
视觉 物体的影像刺激视网膜所产生的感觉和在大脑皮层所得到的知觉。人类了解世界的一种重要功能。视觉包括“视”和“觉”两个步骤,所以视觉可进一步分为视感觉和视知觉。
视感觉 视觉的低层次。它主要接收外部刺激,从外界获得信息。视感觉主要是从分子微观层次来理解人们对光(可见辐射)反应的基本性质(如亮度、颜色)。对视感觉的主要研究内容有:⑴光的物理特性。如光量子、光波、光谱;⑵光刺激视觉感受器官的程度。如光度学、眼睛构造、视觉适应、视觉的强度和灵敏度、视觉的时间特性以及视觉的空间特性;⑶光作用于视网膜后经视觉系统加工而产生的感觉。如明亮程度、色调。
视知觉 视觉的高层次。它将外部刺激转化为有意义的内容。视知觉主要论述人们从客观世界接受视觉刺激后如何反应及反应所采用的方式,研究如何通过视觉形成人们关于外在世界空间的表象,所以兼有心理因素。视知觉是在神经中枢进行的一组活动,它把视野中一些分散的刺激加以组织,构成具有一定形状的整体以表达和认识世界。视知觉又可分成亮度知觉、颜色知觉、形状知觉、空间知觉、运动知觉等。
机器视觉 使用电子设备和光学感知技术,自动获取和解释场景的图像,以控制机器的过程。在很多情况下也看作计算机视觉的同义词。但计算机视觉更侧重对场景分析和对图像解释的理论和算法,而机器视觉或机器人视觉则更关注图像的获取、系统的构造和算法的实现。
计算机视觉 利用计算机来实现人类视觉系统功能的一门学科。其中实际上用到图像工程三个层次的许多技术,但目前的研究内容主要与图像理解相对应。
机器人视觉 针对机器人的机器视觉。机器人视觉的研究目标是构建使机器人具有视觉感知功能的系统,该系统通过视觉传感器获取环境的图像,并通过视觉处理器进行分析和解释,从而让机器人能够检测和辨识物体,完成特定的工作。
图像 一种直接或间接作用于人眼并进而产生视知觉的实体,即客观存在的事物。它可以是用各种观测系统以不同形式和手段观测客观世界而获得的(一般图像是客观场景的投影)。人的视觉系统就是一个典型的观测系统,通过它得到的图像就是客观景物在人心目中形成的影像。
图像是客观景物的表达,包含了景物的描述信息。科学研究和统计表明,人类从外界获得的信息约有75%来自视觉系统,也就是从图像中获得的。这里图像的概念比较广,包括照片、绘图、动画、视像,甚至文档等。中国有句古话,“百闻不如一见”。人们常说,“一图值千字”。它们都说明图像中所含的信息内容非常丰富,而事实上图像也确实带有大量的信息,是人类最主要的信息源。
图像技术 广义上各种与图像有关技术的总称。这包括利用计算机和其他电子设备进行和完成一系列工作的技术。例如,图像的采集、获取、编码、存储和传输,图像的合成和产生,图像的显示和输出,图像的变换、增强、恢复(复原)和重建,图像水印的嵌入和提取,图像的分割,目标的检测、跟踪、表达和描述,目标特征的提取和测量,图像和目标特性的分析,序列图像的校正配准,3-D景物的重建复原,图像数据库的建立、索引和检索,图像的分类、表示和识别,图像模型的建立和匹配,图像、场景的解释和理解,以及基于它们的判断决策和行为规划等。另外,图像技术还可包括为完成上述功能而进行的硬件设计及制作等方面的技术。
图像工程 对整个图像领域进行研究及对图像技术进行应用的新学科。它是一个将数学、光学等基础科学的原理,结合图像应用中积累的经验,从而发展起来的包含各种图像技术的整体框架。图像工程的内容非常丰富,覆盖面也很广,根据抽象程度和研究方法等的不同可分为三个层次(如图1所示):⑴图像处理;⑵图像分析;⑶图像理解。换句话说,图像工程是既有联系又有区别的图像处理、图像分析及图像理解三者的有机结合,另外还包括对它们的工程应用。图1给出图像工程三个层次的关系和主要特点。
图1 图像工程3层次示意图
2 相关图像技术介绍
图像工程学科所研究和应用的图像技术非常多[2]。根据近年对图像工程文献的统计分类[3],目前主要研究的有图像处理,图像分析和图像理解三大类中的14小类图像技术,见表1。
表1 图像工程中图像技术文献分类表
大类代号、名称
|
小类代号、名称和主要内容
|
A:图像处理
|
A1:图像采集(包括各种成像方法、获取及存储、摄像机校正等)
|
|
A2:图像重建(从投影等重建图像)
|
|
A3:图像增强和恢复等(包括变换、滤波、复原、校正等)
|
|
A4:图像(视频)压缩编码(包括算法研究、国际标准实现等)
|
|
A5:图像数字水印和图像信息隐藏
|
B:图像分析
|
B1:图像分割和边缘检测
|
|
B2:目标表达、描述、测量(包括二值图处理分析等)
|
|
B3:目标特性(颜色、纹理、形状、空间、运动等)的分析
|
|
B4:目标检测和识别(目标2-D定位、提取和分类等)
|
|
B5:人体生物特征提取和验证(包括人脸和器官的检测、定位与识别)
|
C:图像理解
|
C1:图像匹配和融合等(包括序列、立体图的配准、镶嵌等)
|
|
C2:场景恢复(3-D表达、建模、重构或重建等)
|
|
C3:图像感知和解释(包括语义描述、信息模型、专家系统,机器学习、推理等)
|
|
C4:基于内容的图像和视频检索
|
在机器视觉的研究和开发应用中,有许多图像技术起到重要的作用或得到广泛的应用。它们大部处于上述14类中的9类,即图像处理中的A1,A3;图像分析中的B1,B2,B3,B4,B5;图像理解中的C1,C4。下面对其中6类(即图像处理中的A1,A3;图像分析中的B1,B2,B3;图像理解中的C1的原理给予简单介绍(另3类则在下一节结合实例给予介绍)。
2.1 图像采集
图像采集指从客观场景获取图像的技术和过程。前面定义中已提到,图像可用函数 f(x, y)来表示。由此可见图像的采集涉及到两方面的技术内容,或者说与两门学科相关:⑴几何学,从图像中的什么地方可找到场景中目标的投影位置(x, y);⑵辐射度学,图像中的目标有多“亮”,这确定了在(x, y)处的 f。
由于需要用计算机对采集到的图像进行加工,所以需要把直接采集到的模式图像转换为数字图像。这又涉及到两个工作:⑴空间坐标的离散化,即空间采样;⑵幅度的离散化,即幅度量化。常用的图像采集设备都具有两个功能:⑴接受辐射;⑵模数转换。
图2给出用常见的CCD(也可用CMOS或CID)摄像机进行灰度图采集的流程。由图2可见,光源照射到物体上反射到摄像机中;摄像机的CCD阵列中感光单元的个数和分布确定了所采集图像的空间分辨率;感光单元接受到的光被转换为电信号,将电信号的幅度量化,量化的级数确定了最好采集到的图像的幅度分辨率。
图2 灰度图采集过程
2.2 图像变换、滤波、增强、恢复/复原、校正等
图像变换既可以指在图像空间将像素从一个位置映射到另一个位置,也可以指将图像以某种形式从一个表达空间转换到另一个表达空间。前者比较常见的是坐标变换,包括平移变换,旋转变换,放缩变换,拉伸变换,和剪切变换。它们的各一个示例见图3。后者是有效和快速地对图像进行处理的一种手段。具体是将图像转换到新的空间后,利用新空间的特有性质方便地对图像进行处理,再将处理结果转换回原空间以得到所需的效果。常用的变换包括傅里叶变换,盖伯变换,小波变换等。
图3 坐标变换示意图
图像滤波原指将图像傅里叶变换到频域后进行加工的手段,后来人们将直接在图像域进行的类似加工也用滤波来描述。更广义地说,利用像素本身以及其邻域像素的灰度关系进行加工的方法都可称为滤波,所以在盖伯变换域和小波变换域的许多图像加工也称为图像滤波。图像滤波可用以对图像进行增强或恢复。图像增强技术作为一大类基本的图像处理技术,其目的是对图像进行加工,以得到对具体应用来说视觉效果更“好”、更“有用”的图像。图像恢复与图像增强有密切的联系。图像恢复与图像增强相同之处是,它们都要得到在某种意义上改进的图像,或者说都希望要改进输入图像的视觉质量。图像恢复与图像增强不同之处是,图像增强技术一般要借助人的视觉系统的特性以取得看起来较好的视觉结果,而图像恢复则认为图像(质量)是在某种情况/条件下退化或恶化了(图像品质下降了、失真了),现在需要根据相应的退化模型和知识重建或恢复原始的图像。换句话说,图像恢复技术是要将图像退化的过程模型化,并据此采取相反的过程以得到原始的图像。由此可见,图像恢复要根据一定的图像退化模型来进行。
2.3 图像分割
图像分割是由图像处理进到图像分析的关键步骤,也是一种基本的计算机视觉技术。在对图像的研究和应用中,人们往往仅对各幅图像中的某些部分感兴趣。这些部分常称为目标或前景(其他部分称为背景),它们一般对应图像中特定的、具有独特性质的区域。为了辨识和分析目标,需要将这些有关区域分离提取出来。图像分割就是指把图像分成各具特性的区域并提取出感兴趣目标的技术和过程。这里特性可以是灰度、颜色、纹理等,目标可以对应单个区域,也可以对应多个区域。
图像分割多年来一直得到人们的高度重视。至今已提出了上千种各种类型的分割算法。对这些算法可考虑两个因素来进行分类。一是考虑对图像分割所可借助的像素灰度值的性质:不连续性和相似性。由于区域内部的像素一般具有灰度相似性,而在区域之间的边界上一般具有灰度不连续性。所以分割技术可据此分为利用区域间灰度不连续性的基于边界的技术和利用区域内灰度相似性的基于区域的技术。二是考虑分割过程中不同的处理策略,即并行策略和串行策略,可将分割技术分为并行技术和串行技术。在并行技术中,所有判断和决定都可独立地和同时地做出,而在串行技术中,早期处理的结果可被其后的处理过程所利用。对图像分割较全面和深入的讨论可参见专门书籍[4]。图像分割最新的一些进展可见[5]。
2.4 目标表达、描述、测量
通过图像分割可获得图像中感兴趣的区域,即目标。为有效地刻画目标,需要对它们采取合适的数据结构进行表达,采用恰当的形式描述它们的特性,并从目标获得一些定量的数值以进行分析。这些工作是图像分析的重要步骤。
一般对目标常用不同于原始图像的合适表达形式来表示。好的表达方法应具有节省储存空间、易于特征计算等优点。与分割类似,图像中的区域可用其内部(如组成区域的像素集合)表示,也可用其外部(如组成区域边界的像素集合)表示。一般来说,如果比较关心的是区域的反射性质,如灰度、颜色、纹理等,常选用内部表达法;如果比较关心的是区域的形状等则常选用外部表达法。
选定了表达方法,还需要对目标进行描述,使计算机能充分利用所获得的分割结果。表达是直接具体地表示目标,描述是较抽象地表示目标特性。好的描述应在尽可能区别不同目标的基础上对目标的尺度、平移、旋转等不敏感,这样的描述比较通用。描述也可分为对边界的描述和对区域的描述。除此之外,边界和边界或区域和区域之间的关系也常需要进行描述。
图像分析的目的是获得场景中景物的数据,所以在目标表达和描述的基础上要对目标及特征进行测量。对目标特征的测量从根本上来说是要从数字化的数据中精确地估计出产生这些数据的模拟量的性质,因为这是一个估计过程,所以误差是不可避免的。实际数据和测量数据产生差异而导致的测量误差的来源很多,包括:⑴图像采集过程中各种因素的影响,又可分为空间采样和灰度量化的影响以及光学镜头分辨率的影响;⑵不同的图像处理和分析手段(例如目标分割);⑶不同的测量方法和计算公式;⑷图像处理和分析过程中噪声等干扰的影响。
2.5 目标颜色、形状、纹理、空间和运动等的分析
目标特征有很多种,常可划分为颜色特征,纹理特征,形状特征,空间特征和运动特征等。下面对纹理,形状和运动的分析给予简单介绍。
纹理是物体表面的固有特征之一,因而也是图像区域一种重要的属性。对纹理的分析(包括对纹理特点进行刻画,表示纹理数据,辨认纹理模式)是图像分析的一个重要分支,其中对纹理表达和描述方法主要有3类:统计法、结构法、频谱法。
在统计法中,纹理被看作一种对区域中密度分布的定量测量结果。统计模型是利用对图像灰度的分布和关系的统计规则来描述纹理。它比较适合描述自然纹理,常可提供纹理的平滑、稀疏、规则等性质。统计法的目标是估计随机过程的参数,如分形布朗运动或马尔可夫随机场。
在结构法中,纹理被看作是一组纹理基元以某种规则的或重复的关系结合的结果。这种方法试图根据一些描述几何关系的放置/排列规则来描述纹理基元。利用结构法常可获得一些与视觉感受相关的纹理特征,如粗细度(coarseness)、对比度(contrast)、方向性(directionality)、线状性(line-likeness)、规则性(regularity)、粗糙度或凹凸性(roughness)等。
频谱法一般利用傅里叶频谱(通过傅里叶变换获得)的分布,特别是频谱中的高能量窄脉冲来描述纹理中的全局周期性质。近年许多其他频谱方法,如贝塞尔-傅里叶频谱,盖伯频谱也得到了较多的应用。
形状分析是图像分析的一个重要分支,其重点是刻画图像中目标的各种形状特性。形状描述符在形状分析起重要的作用。一方面,一个形状性质可用基于不同的理论技术的描述符来描述;另一方面,借助同一种理论技术也可以获得不同的描述符以刻画目标形状的不同性质。对形状的描述也是对形状分类的基础,例如在为确定形状相似性而进行的匹配中,匹配的常是形状描述符。
对形状的描述常采用三类方法:特征的方法(用特征描述形状特性);形状变换的方法(借助从一种形状转换为另一种形状的参数模型);基于关系的方法(将复杂形状分解成简单基元,既描述基元性质也描述基元关系)。
运动分析近年随着视频的大量采集和应用而得到广泛重视。连续采集的视频图像序列能反映场景中目标的运动和场景的变化,从而提供了更多的信息。运动分析的研究目的和工作内容可包括:
对运动的检测,即检测场景中是否有运动。这种情况一般仅使用单个固定的摄像机就可以了。一个典型的例子是安全监视,任何导致图像发生变化的因素都考虑在内。由于光照的变化常比较缓慢而运动物体的变化常比较迅速,所以可进一步区分开。
对运动目标的检测和定位,即检测场景中是否有运动目标,它当前在什么位置,进一步还可包括确定运动目标的轨迹,并预测它下一步的运动方向和趋势以及将来的运动轨迹。这种情况一般也仅使用单个固定的摄像机。根据检测目的不同可采用不同的技术。如果仅需确定运动目标的位置,可借助运动信息对运动目标进行初步分割。如果还需确定运动目标的运动方向、趋势和轨迹,则常采用目标匹配技术。
对运动目标的分割和分析,即检测目标运动的情况、获得目标的特征、提取运动参数、分析景物运动规律、确定运动类型等。在此基础上,可进一步识别运动物体。这种情况有时需使用运动的摄像机。
对立体景物的重建和对行动/场景的理解,这需要通过目标运动信息进一步获取立体景物的深度、确定其表面朝向以及遮盖情况等。另一方面,综合运动信息和其他图像中的信息,可以进行运动因果关系的识别,如果进一步借助场景知识,还可对场景给出解释。这种情况常使用两个或多个静止或运动的摄像机。
2.6 图像配准、匹配、融合、镶嵌等
图像匹配是图像理解中的一项重要技术。一方面,它可将同一场景的不同图像结合起来提供更全面的场景信息;另一方面,它可将事先未知的视觉输入与先前已有的认知结果联系起来,从而用已知解释未知并最终建立对输入的解释。图像匹配可在不同的抽象层次进行。在像素层可利用模板匹配,在特征层可利用感知匹配,而在目标层可利用语义匹配。
图像配准与图像匹配密切相关。配准的含义一般比较窄,主要指将在不同时间或空间获得的图像建立对应,特别是几何方面的对应(几何校正),最后要获得的效果常体现在像素层次。匹配则既可考虑图像的几何性质也可考虑图像的灰度性质,甚至图像的其他抽象性质和属性。从这点来说,配准可以看作是对比较低层表达的匹配。
图像融合是近年得到广泛研究和应用的图像技术,它通过对由不同传感器获取的数据进行综合处理和分析,并进行协调、优化、整合,从而提取更多的信息或获得新的有效的信息,并增加决策的可信度和系统的可靠性。当对多幅图像进行融合时,常需先对各幅参与融合的图像进行配准。图像融合对配准精度有较高的要求,如果空间误差超过一个像素,则融合结果会出现重影,严重影响融合图像的质量。
一般将对多传感器图像的融合方式从层次上由低到高分为三级,即像素级(pixel based)融合、特征级(feature based)融合和决策级(decision based)融合。像素级融合是在底层的数据层进行的融合,指对图像传感器原始采集来的物理信号数据(两幅或多幅图像)进行处理和分析,生成目标特征而获得单一融合图像。特征级融合是一种在中间层次进行的融合,它需要对原始图像提取特征,获得景物信息(如目标的边缘、轮廓、形状、表面朝向和相互间距离等)并进行综合,以得到置信度更高的判断结果。决策级融合是在最高层次上进行的融合,它能根据一定的准则以及每个决策的可信度直接做出最优决策。
3 相关图像技术示例
下面对图像分析中的B1,B2和图像理解中的C1共3类技术结合几个具体实例介绍如下:
3.1 目标检测、提取、跟踪、识别和分类
对场景中目标的检测和跟踪有重要的意义。例如,图4给出两幅乒乓球比赛的场景,图(a)用长方框框出了运动员的位置(这是对运动员检测的结果)而图(b)用白线标出了乒乓球运动的轨迹(这是对乒乓球在两次击球之间的运动进行跟踪的结果)。根据这些结果,教练员和运动员可进行动作和战术的分析,而电视台也可查询精彩镜头。
(a) (b)
图4 目标检测和跟踪示例图
3.2 人脸和器官的检测、定位与识别
近年对人脸的定位和识别得到了广泛的应用。图5给出对两幅人脸和器官的定位示例图。图5(a)显示了一幅从场景中定位出人脸的图像。图5(b)显示了四幅在人眼眨动过程中跟踪虹膜区域和眼帘区域得到的结果。根据人脸定位的结果可继续进行人脸的识别,而根据对虹膜和眼帘的跟踪结果可帮助对人的表情变化做出判断。
(a) (b)
图5 人脸和器官的定位示例图
图6给出表情分类中的三幅示例图。图6(a)中人眼睁开但嘴巴基本闭合,图6(b)中人眼睁开且嘴巴也张开,图6(c)中人眼闭合但嘴巴仍然张开。考虑到人眼和嘴巴的变化和状态,可以判断出这是一个人的表情为高兴的序列。
(a) (b) (b)
图6 表情分类示例图
3.3 基于内容的图像和视频检索
基于内容的图像和视频检索是在数据快速增长、信息急剧膨胀情况下为满足人们快速提取有用视觉信息的需求而逐步受到重视的一个研究热点。早期的研究主要是根据图像(视频)的视觉特征(包括颜色、纹理、形状、空间关系以及运动信息等)来进行,即通过提取当前查询图像的特定视觉特征并与数据库中图像已获取的视觉特征进行匹配来提取与查询图像具有相似性的图像[6]。
图7给出用形状特征进行查询检索的一组示例图。考虑有一个包括上衣、T-shirt、裙子、裤子等的服装图像库,需要迅速找到其中的T-shirt。用户画了一个如图7(a)所示的T-shirt草图,用它作为查询图,就可借助基于形状特征的方法获得如图7(b)、(c)、(d)、(e)和(f)这样一些图片。
(a) (b) (c)
(d) (e) (f)
图7 利用形状特征查询的示例
经过10多年的研究,基于内容的图像和视频检索已取得长足的进步。近期该领域的研究主要集中在基于语义的图像和视频检索方面,具体的研究涉及如何跨越视觉特征和语义描述间的鸿沟,图像和视频的自动标注,人机交互反馈以结合高层知识,语义检索的模型和工具,以及针对具体应用的技术[7]。
图8给出一组对图像进行自动标注的结果示例图。这里对每幅图片用了四个词来标注,这些词均来自训练中所构建的视觉关键词辞典。由图8可见,这些标注词中有些可以揭示图片的拍摄季节,有些能够反映图片拍摄的场所,有些则列出了图片中重要的景物。借助这些标注,用户有可能在较高的语义层次对图片进行查询和检索。
白天,户外 云彩,山脉
树木,房屋 森林,湖泊
夏天,白天 秋天,森林
海岸,沙滩 树木,树叶
图8 图像标注示例
4 结语和展望
前面对机器视觉中有广泛应用的9类图像技术进行了介绍。根据对2007年相关技术的研究文献的统计[3],表1中的14图像类技术共包含了662篇文献,平均47篇/小类,而相关的9类图像技术共包含了472篇文献,平均52篇/小类。由此可见,在机器视觉中有广泛应用的9类图像技术也是得到较多重视和研究的图像技术。
事实上,图像技术有很多优点。例如,图像技术具有形象直观和方便灵活(类型广泛,可进行局部处理)的特点,它能以非接触和无损的方式对产品进行质量检测。图像采集实时快速,图像系统精度高,重复性强,工作不会疲劳。所以图像技术有望在包括机器视觉的各个领域得到越来越多的应用。
最后需要指出,机器视觉与图像技术有密切的联系,它们的覆盖面在一定程度上也有所重合。虽然人们常把它们当作不同的学科,但事实上它们在概念上或实用中并没有绝然的界限。根据对它们目前的研究和应用来看,它们在许多场合和情况下可以看作是专业和背景不同的人习惯使用的不同术语更为恰当,而且它们虽各有侧重但常常是互为补充的。
参考文献
[1] 章毓晋. 英汉图像工程辞典[M]. 北京:清华大学出版社,2009.
[2] 章毓晋. 图像工程,第2版(合订本)[M]. 北京:清华大学出版社,2007.
[3] 章毓晋. 中国图像工程:2007[M]. 中国图象图形学报,2008,13(5):825-852.
[4] 章毓晋. 图象分割[M]. 北京:科学出版社,2001.
[5] Zhang Y-J (ed.). Advances in Image and Video Segmentation[M]. USA: IRM Press. 2006.
[6] 章毓晋. 基于内容的视觉信息检索[M]. 北京:科学出版社,2003.
[7] Zhang Y-J (ed.). Semantic-Based Visual Information Retrieval[M]. USA: IRM Press. 2007.