机器视觉测量技术-合肥工业大学.docx
第一章绪论1.1 概述人类在征服自然、改造自然和推动社会进步的过程中,面临着自身能力、能量的局限性,因而发明和创造了许多机器来辅助或代替人类完成任务。智能机器或智能机器人是这种机器最理想的模式。智能机器能模拟人类的功能、能感知外部世界,有效解决问题。人类感知外部世界:视觉、听觉、嗅觉、味觉、触觉眼耳鼻舌身所以对于智能机器,赋予人类视觉功能极其重要。机器视觉:用计算机来模拟生物(外显或宏观)视觉功能的科学和技术。机器视觉目标:用图像创建或恢复现实世界模型,然后认知现实世界。1.2 机器视觉的研究内容1输入设备成像设备:摄像机、红外线、激光、超声波、X射线、CCD、数字扫描仪、超声成像、CT等数字化设备2低层视觉(预处理):对输入的原始图像进行处理(滤波、增强、边缘检测),提取角点、边缘、线条色彩等特征。3中层视觉:恢复场景的深度、表面法线,通过立体视觉、运动估计、明暗特征、纹理分析。系统标定4高层视觉:在以物体为中心的坐标系中,恢复物体的完整三维图,识别三维物体,并确定物体的位置和方向。5体系结构:根据系统模型(非具体的事例)来研究系统的结构。(某时期的建筑风格一据此风格设计的具体建筑)1.3机器视觉的应用工业检测一文件处理,毫微米技术一多媒体数据库。许多人类视觉无法感知的场合,精确定量感知,危险场景,不可见物感知等机器视觉更显其优越十足。1零件识别与定位生产线机器人足球赛2产品检验外形、表面、装配位置、超声探测内部裂纹和气孔3移动机器人双目识别恢友场景。无人驾驶汽车4遥感图像分析航空摄影、气象卫星、资源卫星航空摄影:利用普通摄影机航拍。制图、制导用气象卫星:红外成像、气象云图海洋资源:合成孔径雷达,获取海辰形象。找矿农作物调查,自然灾害测报,生态环境检测。5医学图像分析X 射线、CT (Computer Tomography),核磁共振 MRI (magnetic resonance imaging ),超声成像。作用:(1)图像增强、标记、染色(2)专家系统,自动研制6安全鉴别、监视跟踪车辆识别、车牌号识别人脸、眼底、指纹、表情7其他体育运动分析:游泳制衣(人体扫描)影视制作1.4 人类视觉简介1人眼所能看到的光谱范围,只是电磁波辐射范围的很小的一部分,为380nm780nm,可见光谱紫外3,紫蓝青绿黄橙红7平红外2人眼的构造角膜占表面的1/6具有屈光作用晶状体、玻璃体等都有屈光作用视网膜:杆状细胞(暗)锥状细胞(明)3视觉信息处理(1) 亮度(2)形状(3)运动(4)颜色(5)深度感(6)通道(7)并行人眼对运动物体特别敏感锥状细胞有三种,分别对430、540、570,敏感,构成了三基色原理的基础。深度感因视差而产生视觉过程:(1)视觉的时间特性视觉在时间上有累积效应对一般的物体进行观察时,接收光的总能量E与物体可见面积、表面宽度L和时间距(观察时间长度)T成正比。另外:人对光的感觉有潜伏期,多次闪光会导致闪烁的知觉。降龙十八章(2)视觉的空间特性小而弱的光点单独呈现时可能看不见,但当多个连在一起作为一个大的光点时同时呈现时便能看见了。视觉度表示人所能看到景物细节的准确性。觉察:检测在视野中的某个给定物体是否存在觉察定位定位:对两物体相对位置精确辨别的能力解像:对一视觉形状各组成部分之间距离的辨别能力认知:综合的能力和方法,包括明度识别,一定的解像力和定位能力。(3)形状知觉:轮廓、图形、背景轮廓:轮廓把物体与视野中的其它部分区分开来,轮廓不等于形状。轮廓只是边界,是局部概念,而形状则是全体概念。主观轮廓:主观轮廓产生的必要条件是有些不完整的因素出现将它完整起来就有一种把它变成简单和稳定正规图案的倾向。(4)视觉的相对性视觉感知的结果不仅仅取决于刺激本身,还与经验对比有关系。(早晨、中午的太阳哪个更近)前景与背景:前景:视觉关心的主体。背景则是与前景相关联的其它刺激(2)前景受背景的影响视觉知觉的对比:(1)前景和背景可相互置换(5)视觉的选择性听而不闻视而不见。依赖先验知识而取向。(6)视觉的整体性对部分感知之和而产生的一种整体知觉经验(7)视觉的恒常性亮度恒常性:黑布、白布各自一半在阳光下,一半在阴影中,我们仍然能够判定它为黑布白布。大小恒常性:物体在视网膜上的象随距离而变化,但我们的感觉则并不是大小的变化而是距离的变化。(感觉到远方的牛仍然比近处的狗大)形状恒常性:直线投影为一点,通过经验加以矫正颜色恒常性:在相当宽的光明变化条件中,能够感受到颜色的恒常。(8)视觉的组织性相似性O O OO O OO O O十。十oooOOOOOOoOO三列点列OOOOOO接近性o o o o o o 四行点列o o o o o o o o o o o o o o o o o o o o OO oo OOO oo OOO o o oOO o o oOO oo OOO o o o o O o o o o o O o o o o o O o o o o o O o o o o o O按列封闭性封闭轮廓更容易够成图形。连续性一条直线和曲线的多次交汇,心理上倾向于连续。(9)错视现象高度长度主从错觉马赫带Hering方格错觉(10)眼球微动现象1.5 颜色和知觉牛顿用三棱镜研究白光的折射,就此便发现白光可被分解成一系列从紫到红的连续光谱。从而证明白光是由不同颜色的光线相混合而形成的,而这些光实际上是不同频率的电磁波。(1)无颜色白一灰一黑黑白系列颜色(2)有颜色除黑白系列之外的各种颜色色觉的产生:光源的光一反射或透射一f视网膜一人脑解释物体均匀的反射各种光白色物体只反射某种或某几种颜色彩色CIE国际明度委员会R:700nm(570)G:546.Inm (540)光的三基色B:435.8nm (430)二基色叠加形成三补色颜料的三基色正是光的三补色。人眼的锥状细胞有三种,分别对430,540,570光谱敏感。设三种刺激量分别为:X、Y、Z则:YXZV -, X =, Z =Z+Y+ZX+Y+ZX+Y+Z为刺激量的比例系数,称为色系数。可见:x+y+z=lCIE 1931色度图(D三色比例系数x、y、z均大于零。Y的数值正好是彩色光亮度。® x=y=z表示标准白光。这样:(X)-2.76891.75171.1302""r'(Y)=1.04.59070.0601G_(Z).00.05655.5943B每一点对应一种颜色。色度图边界上二点代表纯颜色。连接两端点直线上的点可由二端点颜色合成。3端点三角形内的颜色可由三端点颜色合成。3基色不能组合出所有的颜色。补色律:两个以适当比例混合能得到白色或灰色的颜色,互称为补色。中间色律:两个非补色混合,便产生一个新的中间色或混合色,色调的混合比例确定。代替律:如颜色X+Y»B , A+B»C 则有 A+X+Y»C颜色模型RGB模型(面向显示器、打印机等硬设备)规划为单位正方体则所有RGB的值在0,1R =700 nmG =546.1 nmYIQ、HSV (HIS)标准白色的RGB光通量R、0g、Ob为:R:%:%=1:4.5907:0.0601这样把光通量为ILm的红色,4.5079流明的绿光,0.0601流明的蓝光作为三基色的单位基色量。这样某彩色光通量(C)=R (R)+G (G)+B (B)(C)表示光的明亮程度,其色度只取决于R、G、B之间的比例关系。4口RG , Br =, g =, b =r、g、b为色度坐标,r + g + b = 1CMYY黄/_/红,L品红绿白2r1/香蓝C各种光也都可以用CMY三基色混合而成。 780nm-1.5 -1 380nm0.51 1.5 rMRGB,由黑一白,增色过程。R+G+BR+G+B R+G+BCMY,由白黑,减色过程。(绘图,打印机)颜料。YIQ保证彩色电视和黑白电视的兼容。NTSC(国际电视系统)协会。Y对应于XYZ中的Y,为亮度信息。选择三色的基色量为R=0.299, G=0.587, B=0.114:.Y=0.299R+0.587G+0.114B-0.27 (B-Y)+ 0.41 (B-Y)0.5870.114-0.274 -0.322-0.523 0.312这里RGB为NTSC制式RGBHIS模型H :色调。混合光谱中的主要波长。S :饱和度。一定色调的纯度。纯光谱色是完全饱和,加入反光饱和度逐渐减小。I: 密度、亮度(与反射率成正比)RGB至lj HIS转换/=;(R + G +8)3S=Jd Dmm(R,G8) a + G 4- o“二arccos/"G + I 2yl(R-G)2+(R-G)(G-B)HIS 转至l RGBS,/eO,l凡 G, Be 0,1H e0,120°R=,u+G =3I-(B + R)发光强度定义:光源540x10微“的单色光,在指定方向辐射强度为%83%1.6光度学光度学:研究光的强弱的学科。(Photometry)当光源足够小,或足够远,以至于眼睛无法分辨形状时,光源为点光源。点光源Q沿某个方向r的发光强度I定义为此方向上单位立体角内发出的光通量嗨。单位为流明(Lm).以r为轴取一个立体角元dQ,dQ内的光通量为沿r方向的发光强度为:/=生(单位角内的光通量)发光强度的单位为cd (坎德拉),lcd=l1%.led发光强度的点发出的总光通量为4 n 1m。sr为球面度,球心对球面的总球面度为4 n o实际中的光源总有一定的发光面积一扩展光源。扩展光源表面的每个面元ds沿某个方向r有一定发光强度di沿r观察,则ds'=ds cos 0投影面积则面元ds沿r方向的光度学亮度B定义为在此方向上单位投影面积的发光强度。高度:B dl did(/)dS' dS-cos0 JQ JS cos6>被照表面照度:一个被光线照射的表面上的照度,为照射在单位面积上的光通量,设面积ds上的光通量为d巾,则:照度后=案单位:IX (勒克斯)Lx =1%2 lm/mJ照度光学系统的像面照度和其他表面的照度是必须了解的光学量。参看图1.4-1,从轴向上的面元dA|、辐射到接收面上的面元dA2的辐射通量为:d2=LdAidQ, CosO式中dA2 cos 0.aLl=r2物而接收而图XX辐射的传播而从物面辐射到接收面的总辐射通量为2二 L Jai L YdAxdAydA2 rn设物面是朗伯面,即L与而元dA的位置无关,则中产必"加出3必陷rn=史里2必得rn由此察=%=以2%生%触式中口2称为辐射传输系数,它只与表面的形状、位置、大小和方向有关。是一纯粹几何量。邑2是一二重积分量,很难计算,不过现在已经对一些典型情况,计算出了结果,并且列出了表格,可供查阅。像面照度光学系统像面上的照度会受两方面的影响:(1)光学系统的会聚和发散作用;(2)光学系统的吸收、反射.、散射和挡光的作用:为了简单起见,将忽略第(2)种影响,而对于第(1)种影响将通过光学系统的几何度G表示出来,并使这一计算变得很简单。几何度G的定义为G = ALL皿普必陷42=AQr式中r2这是投影立体角,它是接收面dA?对物面dAI所张立体角在物面法线方向的投影的积分。几何度G只和光源的几何尺寸、光源到光学系统的距离、光学系统的入瞳尺寸以及光学系统的结构有关。当光能通过光学系统且不存在损失时,G是不变量,即在光学系统内的不同截面上,G都是相同的。若从图1.4一2观察则有Gs = Ge = Gx = Gi式中Gs、Ge、Gx、Gi分别是光学系统的物面S、入瞳面e、出瞳面x、像面i 的儿何度。物平面s图 1.4一2像平面i从上可以看出;(1)几何度G可以表示光学系统传输辐射的能力;(2)可以根据易于计算的截面上的G值,计算出任一截面上的照度。例如:(1)光能无损失的光学系统像面中心的辐射度由中=LA"得到 E = LT2A_ ttD1 nL=4/244(1-«)式中,a是光学系统的纵向放大率。(2)视场角为e处像平面上的辐照度。比较物方侧物点1和轴上点0所对应立体角的大小。对于物点1,入瞳所对应的立体角为= Ae c°s"2=& cos'0=5 cos33(I! cosOy /式中Q。是入瞳对轴上点0所张的立体角,故轴外点像平面的辐照度为E,= Leos0()27cos304 V1(1-«)2冗214 a=-cos 04(1-a)2上式说明:像面照度耳与光学系统的相对孔径(一)的平面成正比,乂和视场角0的余弦的需要特别注意的是:E,oocos46>,这将严重影响像面照度的均匀性。但是,对于野外景物,它并不是朗伯体,而是各向均匀发光体,则Eoocos'e。1.7视觉的空间知觉人眼能在高和宽为2D空间上形成的视象得到个3D视觉空间。非视觉性深度线索眼睛聚焦调节:观察远点不同的物体时,眼睛调节晶状体,使成清晰象,这种调节活动给大脑提供信息,提供深度估计。据此一共焦测距法双眼视轴的融合观察远近不同的物体,双眼自动调节使视轴对准视网膜中心,做幅合运动。提供距离信息三角测距法双眼深度线索中央眼确定主观视觉方向,视觉是产生立体知觉和深度知觉。(单独产生)(图像复合后相当于1只眼睛看到)单眼深度线索大小:尺寸相近的物体,近:成像大:远:成像小物体的遮挡:遮挡来判断物体的前后距离光亮与阴影:近:物体明亮;远:物体灰暗颜色分布:近:黄或红;远:蓝空气透视:近:轮廓清晰:远:模糊不清纹理:近:纹理稀疏;远:纹理密集运动:近:视角变化大;远:视角变化小(坐车过电线杆,和远处的树)第二章图像的采集和量化2.1采集装置的性能指标接受外界的激励并产生响应,把模拟的响应转化为数字化的信号,从而可被计算机利用。采集装置功能:接受辐射(光、声、电)进行模数转换。采集装置性能指标:线性响应:输入物理信号的强度与输出响应信号的强度之间关系是否线性。灵敏度:绝对灵敏度用能拾测到的最小光子数表示。相对灵敏度用能使输出发生一级变化所需光子数表示。信噪比:所采集的图像中有用信号与无用干扰的(能量或强度)比值。阴影(不均匀度):输入物理信号为常数而输出的数字形式不为常数的现象。象素形状:般为正方形,但也有其它形状(如运动)。频谱灵敏度:对不同频率辐射的相对灵敏度。快门速度:采集拍摄时间。读取速度:信号数据从敏感单元读取(传输)的数率。2.2电荷藕合摄像器件面阵CCD原理。(帧转移型,隔列转移型,线转移型)面阵CCD的基本特性参数:光电转移特性光电转换因子Y,般99.7%。光谱响应动态范围:输出信号峰值电压与均方根噪声电压之比。噪声源:电荷注入器件引起的噪声。电荷转移过程中,电荷量变化引起的噪声。拾测时产生的噪声。暗电流:正常工作时,MOS电容处于未饱和的非平衡状态,但由于热激发产生的少量载流子使系统趋向平衡。暗电流是判断个系统好坏的重要标志。分辨率:像元位数高的器件具有更高的分辨率。面阵CCD,只评价其水平分辨率,且用电视线数的评价方法。在一幅图像上,在水平方向能够分辨出的黑白条数一一分辨率。填充系数Fb电敏感区域占整个矩阵面的比例bb=伫4x100%bxb拖影:由寄存器电荷移位时留下的剩余电荷量产生。三管CCD彩色摄像机分光棱镜一*三色一三CCD接收 RGB信号单管CCD彩色摄像机栅状滤色器一三色三CCD接收 RGB信号(例举液晶显示器)特种CCD图像传感器 微光CCD图像传感器(多帧积累)直视夜视仪一微光透视图像传感器特点:便于图像处理,实现远距传输或遥控,实现自动控制直接用于制导、录像并长期保存。 红外CCD图像传感器(IRCCD)用于夜视,、跟踪制导、红外侦察、预警。(海湾战争)主动红外电视摄像:红外光源(红外光源,半导体激光器)红外摄像器件(CCD)红外变像管:把不可见的红外线转变成可见光。X光CCD图像传感器一医疗影像+工业探测目标:小剂量X光照射,图像远程传输。2.3 CCD相机分类:彩色相机黑白相机按灵敏度划分:普通型(照度13 lux),月光型(照度0.1 lux)星光型(照度0.01 lux),红外型(红外照明,天光线)按CCD灵敏度尺寸分为1/4 inch,1/3 inch,1/2 inch,1 inch相机。按扫描方式:有面扫描和线扫描方式,面扫描乂分为逐行扫描和隔行扫描。按同步方式:内扫描(普通相机),外同步功能相机。CCD相机主要功能调节同步方式选择:内同步(利用内置的同步信号发生器产生同步信号);外同步(外触发信号);电源同步(利用电源完成垂直同步);自动增益控制:CCD信号的视频放大器,对不同照度而随之改变增益,可使相机在较大的光照范围内进行工作。背光补偿:自动补偿(AGC)以整个视场平均值来确定(亮背景,暗前景)启动背光补偿,则AGC只对前景视场求平均确定增益。电子快门:CCD仅输出快门开启时的光电荷信号,其余时间则被泄放。最短电子快门为1/1000 So Y校正:Z =7(机器视觉Y=l)光(L)- CCD 一电(V) f显示器f光。要保持二次转换中的综合特性具有线性。自平衡(仅用于彩色相机):对景物图像进行色温补偿,分为自动调节和手动调节两种。 CCD相机接口:光学接口信号接口:RS422:双绞线,相机具有110。终端负载。Camera Link:控制信号、视频信号、串行通讯。LVDS (低振幅差分信号):低电压和低电压驱动实现了低噪声和低功耗。IEEE 1394:串行接口(Firewire)-400Mbps,不需要集线器就可以连接63台设备,连接电脑可省去图像采集卡。2.4 彩色数码相机图像一镜头f CCD - A/D -数字信息存储数码相机的最大特点是它的一系列的二进制数据和标准的图像存储方式把所摄图像存放在机内存储器,并可以通过专用接口与通用计算机联机,实现图像传输和计算机处理的功能。分辨率高达3060x2036.主要性能:1 .分辨率:常有1600x1200,1024x768,640x780。2 .色彩深度:专业的达到36位或24位。3 .焦距:可高达10倍光学变焦,数码变焦。4 .光圈快门:快门1/50016 s广角光圈25f!6;长焦光圈f3.8f24。5 .图像存储:内置存储卡JPG格式120K。6 .取景器“观看拍摄效果和编辑修改(液晶)。7 .接口功能:RS232、SCSI, USB。1394接口。8 .其他接口:自动测光、自动调焦、自动闪光、自拍。2.5 常用的图像文件格式1. BMP2. GIF3. TIFF(TIF)4. JPEG(JPG)(依据数字图像处理内容简单扩展)2.6 照明系统设计照明系统设计的基本因素:镜头的视场:被测物尺寸一镜头视场f最佳照明(照亮整个视场)照明系统与工作间距:镜头到工作距离一照明系统到工作间距一光源到工作距离工件的外形,条纹及颜色:工作表面形状、平坦度、粗糙度、颜色 成像物镜自配:针对确定的成像物镜进行光源设计一划痕、缺陷、印纹等能被清晰显现。 照度自配:根据CCD的光表面动态响应范围确定合适的像表面度。照明系统的选择:直接型:沐光方式高环形光反射型低角度方式低环形光漫反射条形方式条形光源聚光方式聚光高亮方式(激光)投射型:高亮投射照明导光面(光板)投射照明线条光源投射照明同轴光照明:与光轴平行的平行光均匀照明工件。不同频率光线照明(多彩)第三章二值图像分析一幅数字图像是一个二维阵列,阵列元素值称为灰度值或强度值.实际上,图像在量化成数字图像前是一个连续强度函数的集合,场景信息就包含在这些强度值中.图像强度通常被量化成256个不同灰度级,对某些应用来说,也常有32、64、128或512个灰度级的情况,在医疗领域里甚至使用高达4096(12bits)个灰度级.很明显,灰度级越高,图像质量越好,但所需的内存也越大.在机器视觉研究的早期,山于内存和计算能力非常有限,而且十分昂贵,因此视觉研究人员把精力主要集中在研究输入图像仅包含两个灰度值的二值视觉系统上.人们注意到,人类视觉在理解仅由两个灰度级组成的线条、轮廓影像或其它图像时没有任何困难,而且应用场合很多,这一点对研究二值视觉系统的研究人员是一个极大的鼓舞.随着计算机计算能力的不断增强和计算成本的不断下降,人们普遍开始研究基于灰度图像、彩色图像和深度图像的视觉系统.尽管如此,二值视觉系统还是十分有用的,其原因如下:计算二值图像特性的算法非常简单,容易理解和实现,并且计算速度很快.二值视觉所需的内存小,对计算设备要求低.工作在256个灰度级的视觉系统所需内存是工作在相同大小二值图像视觉系统所需内存的八倍.如若利用游程长度编码等技术(见3.4节)还可使所需内存进一步减少.由于二值图像中的许多运算是逻辑运算而不是算术运算,所以所需的处理时间很短.(3)许多二值视觉系统技术也可以用于灰度图像视觉系统上.在灰度或彩色图像中,表示一个目标或物体的一种简易方法就是使用物体模板(mask),物体模板就是一幅二值图像,其中1表示目标上的点,0表示其它点.在物体从背景中分离出来后,为了进行决策,还需要求取物体的几何和拓扑特性,这些特性可以从它的二值图像计算出来.因此,尽管我们是在二值图像上讨论这些方法,但它们的应用并不限于二值图像.一般来说,当物体轮廓足以用来识别物体且周围环境可以适当地控制时,二值视觉系统是非常有用的.当使用特殊的照明技术和背景并且场景中只有少数物体时,物体可以很容易地从背景中分离出来,并可得到较好的轮廓,比如,许多工业场合都属于这种情况.二值视觉系统的输入一般是灰度图像,通常使用阈值法首先将图像变成二值图像,以便把物体从背景中分离出来,其中的阈值取决于照明条件和物体的反射特性.二值图像可用来计算特定任务中物体的几何和拓扑特性,在许多应用中,这种特性对识别物体来说是足够的.二值视觉系统已经在光学字符识别、染色体分析和工业零件的识别中得到了广泛应用.在下面的讨论中,假定二值图像大小为mx,其中物体像素值为1,背景像素值为0.3. 1阈值视觉系统中的一个重要问题是从图像中识别代表物体的区域(或子图像),这种对人来说是件非常容易的事,对计算机来说却是令人吃惊的困难.为了将物体区域同图像其它区域分离出来,需要首先对图像进行分割.把图像划分成区域的过程称为分割,即把图像Ri,刃划分成区域Pl,P2,P",使得每一个区域对应,个候选的物体.下面给出分割的严格定义.定义分割是把像素聚合成区域的过程,使得: Uti £=整幅图像(是一个完备分割). PPJ =0,z* j,(用是一个完备分割).每个区域6满足一个谓词,即区域内的所有点有某种共同的性质. 不同区域的图像,不满足这一谓词.正如上面所表明的,分割满足一个谓词,这一谓词可能是简单的,如分割灰度图像时用的均匀灰度分布、相同纹理等谓词,但在大多数应用场合,谓词十分复杂.在图像理解过程中,分割是一个非常重要的步骤.二值图像可以通过适当地分割灰度图像得到.如果物体的灰度值落在某一区间内,并且背景的灰度值在这一区间之外,则可以通过阈值运算得到物体的:值图像,即把区间内的点置成1,区间外的点置成0.对于二值视觉,分割和阈值化是同义的.阈值化可以通过软件来实现,也可以通过硬件直接完成.通过阈值运算是否可以有效地进行图像分割,取决于物体和背景之间是否有足够的对比度.设一幅灰度图像尸上力中物体的灰度分布在区间团,心内,经过阈值运算后的图像为二值图像F/i,力,即:J1如果 Tx<Fi,j<T2FT*1。其它31)如果物体灰度值分布在几个不相邻区间内时,阈值化方案可表示为:(3. 2)如果 F/JeZ其它其中Z是组成物体各部分灰度值的集合.图3.1是对一幅灰度图像使用不同阈值得到的二值图像输出结果.阈值算法与应用领域密切相关.事实上,某阈值运算常常是为某一应用专门设计的,在其它应用领域可能无法工作.阈值选择常常是基于在某一应用领域获取的先验知识,因此在某些场合下,前几轮运算通常采用交互式方式来分析图像,以便确定合适的阈值.但是,在机器视觉系统中,由于视觉系统的自主性能(autonomy)要求,必须进行自动阈值选择.现在已经研究出许多利用图像灰度分布和有关的物体知识来自动选择适当阈值的技术.其中的一些方法将在3.2节介绍.图3.1一幅灰度图像和使用不同阈值得到的二值图像结果.上左:原始灰度图像,上右:阈值 T=100;左下:T=128.右下:Tl =100|T2=128.3.2几何特性通过阈值化方法从图像中检测出物体后,下步就要对物体进行识别和定位.在大多数工业应用中,摄像机的位置和环境是已知的,因此通过简单的几何知识就可以从物体的二维图像确定出物体的三维位置.在大多数应用中,物体的数量不是很多,如果物体的尺寸和形状完全不同,则可以利用尺度和形状特征来识别这些物体.实际上在许多工业应用中,经常使用区域的一些简单特征,如大小、位置和方向,来确定物体的位置并识别它们.3.2.1尺寸和位置一幅二值图像区域的面积(或零阶矩)由下式给出:”一1 mA = ZX8/,力(3-3)1=0 j=0在许多应用中,物体的位置起着十分重要的作用.工业应用中,物体通常出现在已知表面(如工作台面)上,而且摄像机相对台面的位置也是已知的.在这种情况下,图像中的物体位置决定了它的空间位置.确定物体位置的方法有许多,比如用物体的外接矩形、物体矩心(区域中心)等来表示物体的位置.区域中心是通过对图像进行“全局”运算得到的一个点,因此它对图像中的噪声相对来说是不敏感的.对于二值图像,物体的中心位置与物体的质心相同,因此可以使用下式求物体的中心位置:A1,”一1-11tZZ郎,力=ZZ 1/如,力i=o J=oi=o 六0(34)一1,一1一一1 m11=0 j=0»=0;=0其中无和y是区域相对于左上角图像的中心坐标.物体的位置为:一1,“一1ZZ网力i=0 y=0X =A?一!.一!即,力-_/=0 j=Q这些是一阶矩.注意,由于约定y轴向上,因此方程3.4和3.5的第二个式子的等号右边加了负号.3.2.2方向计算物体的方向比计算它的位置稍微复杂一点.某些形状(如圆)的方向不是唯一的,为了定义唯一的方向,一般假定物体是长形的,其长轴方向被定义为物体的方向.通常,二维平面上与最小惯量轴同方向的最小二阶矩轴被定为长轴.图像中物体的二阶矩轴是这样一条线,物体上的全部点到该线的距离平方和最小.给出一幅二值图像刃,计算物体点到直线的最小二乘方拟合,使所有物体点到直线的距离平方和最小:n ni(3. 6)=££始即,刃1=0 y=0其中是物体点口,力到直线的距离.为了避免直线处于近似垂直时所出现的数值病态问题,人们一般把直线表示成极坐标形式:(3. 7)把点&力坐标/7= xcos0+ ysin。如图3.2所示,。是直线的法线与x轴的夹角,0是直线到原点的距离.r =(xcos8 + ysin。一夕)代入直线的极坐标方程得出距离r :(3.8)将方程3.8代入方程3.6并求极小化问题,可以确定参数p和6:“一1"I/=ZE(/cos+ y/7 sin 0- p)2 Bi, j(3.9)i=0 j=Q令z2对P的导数等于零求解P得:夕=(元 cosO + ysin。)(3.10)它说明回归直线通过物体中心(元刃.用这一0值代入上面的Z?,则极小化问题变为:%1= acos2+/?sincos+ csin20(3.11)其中的参数:4一.-1a = ZZ(x广守瓯力i=0 j=0n1 mb =2gZ (%-元)(4-歹)砥,刃(3.12)/=0 y=0一1 m-c = ZZ(y"-»w,j i=0 j-0是二阶矩.表达式/可重写为:,111/=(+ c)+(a - c) cos 2+ Z? sin 2(3.13)对12微分,并置微分结果为零,求解。值:btan 20=(3.14)a-c因此,惯性轴的方向由下式给出:sin 20=± byjb2+(a - c)2_(3.15)cos 20=± i & cyb+(- C)-所以由的最小值可以确定方向轴.注意,如果b =0,Q=C,那么物体就不会只有唯一的方向轴.物体的伸长率E是/的最大值9最小值之比:(3. 16)E _ Z maxXmin3.2.3密集度和体态比A区域的密集度(compact)可用卜面的式子来度量:(3.17)其中,。和4分别为图形的周长和面积.根据这一衡量标准,圆是最密集的图形,其密集密度为最大值1/4万,其它一些图形的比值要小一些.让我们来看一下圆,当圆后仰时,形状成了一椭圆,面积减小了而周长却不象面积减小的那么快,因此密集度降低了.在后仰到极限角时,椭圆被压缩成了-一条无限长直线,椭圆的周长为无穷大,故密集度变成了零.对于数字图像,是指物体尺寸(像素点数量)除以边界长度的平方.这是一种很好的散布性或密集性度量方法.这一比值在许多应用中被用作为区域的一个特征.密集度的另一层意义是:在给定周长的条件下,密集度越高,围成的面积就越大.注意在等周长的情况下,正方形密集度大于长方形密集度.体态比定义为区域的最小外接矩形的长与宽之比,正方形和圆的体态比等于1,细长形物体的体态比大于1.图3.3所示的是几种形状的外接矩形.图3.3几种外接矩形示意图3.3投影给定一条宜线,用垂宜该直线的一簇等间距直线将一幅二值图像分割成若干条,每条内像素值为1的像素个数为该条二值图像在给定直线上的投影(projection).当给定直线为水平或垂直直线时,计算二值图像每一列或每一行上像素值为1的像素数量,就得到了二值图像的水平和垂直投影,如图3.4所示.由于投影包含了图像的许多信息,所以投影是二值图像的一种简洁表示方式.显然,投影不是唯一的,同样的投影可能对应不同的图像.图3.4一幅二值图像及其水平投影图在某些应用中,投影可以作为物体识别的一个特征.投影既是一种简洁的图像表示,又可以实现快速算法.下面介绍对角线投影的求解方法.对角线投影的关键是计算当前行和列对应的投影分布图位置标号.设行和列的标号分别用i和/表示.若图像矩阵为行加列,则i和,的范围分别为0到-1和0到m-1.假设对角线的标号d用行和列的仿射变换(线性组合加上常数)计算,即:d = ai + bj + c(3.18)对角线投影共对应+ m-l个条,其中仿射变换把右上角像素映射成对角线投影的第一个位置,把左下角像素映射成最后一个位置,如图3.5所示,则当前行列对应的标号d的公式为:d = i - J +/J 1(3.19)图3.5二值图像及其对角线上的投影图3.4游程长度编码游程长度编码(run-length encoding)是另一种二值图像的简洁表示方法,它是用图像像素值连续为1的个数(像素1的长度)来描述图像.这种编码已被用于图像传输.另外,图像的某些性质,如物体区域面积,也可以从游程长度编码直接计算出来.在游程长度编码中经常运用两种方法,一种是使用1的起始位置和1的游程长度,另一种是仅仅使用游程长度,但须从1的游程长度开始描述,如图3.6所示.0110011100001111110100011111101111111111111110000010000011111的游程(2,2)(6,3)(13,6)(20,1)(4,6)(11,10)(1,5)(11,1)(17,4)1和0的游程长度:0,2,2,3,4,6,1,10,3,6,1,105,5,1,5,4图3.6一幅简单二值图像的游程长度编码.如果用第二种方法来表示图像每行的游程长度,并用以代表图像第i行的第女个游程长度,则全部1的游程长度之和就是所求物体的面积.收A = Z如20)i=0%=0其中乃是第i行游程个数,(叫-1)/2取整,表示1的游程个数.由游程长度编码能很容易地计算水平投影而无需变成原来的图像.使用更巧妙的方法也能从游程长度编码计算出垂宜和对角线投影.3. 5二值图像算法从背景中分离出物体是一个困难的问题,在此将不讨论这个问题.这里假设物体可以从背景中分离,并且使用某一谓词,可以对图像中属于物体的点进行标记.因此,问题就变为如何将一幅图像中所有被标记的点组合成物体图像.这里还假设物体点在空间上是非常接近的.利用空间接近概念可以严格定义,利用此定义研究的算法可以把空间上非常接近的点聚合在一起,构成图像的一个成分(component).下面首先引进一些定义,然后讨论有关算法.4. 5.1定义