人脸定位系统中图像预处理算法的研究与设计毕业论文.doc
(论文) 摘要 摘 要人脸定位技术在当今社会生活中扮演着相当重要的角色,如视频监控、人机交互、人脸识别、人脸数据库分类管理等业务,均用到了人脸定位这个关键技术。人脸的定位和识别技术是模式识别、计算机视觉和图像理解系统的研究热点之一,它综合了图像理解、计算机视觉、数据库和人工智能等多方面多学科的知识,应用前景广阔,受到了越来越广泛的重视,并得到了迅速的发展,并取得了很多有价值的研究成果。本文首先简要介绍了人脸定位的概念、应用和研究现状,然后对常用的几种色彩空间进行分析比较,选取肤色聚类性较好的YUV色彩空间建立肤色模型,识别肤色区域。由于噪声无处不在,文中对肤色建模后的图像采用先膨胀处理后腐蚀处理来消除噪声块。在确定人脸候选区域阶段,本文主要利用改进的简单种子填充算法确定候选区域。本文阐述了人脸定位系统中图像预处理算法的研究与设计。本文通过VC+编程实现,系统准确率都得到了一定提高。关键词:图像预处理; 人脸定位; 色彩空间; 种子填充; 膨胀; 腐蚀(论文) AbstractAbstractHuman face location plays an important roll in applications such as video surveillance, human computer interface, face recognition, and face image database management. Face location and recognition technology is one of the hottest spots in pattern recognition, computer vision and image understanding system; it has integrated multi-disciplinary knowledge such as image understanding, computer vision, databases and artificial intelligence, and with the rapid development it get more and more attention and has made many valuable research results. In this dissertation,we simply introduce the concept,application and the present research condition of face location firstly,and then analyze several commonly color space,selecting the color of a good clustering YUV color space to establish color model,using this model to recognition color area .Because the noise is everywhere, in this paper the binary image of the first expansion after treatment corrosion treatment to eliminate noise pieces. In determining the face candidate area stage, this paper mainly of improved simple seed filling algorithm to determine a candidate area. This paper expounds the face positioning system of the image preprocessing algorithm research and design. This article through the VC + + realization, system have been must improve accuracy.Key words:Image preprocessing;Face Location; Color Space; Seed Filling; Dilation; Erosion 1 (论文) 绪论绪 论0.1 选题背景及意义在人类的视觉视觉中,人脸具有极其重要的地位,因为人脸不见能够反映人的年龄、身份等人的外部因素,同时还能反映认定额个性心理等内在特质。如同指纹一样,人脸也具有唯一性,可以用来鉴别一个人的身份。这样,利用人脸作为身份验证的途径也就成为人类视觉系统的一个重要功能,成为人与人之间交往联系最主要的依据之 一。 人脸图像身份验证研究如此重要,首先在于,人脸图像身份验证技术具有广泛的应用领域和光明的应用前景。具体来讲有:(1)身份鉴定人脸身份鉴定技术是生物识别技术中的一种,以其直接性,唯一性,方便性等特点在公安,海关,交通,金融,社会保险,医疗及其它民用安全控制系统等领域具有较为广阔的发展前景和很高的社会经济效益。(2)多媒体信息检索 随着因特网技术的迅速普及,网上多媒体信息(如图像,视频)日益丰富,目前在所能应用的信息资源已经非常丰富和庞大,而快速有效地寻找感兴趣的相关信息已经变得日趋困难,采用关键字和描述文本检索的方式已经无法胜任现有需求,基于内容的多媒体信息检索技术应运而生,内容为人脸的图像和视频检索是其中非常重要的部分。(3)智能监控在传统的视频监控系统(如闭路电视系统)中,工作人员需要不断监控屏幕去发现可疑的事件和目标,因此工作量很大而且效率低。在采用人脸检测技术的智能监控系统中,计算机可以在分割、检测出人物目标时自动通知工作人员的介入,从而减轻工作人员的负担并提高效率;计算机还可以对这些目标的运动模式进行一些自动分析,以确定是否为可疑目标。(4)人机交互在人机交互方面,计算机把关于用户身份、状态、意图的信息从图像中抽取出来,然后做出相应响应,比方说观察一个人的面部表情,然后采用不同的方式处理问题。 一般地,人脸信息理解包括以下几个方面的内容:1.人脸定位:检测定位是否有人脸的存在。2.人脸的识别:即将待识别的人脸信息与已知的人脸信息进行匹配从而得到判定结果的过程。 3.人脸的描述:如何抽取并相应的描述和存储一张脸的信息,诸如特征、姿态、表情等等。 4.人脸的主体的类型划分:即通过对人脸的分析,区分出人脸主体所具有的种族、性别甚至职业等不同的类型。对于人脸信息的理解,人脸定位都是其中最关键和重要的一步,也是目前研究最多的一个方面。由于人脸存在外貌,表情,肤色等这些相当复杂的细节变化,在对人脸进行定位时,定位预处理的效果影响着后面定位的效果,所以对于人脸定位预处理算法的研究同样是一个具有挑战性的课题。0.2 国内外研究状况生物识别技术是利用人体生物特征进行身份认证的一种技术。人体生物特征包括指纹、DNA、人脸等。这些生物特征不但是唯一的,而且是可测量的,这使得计算机进行生物特征识别成为可能与其它较成熟的人体生物特征识别方法( 如指纹、DAN检测等)相比,人脸图像具有容易获取、隐蔽等特点,特别是在非接触环境和不惊动被检测人的情况下,人脸识别的优越性远远超过其它识别技术。人脸定位作为人脸识别技术的基础,近年来一直是人工智能和模式识别领域的研究热点。人脸定位问题最初来源于人脸识别,它是自动人脸识别系统中的一个关键环节。人脸定位检测与识别技术的研究最早可追溯到十九世纪法国人Alton的工作。现代的研究,始于60年代末70年代初,在90年代以来成为了研究热点。国外研究人脸定位检测与识别的算法层出不穷,相关杂志上发表的有关方面的论文不下数千篇。1993年,美国国防部高级研究项目署 (Advanced Research Projects Agency)和美国陆军研究实验室(Army Research Laboratory)成立了Feret(Face Recognition Technology) 项目组,建立了feret 人脸数据库,用于评价人脸识别算法的性能。国内在这方面的研究起步于80年代,但发展较快。北京科瑞奇技术开发股份有限公司在2002年开发了一种人脸鉴别系统,对人脸图像进行处理,消除了照相机的影响,再对图像进行特征提取和识别。这对于人脸鉴别特别有价值,因为人脸鉴别通常使用正面照,要鉴别的人脸图像是不同时期拍摄的,使用的照相机不一样。系统可以接受时间间隔较长的照片,并能达到较高的识别率,在计算机中库藏2300人的正面照片,每人一张照片,使用相距1-7年、差别比较大的照片去查询,首选率可以达到50%,前20张输出照片中包含有与输入照片为同一人的照片的概率可达70% 。2002年11月中科院计算所“面像检测与识别核心技术”完成对8000多个人脸的成功识别,通过了由国家专家委员会的鉴定。鉴定结果表明,课题组在人脸检测、面部特征提取、人脸识别与确认等核心技术方面取得重大进展,整体上己达到国外同类产品的先进水平。计算机可在1/10秒到1/20秒的时间内“捕获”人脸,并在1秒内完成识别。该课题组己经与银晨系统有限公司和江苏省公安厅刑警总队成功研制“基于单幅训练图像的多表情人脸自动识别系统”,并通过江苏省科技厅组织的科技成果鉴定.在2004年第17届模式识别国际会议CPR2004组织的人脸认证竞赛FAT2004中,清华大学丁晓青教授领导的智能图文研究室所有三项测试均获第一名。国外的主要研究单位有美国的麻省理工媒体实验室(MIT Media lab)、卡耐基梅隆大学的人机交互学院(Human computer interface institute)、微软研究院的视觉技术研究组(Vision Technology Group)、英国剑桥大学工程系(Department of Engineering)等,国内的研究单位有中科院自动化所、中科院计算所、哈尔滨工业大学、清华大学、浙江大学等。 0.3 人脸定位的研究方法对于人脸定位的研究方法主要有以下几类:1、基于人脸几何特征(主要是基于灰度特征)的定位方法,如Grafetal提出了一种在灰度图像中定位人脸特征及人脸的方法【6】,图像首先经过滤波,然后用形态学方法增强图像的有形高亮度区域(例如说眼睛)。经过处理后图像的直方图有明显的峰值。基于峰值和它的宽度,选择合适的阈值,就能够将原图转化为二值图像。二值图像中互相关联的成分被认为是人脸特征的候选。将那些候选合并起来用分类器进行评价,以确定哪些是人脸以及人脸在哪个地方。他们的这种方法已经经过测试,使用的是 40 个人的头部图像和 5 个视频序列,每个序列包含 100 到 200 帧。然而,该方法没有讲清楚怎样用形态学进行操作以及怎样将候选的人脸特征联系起来定位人脸。 人脸的灰度特征包括人脸的轮廓特征,人脸的灰度分布特征(镶嵌图特征,直方图特征等),器官特征(对称性等),模板特征等。正是因为灰度特征蕴含了人脸大部分的信息,所以它适用于人脸定位。2、基于统计的人脸定位方法。将人脸看作一个多维的矢量,从而将人脸定位的问题转换在多维空间中分布信号的检测问题,如主分量PCA方法应用,特征脸方法是从主成分分析(PCA)导出的一种人脸识别和描述技术。最早将主成分分析方法用于人脸定位识别中的是Pentland7,并因为方法的有效性而很快流行起来。它将包含人脸的图像区域看作一随机向量,采用K-L变换得到正交K-L基,对应其中较大特征值的基具有与人脸相似的形状,因此又被称为特征脸。利用这些基的线性组合可以描述、表达和逼近人脸图像,将人脸图像映射到由特征脸张成的子空间上,并比较其在特征脸空间中的位置。3、利用纹理特征的方法。人脸有固有的纹理,可以用来区分于不同对象。Augusteijn 和 Skufca 开发了一种方法,通过鉴别类似于人脸的纹理推断人脸的存在8。通过使用从 16×16子图像得到的二次统计特征(SGLD)计算出纹理。考虑三种纹理:皮肤、头发、其他。他们使用一种层叠交互神经网络管理纹理分类,并使用一种 Kohonen 组织特征图形成不同的纹理类群。为了从纹理标签推断出人脸的存在,他们建议使用头发和皮肤纹理。然而,文中只告知了纹理分类的结果,而没有讲述人脸的定位和检测。4、Leungetal提出了一种基于局部特征探测器和随机曲线图匹配的概率方法来定位11。他们的出发点是把人脸定位问题作为一个搜索问题来阐明,其搜索的目的是找到某种最象人脸的人脸特征布局。其中用到了五个特征(即两只眼睛、两个鼻孔、鼻子和嘴唇的交接处)来描述一张典型的人脸。对于任意一对相同种类的人脸特征(比如说左右眼睛对),计算出它们的相对距离,然后用高斯分布模拟出所有图像的同种类特征的距离。人脸模版被定义为用一组多方位、多路高斯派生滤波器作用于一个数据库里的一组人脸,其输出结果的平均值。给定一张测试图像,用滤波器对每个点进行匹配,将其与已定模版向量中的相应点进行比较。然后选择可靠率排在一二位的候选特征,将其用来搜寻其他的人脸特征。因为人脸特征的位置不是随意排列的,其他特征的期望位置可以通过使用相对距离的统计模型进行估算。此外,估算值的协方差能够被计算出来。因此,人脸特征的期望位置能够被高效的估算出来。只有合适位置的候选特征组成特征群,至此我们可以确定出最象人脸的特征群。寻找最好特征群的问题就被认为是一个曲线匹配问题,曲线上的点代表人脸特征,弧长代表特征间的距离。特征群的排队是基于一个概率密度函数,一个特征群是否被判断为人脸取决于其是否是人脸的概率。他们使用150幅图像进行实验,对于任意一个特征群,如果它定位到三个或三个以上人脸特征,则认为正确检测到人脸。这个系统的正确定位率达到86。5、基于肤色特征。人类的肤色特征已经被使用,并在从人类检测到跟踪的很多应用中被证明是有效的特征。虽然不同的人有不同的肤色,有几个研究已经表明肤色的主要差别不是在于它们的色 度而主要在于其 亮度。如果肤色模型能够完全应用于不同光照环境,那么肤色信息对于鉴定人脸区域和特定的人类特征是一个有效的工具。然而,当光源光谱有很大差别的时候,那种肤色模型久不再有效。换句话说,由于背景和前景光照的改变,颜色的外观是不稳定的。虽然,颜色的色感一致性问题已经通过基于物理的模型进行详细阐述,但是还是有人提出了几种在不同光照条件下使用皮肤颜色的方法。如McKenna等提出了一种在不同光照条件下使用适应性颜色混合模型追踪人脸9。撇开基于颜色色感一致性的肤色模型不用,他们使用一种随机模型来联机估计对象的颜色分布,该方法能够容忍观察和光照条件的改变。初步结果表明他们的系统能够在一定范围的光照条件下追踪人脸。然而,这种方法不能用于在单张图像中检测多张人脸。 Soriano10等分析了人脸肤色分布情况,他们在黑暗的环境中使用不同的摄像头在4中不同的模拟光线条件下获得白种人和黄种人的人脸图像,提出来颜色模型算法。肤色是人脸的重要信息,不依赖于面部的细节特征,具有相对的稳定性并且和大多数背景物体的颜色相区别。因此肤色特征在人脸定位中是最常用的一种特征。肤色特征主要由肤色模型描述,其主要的色彩空间有以下几种:RGB、CMY、HIS、YIQ、YUV、YCbCr。 6、Craw等提出了一种基于正面人脸的形状模版的定位方法12。首先使用Sobel滤波器提取出边缘。基于几个限制条件将提取出的边缘组合起来,寻找人脸模版。在定位到头部轮廓后,在不同刻度反复使用此相同出来过程定位出眼睛、眉毛、嘴唇之类的特征。随后,Craw等描述了一个定位方法,使用 40个模版用于寻找人脸特征,并用一个控制策略来引导,最后从基于模版的特征检测器中获得检测结果。7、Takacs 和Wechsler 提出了一种有生物根据的人脸定位方法,该方法基于一个视网膜特征提取和眼睛细微运动的模型13。他们的算法当中,用一个模拟人类视觉系统中的神经节细胞的视网膜格子作用于感兴趣区域或突出区域。第一阶段通过对图像进行粗糙的扫描过滤,估计人脸的位置。每个区域包含一定数量的神经元,这些神经元都已经受高斯滤波器的作用,调整到特定方位。第二阶段通过使用更好的策略扫描图像,提炼出突出区域,将人脸局部化。用426 幅图像(其中200 幅取自FERET数据库)进行测试,该方法的错误率为4.96 。8、Sobottka 和Pitas 提出了一种使用形状和颜色进行人脸定位和人脸特征提取的方法。首先,使用HSV 空间中的颜色片断定位似人脸区域。然后通过使用粗糙的方法进行区域增长确定连续区域。对于每个连续区域使用几何矩计算出最合适的椭圆。选择最接近椭圆的连续区域作为候选人脸。接着,在作为候选的连续区域中搜寻人脸特征,验证候选是否是人脸。像眼睛、嘴巴这样的特征,通过观察,它们比人脸的其他区域黑,由此将它们抽取出来。使用高斯肤色模型对肤色像素进行分类。为了表示二值图像中像素族的特征,他们使用傅立叶变换和辐形Mellin 变换计算出 11个低序几何矩。利用抽取出来的几何矩训练一个神经网络用于检测14。9、人脸模型的对称性也被用来定位人脸14。在YES 颜色空间中,使用有条件类密度函数进行皮肤或非皮肤分类,然后进行平滑操作便于产生连接区域。接下来,使用一个椭圆人脸模版,基于Hausdorff距离,确定肤色区域与模版的相似度。最后,利用人脸中眼睛位置固有的对称性,使用几个价值函数,定位出眼睛中心。鼻尖和嘴巴中心的位置则通过它们与眼睛中心的距离来确定。这个方法的缺点是它只对单张正面人脸或两只眼睛都可见的情况有效。而后提出了一个使用颜色和局部对称性的简单方法。0.4 了解MFC的应用程序框架0.4.1 MFC概述MFC(Microsoft Foundation Class Library)中的各种类结合起来构成了一个应用程序框架,它的目的就是让程序员在此基础上来建立Windows下的应用程序,这是一种相对SDK来说更为简单的方法。因为总体上,MFC框架定义了应用程序的轮廓,并提供了用户接口的标准实现方法,程序员所要做的就是通过预定义的接口把具体应用程序特有的东西填入这个轮廓。Microsoft Visual C+提供了相应的工具来完成这个工作:App Wizard可以用来生成初步的框架文件(代码和资源等);资源编辑器用于帮助直观地设计用户接口;Class Wizard用来协助添加代码到框架文件;最后,编译,则通过类库实现了应用程序特定的逻辑。0.4.2 封装构成MFC框架的是MFC类库。MFC类库是C+类库。这些类或者封装了Win32应用程序编程接口,或者封装了应用程序的概念,或者封装了OLE特性,或者封装了ODBC和DAO数据访问的功能等等,分述如下。(1)对Win32应用程序编程接口的封装用一个C+ Object来包装一个Windows Object。例如:class CWnd是一个C+ Window object,它把Windows window(HWND)和Windows window有关的API函数封装在C+ window object的成员函数内,后者的成员变量m_hWnd就是前者的窗口句柄。(2)对应用程序的封装使用SDK编写Windows应用程序时,总要定义窗口过程,登记Windows Class,创建窗口等等。MFC把许多类似的处理封装起来,替程序员完成这些工作。另外,MFC提出了以文档-视图为中心的编程模式,MFC类库封装了对它的支持。文档是用户操作的数据对象,视图是数据操作的窗口,用户通过它处理、查看数据。(3) 对COM/OLE特性的封装 OLE建立在COM模型之上,由于支持OLE的应用程序必须实现一系列的接口,因而相当繁琐。MFC的OLE类封装了OLE API大量的复杂工作,这些类提供了实现OLE的更高级接口。(4)对ODBC功能的封装 以少量的能提供与ODBC之间更高级接口的C+类,封装了ODBC API的大量的复杂的工作,提供了一种数据库编程模式。0.4.3 继承首先,MFC抽象出众多类的共同特性,设计出一些基类作为实现其他类的基础。这些类中,最主要的类是CObject和CCmdTarget。CObject是MFC的根类,绝大多数MFC类是其派生的,包括CCmdTarget。CObject 实现了一些重要的特性,包括动态类信息、动态创建、对象序列化、对程序调试的支持,等等。所有从CObject派生的类都将具备或者可以具备CObject所拥有的特性。CCmdTarget通过封装一些属性和方法,提供了消息处理的架构。MFC中,任何可以处理消息的类都从CCmdTarget派生。针对每种不同的对象,MFC都设计了一组类对这些对象进行封装,每一组类都有一个基类,从基类派生出众多更具体的类。这些对象包括以下种类:窗口对象,基类是CWnd;应用程序对象,基类是CwinThread;文档对象,基类是Cdocument等。程序员将结合自己的实际,从适当的MFC类中派生出自己的类,实现特定的功能,达到自己的编程目的。0.4.4 虚拟函数和动态约束MFC以“C+”为基础,自然支持虚拟函数和动态约束。但是作为一个编程框架,有一个问题必须解决:如果仅仅通过虚拟函数来支持动态约束,必然导致虚拟函数表过于臃肿,消耗内存,效率低下。例如,CWnd封装 Windows窗口对象时,每一条Windows消息对应一个成员函数,这些成员函数为派生类所继承。如果这些函数都设计成虚拟函数,由于数量太多,实现起来不现实。于是,MFC建立了消息映射机制,以一种富有效率、便于使用的手段解决消息处理函数的动态约束问题。这样,通过虚拟函数和消息映射,MFC类提供了丰富的编程接口。程序员继承基类的同时,把自己实现的虚拟函数和消息处理函数嵌入MFC的编程框架。MFC编程框架将在适当的时候、适当的地方来调用程序的代码。0.4.5 MFC的宏观框架体系如前面所述,MFC实现了对应用程序概念的封装,把类、类的继承、动态约束、类的关系和相互作用等封装起来。这样封装的结果对程序员来说,是一套开发模板(或者说模式)。针对不同的应用和目的,程序员采用不同的模板。例如,SDI应用程序的模板,MDI应用程序的模板,规则DLL应用程序的模板,扩展DLL应用程序的模板,OLE/ACTIVEX应用程序的模板等。这些模板都采用了以文档-视为中心的思想,每一个模板都包含一组特定的类。为了支持对应用程序概念的封装,MFC内部必须作大量的工作。例如,为了实现消息映射机制,MFC编程框架必须要保证首先得到消息,然后按既定的方法进行处理。又如,为了实现对DLL编程的支持和多线程编程的支持,MFC内部使用了特别的处理方法,使用模块状态、线程状态等来管理一些重要信息。虽然,这些内部处理对程序员来说是透明的,但是,懂得和理解MFC内部机制有助于写出功能灵活而强大的程序。总之,MFC封装了Win32 API,OLE API,ODBC API等底层函数的功能,并提供更高一层的接口,简化了Windows编程。同时,MFC支持对底层API的直接调用。MFC提供了一个Windows应用程序开发模式,对程序的控制主要是由MFC框架完成的,而且MFC也完成了大部分的功能,预定义或实现了许多事件和消息处理,等等。框架或者由其本身处理事件,不依赖程序员的代码;或者调用程序员的代码来处理应用程序特定的事件。MFC是C+类库,程序员就是通过使用、继承和扩展适当的类来实现特定的目的。例如,继承时,应用程序特定的事件由程序员的派生类来处理,不感兴趣的由基类处理。实现这种功能的基础是C+对继承的支持,对虚拟函数的支持,以及MFC实现的消息映射机制。0.5本文主要研究内容和工作本文研究的是假定图像已经采用某种方式采集好,我们的目标是设计一个能够实现人脸定位预处理的软件。本文所做的主要工作如下:(1)研究了用于人脸定位的多门基础理论如数字图像处理、数学形态学、模式识别等。重点研究了常用的数字图像处理算法,包括图像二值化后的图像处理、色彩空间变换等。(2)查阅了大量文献和资料,在研究近年来一些典型人脸定位算法的基础上,确定进行人脸定位预处理的一系列算法。(3)对文中的图像处理算法在VC下进行编程实现,并进行了仿真试验和结果分析。1 论文) 理论分析第一章 理论分析1.1 数字图像及数字图像处理数字图像又称数码图像或数位图像,是二维图像用有限数字数值像素表示。数字图像是由模拟图像数字化得到的、以像素为基本元素的、可以用数字计算机或数字电路存储和处理的图像。 图像处理就是对图像信息进行加工处理,以满足人的视觉心理和实际应用的需要。简单的说,依靠计算机对图像进行各种目的的处理我们就称之为数字图像处理,其英文名称是“Digital Image Processing”。早期的数字图像处理的目的是以人为对象,为了满足人的视觉效果而改善图像的质量,处理过程中输入的是质量差的图像,输出的是质量好的图像,常用的图像处理方法有图像增强、复原等。随着计算机技术的发展,有一类图像处理是以机器为对象,处理的目的是使机器能够自动识别目标,这称之为图像的识别,因为这其中要牵涉到一些复杂的模式识别的理论。数字图像处理包括以下几项内容。1、点运算点运算主要是针对图像的像素进行加,减,乘,除等运算。图像的点运算可以有效的改变图像的直方图分布,这针对提高图像的分辨率以及图像均衡都是非常有益的。2、几何处理几何处理主要包括图像的坐标转换,图像的移动,缩小,放大,旋转,多个图像的配准以及图像扭曲校正等。几何处理是最常见的图像处理手段,几乎是任何图像处理软件都提供了最基本的图像缩放功能。3、图像增强和复原图像增强和复原的目的是为了提高图像的质量,去除噪声、提高图像的清晰度等。图像增强主要是突出图像中感兴趣的目标部分,如强化图像高频分量,课使图像中的物体轮廓清晰,细节明显;而强化图像低频分量,可减少图像中噪声的影响等。图像复原则要求对图像降质的成因有一定的了解,根据降质过程建立降质模型,然后采用某种滤波方法,恢复或重建原来的图像。4、图像时域频域变换图像变换就是通过时域和频域的变换找到其中的特征,再加以变换的过程。傅立叶变换是最基础的图像变换。在傅立叶变换基础上又有离散余弦变换、沃尔什哈达玛变换和小波变换等。5、图像形态学处理图像形态学是数学形态学的延伸,是一门独立的研究科学。利用图像学处理技术,可以实现图像的腐蚀,细化,和分割等效果。一般图像分割有两种情况,一是图像边缘检测,二是区域分割。边缘检测是最常用的方法,主要是通过边缘检测算子、模板和曲面拟合来达到图像分割的目的。6、图像的编码图像编码研究是属于信息论中信源编码的范畴,其主要的宗旨是利用图像信号的统计特性及人类视觉特性对图像进行高效编码,从而达到压缩的目的,图像编码是数字图像处理中一个经典的研究范畴,有60多年的历史,目前,已经制定了多种编码标准,如H261,JEPG,MEPG等。7、图像分析和理解图像分析和理解是图像处理技术的发展和深入,也是人工智能和模式识别的一个分支。在图像分析和理解中主要有图像的描述和图像的分类识别。图像分类识别属于模式识别(当今的模式识别方法有3种:统计识别法,句法结构,模式识别法,和模糊识别法)的范畴,其主要内容是图像经过某些预处理(增强、复原、压缩)后,进行图像分割和特征提取,从而进行分类判别。数字图像处理技术未来的发展大致可归纳如下:(1) 图像处理的发展将围绕HDTV(高清晰度电视)的研制,开展实时图像处理的理论及技术研究,向着高速、高分辨率、立体化、多媒体化、智能化和标准化方向发展。(2) 图像预图形相结合,朝着三维成像或多维成像的方向发展。(3) 硬件芯片研究。把图像处理的众多功能固化在芯片上,使之更便于应用。(4) 新理论和新算法的研究。如小波分析(Wavelet)、分形几何(Fractal)、形态学(Morphology)等。1.2 色彩空间颜色是自然界事物的一个特性,而肤色是人与其他事物相对稳定的可区别特征。近几年,人脸的初步定位技术已经从单纯的人脸图像灰度转换到图像色彩、色度、饱和度等多种手段相结合。肤色特征在人脸定位技术中越来越广泛的应用主要基于肤色在色彩空间中良好的聚类性。研究显示:尽管不同种族、不同年龄、不同性别的人的肤色看上去不同,但这种不同主要集中在亮度上,在去除亮度的色彩空间里,不同人的肤色分布具有聚类性。因此,彩色图像肤色特征提取的准确性将直接影响到后续的人脸定位研究及相关系统的成功,它是整个人脸定位系统的重要组成部分,是定位系统成功的前提因素肤色区域检测就要涉及到色彩空间与肤色模型的应用,也就是将输入图像的像素值从RGB 原始空间转换到一定的色彩空间并运用相关肤色模型运算判断该像素是否肤色像素。所谓色彩空间,指根据某种关系式将色彩进行表达的一种三维数学空间。所谓肤色模型,也和其他的数学建模一样,它是将色彩空间中的肤色与其他颜色区别开来的一种数学关系模型,即用一种代数的(解析的)或查找表等形式来表达哪些像素的色彩属于肤色,或者表征出某一像素的色彩与肤色的相似程度。几乎所有的肤色检测都对图像进行原始空间RGB 到其他色彩空间的转换,而这并没有增强肤色像素的聚类,相反许多空间转换只是局部而不是全局线性变换,如 HSI,这样可能导致肤色与非肤色区域交叉重叠,影响聚类效果;再者,相关研究运用肤色模型,然后根据概率等特征进行肤色提取,往往会丢失相当部分的肤色像素,导致部分人脸区域无法被定位出来。究其原因,在于色彩空间和肤色模型的选取。1.2.1 RGB空间模型由于彩色图像是光谱图像的一种特殊情况,相应于人类视觉的三基色即,红,绿,蓝三个波段,是对人眼的光谱量化性质的近似,因此用R、G、B 三个分量来表征颜色是一种很自然的格式,而且多数的图像采集设备都是以CCD技术为核心的,直接感知色彩的R、G、B 三分量,这使得三基色模型成为图像成像、显示、打印等设备的基础。一般摄像系统都采用RGB坐标系,图像的颜色一般也用此色系坐标表示。在RGB模型中,人表现出来的颜色受光照的影响,但对同一点,在不同亮度下的相应值是成比例的。RGB颜色空间模型主要应用于CRT 监视器和图形刷新设备中。尽管该颜色空间是最普遍的,但是由于R、G 、B 三色之间存在强烈的相关性,因此在大多数的肤色分割中一般没有直接利用RGB彩色空间,而是利用其变化后的彩色空间进行分割。这个模型基于笛卡尔坐标系统,三个轴分别为 R、G、B,见图2-1。我们感兴趣的部分是个正方体。原点对应黑色,离原点最远的顶点对应白色。在这个模型中,从黑到白的灰度值分布在从原点到离原点最远顶点间的连线上,而立方体内其余各点对应不同的颜色,可用从原点到该点的矢量表示。为了方便我们将立方体归一化为单位立方体,这样所有的R、G 、B 的值都在区间0 ,1 中。RGB颜色空间也可以直接通过线性变化,转化为灰色图像,见公式1-1所示: Gray=0.299×R+0.587×G+0.114×B (1-1) 由于RGB颜色空间中的向量(r, g,b)表示了一种颜色,相同方向,不同模型的向量具有相同的色度,只是亮度不同。颜色(r,g,b)的色度坐标定义为各个分量在R+G+B所占的比例,见公式1-2所示: (1-2)根据这个模型,每个彩色图像包括三个独立的基色平面,或者说可分解到三个平面上。反过来如果一幅图像可以被表示为三个平面,使用这个模型比较方便。 图1-1 RGB空间模型 1.2.2 HSI空间模型HSI彩色空间时一个柱状彩色空间。这种格式反映了人类观察色彩的方式,同时也有利用图像处理。在对色彩信息的利用中,这种格式的优点在于它将亮度I 与反映色彩本质特性的两个参数色度H 和饱和度S 分开。当提取某类物体在色彩方面的特性时,经常需要了解其在某一色彩空间的聚类特性,而这一聚类特性往往体现在色彩的本质上,而又经常受到光照明暗等条件的干扰影响。光照明暗给物体颜色带来的直接影响就是亮度分量I ,所以若能将亮度分量从色彩中提取出去,而只用反映色彩本质特性的色度、饱和度来进行聚类分析,会获得比较好的效果。由图2可以看到,原色是按120度分隔的,二次色与原色相隔60度,这意味着二次色之间也相隔120度,相同水平面上的任意一个彩色点,该点的色调由来自某参考点的一个角度来决定。通常与红轴的 0 度角指定为零色调,从这里开始色调逆时针增长。饱和度是从原点到该点的向量长度。 绿(120 度) 黄(60度) 青(180 度) 红(0 度) 蓝(240 度) 品红(300 度) H S 黑(0.0)图1-2 HSI 空间模型 RGB空间到HSI空间的转换关系见公式1-3所示: (1-3)假设S,I的值在0,1之间R,G,B的值也在0,1之间,则 HSI空间到RGB空间的转换关系如公式2-3所示(分成3段以利用对称性) HÎ0,120 HÎ120,240 (1-4) HÎ240,360 1.2.3 YCrCb 空间模型YCrCb 彩色模型是一种彩色传输模型,主要用于彩色电视信号传输标准方面,广泛地应用在电视色彩显示等领域中。YCrCb 彩色空间模型具有如下优点: (1)YCrCb 色彩空间具有与人类视觉感知过程相类似的构成原理。(2)YCrCb 色彩空间被广泛地应用在电视显示等领域中,也就是许多视频压缩编码,如 MPEG、JPEG 等标准中普遍采用的颜色表示空间。 (3)YCrCb 色彩空间具有将色彩中亮度分量分离出来的优点。 (4)相比 HIS 等其他一些色彩空间,YCrCb 色彩空间的计算过程和空间坐标表示形式比较简单。(5)实验表明在