最完整的机器视觉培训教程(书签版).pdf
《最完整的机器视觉培训教程(书签版).pdf》由会员分享,可在线阅读,更多相关《最完整的机器视觉培训教程(书签版).pdf(280页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一章第一章 引论引论 人类在征服自然、改造自然和推动社会进步的过程中,面临着自身能力、能量的局限性, 因而发明和创造了许多机器来辅助或代替人类完成任务智能机器,包括智能机器人,是这种 机器最理想的形式,也是人类科学研究中所面临的最大挑战之一智能机器是指这样一种系统, 它能模拟人类的功能,能感知外部世界并有效地解决人所能解决问题人类感知外部世界主要 是通过视觉、触觉、听觉和嗅觉等感觉器官,其中约 80%的信息是由视觉获取的因此,对于智 能机器来说,赋予机器以人类视觉功能对发展智能机器是及其重要的,也由此形成了一门新的 学科机器视觉(也称计算机视觉或图像分析与理解等)机器视觉的发展不仅将大大推动
2、智能 系统的发展,也将拓宽计算机与各种智能机器的研究范围和应用领域 机器视觉是研究用计算机来模拟生物外显或宏观视觉功能的科学和技术机器视觉系统的 首要目标是用图像创建或恢复现实世界模型,然后认知现实世界机器视觉系统获取的场景图 像一般是灰度图像,即三维场景在二维平面上的投影因此,场景三维信息只能通过灰度图像 或灰度图像序列来恢复处理, 这种恢复需要进行多点对一点的映射逆变换 在信息恢复过程中, 还需要有关场景知识和投影几何知识 机器视觉是一个相当新且发展十分迅速的研究领域, 并成为计算机科学的重要研究领域之 一机器视觉是在 20 世纪 50 年代从统计模式识别开始的1,当时的工作主要集中在二维
3、图 像分析和识别上,如光学字符识别,工件表面、显微图片和航空图片的分析和解释等60 年 代,Roberts(1965)通过计算机程序从数字图像中提取出诸如立方体、楔形体、棱柱体等多面体 的三维结构,并对物体形状及物体的空间关系进行描述Roberts 1965Roberts 的研究工作开 创了以理解三维场景为目的的三维机器视觉的研究Roberts 对积木世界的创造性研究给人们 以极大的启发,许多人相信,一旦由白色积木玩具组成的三维世界可以被理解,则可以推广到 理解更复杂的三维场景于是,人们对积木世界进行了深入的研究,研究的范围从边缘、角点 等特征提取,到线条、平面、曲面等几何要素分析,一直到图像
4、明暗、纹理、运动以及成像几 何等, 并建立了各种数据结构和推理规则 到了 70 年代, 已经出现了一些视觉应用系统Guzman 1969, Mackworth 1973, 70 年代中期,麻省理工学院(MIT)人工智能(AI)实验室正式开设“机器视觉”( Machine Vision)课程,由国际著名学者 BKPHorn 教授讲授同时,MIT AI 实验室吸引了国际上 许多知名学者参与机器视觉的理论、算法、系统设计的研究,David Marr 教授就是其中的一 位他于 1973 年应邀在 MIT AI 实验室领导一个以博士生为主体的研究小组,1977 年提出了 不同于积木世界分析方法的计算视觉
5、理论(computational vision),该理论在 80 年代成为机 器视觉研究领域中的一个十分重要的理论框架 可以说,对机器视觉的全球性研究热潮是从 20 世纪 80 年代开始的,到了 80 年代中期, 机器视觉获得了蓬勃发展,新概念、新方法、新理论不断涌现,比如,基于感知特征群的物体 识别理论框架,主动视觉理论框架,视觉集成理论框架等 到目前为止,机器视觉仍然是一个非常活跃的研究领域许多会议论文集都反应了该领域 的最新进展,比如,International Conference on Computer Vision and Pattern Recognition(CVPR); In
6、ternational Conference on Computer Vision(ICCV); International Conference on Pattern Recognition(ICPR); International Conference on Robotics and Automation(ICRA); Workshop on Computer Vision, and numerous conferences of SPIE还有许多学术期刊也包含了这一领域的最 新研究成果, 如, IEEE Transaction on Pattern Analysis and Machin
7、e Intelligence(PAMI); Computer Vision, Graphics, and Image Processing(CVGIP); IEEE Transaction on Image Processing; IEEE 1 Machine Vision and Applications; International Journal on Computer Vision(IJCV); Image and Vision Computing; and Pattern Recognition每年还出版许多研究专集、学术著作、技术报告,举行专题讨论会等所有这些 都是研究机器视觉及其
8、应用的很好信息来源 12 Marr的视觉计算理论的视觉计算理论 Marr 的视觉计算理论Marr1982立足于计算机科学,系统地概括了心理生理学、神经生理 学等方面业已取得的所有重要成果,是视觉研究中迄今为止最为完善的视觉理论Marr 建立 的视觉计算理论,使计算机视觉研究有了一个比较明确的体系,并大大推动了计算机视觉研究 的发展人们普遍认为,计算机视觉这门学科的形成与 Marr 的视觉理论有着密切的关系事 实上,尽管 20 世纪 70 年代初期就有人使用计算机视觉这个名词Binford,1971,但正是 Marr 70 年代末建立的视觉理论促使计算机视觉这一名词的流行下面简要地介绍 Marr
9、 的视觉理论 的基本思想及其理论框架 121 三个层次三个层次 Marr 认为, 视觉是一个信息处理系统,对此系统研究应分为三个层次:计算理论层次,表 示(representation)与算法层次,硬件实现层次,如表 1-1 所示 表 1-1 计算理论 表示和算法 硬件实现 计算的目的是什么? 如何实现这个计算理论? 在物理上如何实现 为什么这一计算是合适的? 输入、输出的表示是什么? 这些表示和算法? 执行计算的策略是什么? 表示与表示之间的变换是什么? 按照 Marr 的理论,计算视觉理论要回答视觉系统的计算目的和策略是什么,或视觉系统 的输入和输出是什么,如何由系统的输入求出系统的输出在
10、这个层次上,信息系统的特征是 将一种信息(输入)映射为另一种信息(输出)比如,系统输入是二维灰度图像,输出则是三维 物体的形状、位置和姿态,视觉系统的任务就是如何建立输入输出之间的关系和约束,如何由 二维灰度图像恢复物体的三维信息表示与算法层次是要进一步回答如何表示输入和输出信 息,如何实现计算理论所对应的功能的算法,以及如何由一种表示变换成另一种表示,比如创 建数据结构和符号一般来说,不同的输入、输出和计算理论,对应不同的表示,而同一种输 入、输出或计算理论可能对应若干种表示在解决了理论问题和表示问题后,最后一个层次是 解决用硬件实现上述表示和算法的问题,比如计算机体系结构及具体的计算装置及
11、其细节从 信息处理的观点来看,至关重要的乃是最高层次,即计算理论层次这是因为构成知觉的计算 本质,取决于解决计算问题本身,而不取决于用来解决计算问题的特殊硬件换句话说,通过 正确理解待解决问题的本质,将有助于理解并创造算法 如果考虑解决问题的机制和物理实 现,则对理解算法往往无济于事 上述三个层次之间存在着逻辑的因果关系,但它们之间的联系不是十分紧密,因此,某些 现象只能在其中一个或两个层次上进行解释 比如神经解剖学原则上与第三层次即物理实现联 2 系在一起突触机制、动作电位、抑制性相互作用都在第三个层次上心理物理学与第二层次 (即表示与算法)有着更直接的联系更一般地说,不同的现象必须在不同的
12、层次上进行解释, 这会有助于人们把握正确的研究方向例如,人们常说,人脑完全不同于计算机,因为前者是 并行加工的,后者是串行的对于这个问题,应该这样回答:并行加工和串行加工是在算法这 个层次上的区别,而不是根本性的区别, 因为任何一个并行的计算程序都可以写成串行的程 序 因此, 这种并行与串行的区别并不支持这种观点, 即人脑的运行与计算机的运算是不同的, 因而人脑所完成的任务是不可能通过编制程序用计算机来完成 122 视觉表示框架视觉表示框架 视觉过程划分为三个阶段, 如表 1-2 所示第一阶段(也称为早期阶段)是将输入的原始图 像进行处理,抽取图像中诸如角点、边缘、纹理、线条、边界等基本特征,
13、这些特征的集合称 为基元图(primitive sketch);第二阶段(中期阶段)是指在以观测者为中心的坐标系中,由输入图 像和基元图恢复场景可见部分的深度、法线方向、轮廓等,这些信息的包含了深度信息,但不 是真正的物体三维表示,因此,称为二维半图(25 dimensional sketch);在以物体为中心的坐 标系中,由输入图像、基元图、二维半图来恢复、表示和识别三维物体的过程称为视觉的第三 阶段(后期阶段) 表 1-2 由图像恢复形状信息的表示框架 名 称 目 的 基 元 图像 光强表示 图像中每一点的强度值 基元图 表示二维图像中的重要信息,主 要是图像中的强度变化位置及 其几何分布
14、和组织结构 零交叉,斑点,端点和不连续点, 边缘片断,有效线段,组合群,曲 线组织,边界 25 维图 在以观测者为中心的坐标系中, 表示可见表面的方向、深度值和 不连续的轮廓 局部表面朝向(“针”基元) 离观测者的距离 深度上的不连续点 表面朝向的不连续点 3 维模型表示 在以物体为中心的坐标系中,用 由体积基元和面积基元构成的 模块化多层次表示,描述形状及 其空间组织形式 分层次组成若干三维模型, 每个三 维模型都是在几个轴线空间的基 础上构成的, 所有体积基元或面积 形状基元都附着在轴线上 Marr 理论是计算机视觉研究领域的划时代成就,但该理论不是十分完善的,许多方面还 有争议比如, 该
15、理论所建立的视觉处理框架基本上是自下而上,没有反馈 还有,该理论 没有足够地重视知识的应用尽管如此,Marr 理论给了我们研究计算机视觉许多珍贵的哲学思 想和研究方法,同时也给计算机视觉研究领域创造了许多研究起点 13 机器视觉的应用机器视觉的应用 机器视觉技术正广泛地应用于各个方面,从医学图象到遥感图像,从工业检测到文件处理, 从毫微米技术到多媒体数据库, 不一而足 可以说, 需要人类视觉的场合几乎都需要机器视觉 应 该指出的是,许多人类视觉无法感知的场合,如精确定量感知、危险场景感知、不可见物体感 知等,机器视觉更突显其优越性下面是一些机器视觉的典型应用 3 (1)零件识别与定位 由于工业
16、环境的结构、照明等因素可以得到严格的控制,因此,机器视觉在工业生产和装 配中得到了成功的应用图 11 是一个具有简单视觉的工业机器人系统示意图,其视觉系统 由一个摄象机和相关的视觉信息处理系统组成摄象机位于零件传输带上方,对于不同的零件, 可以选择不同颜色的传输带,比如,明亮的物体,选择黑色传输带,暗色的零件,选择白色的 背景,这样有利于视觉系统将零件从传输带上分离出来,并进行识别和定位,识别的目的是为 机器人提供是否操作或进行何种操作的信息,定位的目的是导引机器人手爪实时准确地夹取零 件 图 11 用于生产线上具有简单视觉系统的工业机器人系统示意图 (2)产品检验 机器视觉在工业领域中另一个
17、成功的应用是产品检验目前已经用于产品外形检验、表面 缺陷检验, 比如, 滑块及滑槽的外形检验以及装配后的位置检验, 以决定它们能否装配在一起, 并且准确无误地完成装配任务;发动机内壁麻点、刻痕等缺陷检查,以决定产品的质量通过 X 射线照相或超声探测获取物体内部的图像,可以实现内部缺陷检验,如钢梁内部裂纹和气孔 等缺陷检验 (3) 移动机器人导航 我们来看一下图 12 所示的两组图像,每一组图像称为一个立体对(stereo pair) ,是由移 动机器人上的两个摄象机同步获取的,表示某一时刻关于场景的不同视点的两幅图像机器人 利用立体对可以恢复周围环境的三维信息移动机器人可以利用场景的三维信息识
18、别目标、识 别道路、判断障碍物等,实现道路规划、自主导航,与周围环境自主交互作用等将立体图像 对和运动信息组合起来,可以构成满足特定任务分辨率要求的场景深度图这种技术对无人汽 车、 无人飞机、 无人战车等自主系统的自动导航十分有用 比如, 著名的美国 Sojourner 和 Rocky7 等系列火星探测移动机器人都使用了立体视觉导航系统 4 图 12 由移动机器人立体视觉系统获取的立体图像对,可用来重建场景三维信息 (4)遥感图像分析 目前的遥感图像包括三种:航空摄影图像、气象卫星图像、资源卫星图像这些图像的共 同特点是在高空对地表或地层进行远距离成像,但三种图像的成像机理完全不同航空图像可
19、以用普通的视频摄象机来获取,分析方法也同普通的图像分析一样卫星图像的获取和应用随 着成像机理不同而变化很大,气象卫星使用红外成像传感系统可以获取不同云层的图像,即云 图,由此分析某一地区的气象状况;海洋卫星使用合成孔径雷达获取海洋、浅滩图像,由此重 构海洋波浪三维表面图;资源卫星装备有多光谱探测器(multiple spectral sensor, MSS) ,可以获 取地表相应点的多个光谱段的反射特性,如红外、可见光、紫外等,多光谱图像被广泛地用于 找矿、森林、农作物调查、自然灾害测报、资源和生态环境检测等 (5)医学图像分析 目前医学图像已经广泛用于医学诊断,成像方法包括传统的 X 射线成
20、像、计算机层析 (computed tomography, CT)成像、核磁共振成像(magnetic resonance imaging, MRI) 、超声成 像等机器视觉在医学图像诊断方面有两方面的应用,一是对图像进行增强、标记、染色等处 理来帮助医生诊断疾病,并协助医生对感兴趣的区域进行定量测量和比较;二是利用专家知识 系统对图像(或是一段时期内的一系列图像)进行自动分析和解释,给出诊断结果 (6)安全鉴别、监视与跟踪 用机器视觉系统可以实现停车场监视、车辆识别、车牌号识别、探测并跟踪“可疑”目标; 根据面孔、眼底、指纹等特征识别特定人。目前人们正在研究一种面部运动参数的提取和描述, 以
21、分析人的表情及内心活动 (7)国防系统 机器视觉在国防系统中的作用越来越重要,一个理由是满足自主操作的需要,另一个理由 是分析大量先进成像传感器的输出显而易见,在国防系统中迅速作出反应是极其重要的,这 就需要在人工尽可能少的干预下作出各种决策,尤其是与图像和视觉方法有关的各种技术,比 如,图像制导与目标识别等 (8)其它 机器视觉已经用于各种球类运动分析、人体测量,食品,农业、心理学、电视电影制作、 美术模型、远程教育,多媒体教学等场合 14 机器视觉研究内容与面临的困难机器视觉研究内容与面临的困难 机器视觉研究可以分为如下五大研究内容: 输入设备 低层视觉 5 中层视觉 高层视觉 体系结构
22、输入设备(input device)包括成像设备和数字化设备成象设备是指通过光学摄像机或红外、 激光、超声、X 射线对周围场景或物体进行探测成象,得到关于场景或物体的二维或三维数字 化图像获取数字化图像是机器视觉系统的最基本的功能目前用于视觉研究的大多数输入设 备是商品化的产品,如,CCD 黑白或彩色摄像机,数字扫描仪,超声成象探测仪,CT 成象设 备等但这些商品化的输入设备远远不能满足实际的需要,因此,仍有许多研究人员在研究各 种性能先进的成象系统,如,红外成象系统,激光成象系统,还有所谓的计算成象系统 (computational imaging), 即每一个像素元(或若干像素元)对应一个
23、简单的处理器, 这样可以适应 复杂场景动态变化的场合Brajovic 1996 低层视觉(low level)主要是对输入的原始图像进行处理 这一过程借用了大量的图像处理技 术和算法,如图像滤波、图像增强、边缘检测等,以便从图像中抽取诸如角点、边缘、线条、 边界以及色彩等关于场景的基本特征;这一过程还包含了各种图像变换(如校正) 、图像纹理检 测、图像运动检测等 中层视觉(middle level)的主要任务是恢复场景的深度、表面法线方向、轮廓等有关场景 的 2 5 维信息, 实现的途径有立体视觉 (stereo vision) 、 测距成像 (rangefinder) 运动估计 (motio
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 完整 机器 视觉 培训 教程 书签
限制150内