2013全国数学建模竞赛B题优秀论文.pdf
《2013全国数学建模竞赛B题优秀论文.pdf》由会员分享,可在线阅读,更多相关《2013全国数学建模竞赛B题优秀论文.pdf(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 基于最小二乘法的碎纸片拼接复原数学模型摘要首先对图片进行灰度化处理,然后转化为 0-1 二值矩阵,利用矩阵行(列)偏差函数,建立了基于最小二乘法的碎纸片拼接数学模型,并利用模型对图片进行拼接复原。针对问题一,当两个数字矩阵列向量的偏差函数最小时,对应两张图片可以左右拼接。经计算,得到附件1 的拼接结果为:08,14,12,15,03,10,02,16,01,04,05,09,13,18,11,07,17,00,06。附件 2 的拼接结果为:03,06,02,07,15,18,11,00,05,01,09,13,10,08,12,14,17,16,04。针对问题二,首先根据每张纸片内容的不同
2、特性,对图片进行聚类分析,将209张图片分为 11 类;对于每一类图片,按照问题一的模型与算法,即列偏差函数最小则进行左右拼接,对于没有拼接到组合里的碎纸片进行人工干预,我们得到了 11组碎纸片拼接而成的图片;对于拼接好的11 张图片,按照问题一的模型与算法,即行偏差函数最小则进行上下拼接,对于没有拼接到组合里的碎纸片进行人工干预。我们最终经计算,附件 3 的拼接结果见表 9,附件 4 的拼接结果见表 10。针对问题三,由于图片区分正反两面,在问题二的基础上,增加图片从下到上的裁截距信息,然后进行两次聚类,从而将所有图片进行分类,利用计算机自动拼接与人工干预相结合,对所有图片进行拼接复原。经计
3、算,附件5 的拼接结果见表14和表 15 该模型的优点是将图片分为具体的几类,大大的减少了工作量,缺点是针对英文文章的误差比较大。关键字:灰度处理,图像二值化,最小二乘法,聚类分析,碎纸片拼接2 一、问题重述碎纸片的拼接复原技术在司法鉴定、历史文献修复与研究、军事情报获取以及故障分析等领域都有着广泛的应用。近年来,随着德国“斯塔西”文件的恢复工程的公布,碎纸文件复原技术的研究引起了人们的广泛关注。传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。对于一页印刷
4、文档,针对不同的破碎方法,讨论下列三个问题:(1)将给定的一页印刷文字文件纵切,建立碎纸片拼接复原模型和算法,并针对附件 1、附件 2 给出的中、英文各一页文件的碎片数据进行拼接复原。(2)对于碎纸机既纵切又横切的情形,设计碎纸片拼接复原模型和算法,并针对附件 3、附件 4 给出的中、英文各一页文件的碎片数据进行拼接复原。(3)对于双面打印文档,研究如何进行碎纸片的拼接复原问题。附件 5 给出的是一页英文印刷文字双面打印文件的碎片数据。要求尝试设计相应的碎纸片拼接复原模型与算法,并就附件 5 的碎片数据给出拼接复原结果。二、模型的基本假设(1)待拼接的碎纸片来自同一页印刷文字文件。(2)待拼接
5、复原的碎纸片是规整的矩形。(3)模型中的碎纸片长度、宽度和面积都相等。(4)附件中照片都是同标准拍摄。三、符号说明表 1 符号说明符号符号说明Gray灰度值r红色g绿色b蓝色3 A,B矩阵iD裁截距(=1,2,209)iia裁截文字长度(=1,2,209)iib行间距(=1,2,209)iic裁截空白距离(=1,2,209)iid字体高度(=1,2,209)i四、问题分析将不规则的文档碎纸片进行拼接,一般是利用碎纸片的边缘曲线,尖点、尖角、面积等几何特征,搜索与之匹配的相邻碎纸片。但对于边缘形状相似的碎纸片,这种基于边界几何特征的拼接方法失效,拼接时不但要考虑待拼接碎纸片边缘是否匹配,还要判断
6、碎片内的字迹断线或碎片内的文字内容是否匹配。本问题给定的碎纸片有以下几个特点:1、每一张碎纸片都是规整的矩形;2、所有的碎纸片的长度、宽度都相等,形状是完全一样的;3、每一张碎纸片里都包含着文字(汉字、英文),不存在空白的碎纸片;4、不同的碎纸片之间没有重叠部分。由于碎纸片的形状相同,因而不能针对碎纸片的几何特征建立数学模型;碎纸片间无重叠,也不能利用图像融合技术进行图像配准。根据上述分析,我们考虑将图片进行数字化处理,根据每张碎纸片上的边缘文字特征进行匹配,也就是利用图片边缘文字的像素进行最优化匹配。五、模型的建立与求解5.1 问题一的建模与算法由于碎纸片本身不具有体现其拼接特性的数字特征,
7、我们需要将其数字化、矩阵化,将问题转化为矩阵之间的相关性。4 5.1.1 图片的灰度处理利用photoshop软件,将附件中所给的BMP 格式的图片转化成JPG格式,去除图片的多彩性。为了对碎纸片进行数字化,我们将图像进行灰度处理,取出图像中每一个像素点的灰度值,灰度值的大小与像素点颜色的红绿蓝成分有关。根据文献 1,每个像素点的=0.30+0.59+0.11灰度值红色绿色蓝色,即0.300.590.11Grayrgb,其中,,r g b的取值范围是 0255。问题一将同一页印刷文字文件纵切为19 张图片(见图 1),根据实际情况,我们将每张图片设置为 1980 72格式,于是,每张图片对应一
8、个1980 72的灰度矩阵。图 1 附件 1 未进行拼接的19 张碎纸片5 5.1.2 图片的二值化处理将图片进行灰度处理以后,每个像素的灰度值介于0255之间。灰度值不能直接用于文字图片的拼接,还须进行二值化处理。将图片放入直角坐标系,规定:若(,)x y点的像素灰度值大于或等于T,该点用数值1表示,并将其设定为白色;若(,)x y点的像素灰度值小于 T,该点用数值 0 表示,并将其设定为黑色。由此得到像素点的二值化函数:1,(,),(,)0,(,),Gray x yTw x yGray x yT其中,T 为预先设定的全局灰度阈值。于是,每张图片的灰度矩阵转化为下列198072的0,1数字矩
9、阵:111 721980 11980 72aaAaa,其中1,1,0,0.ija代表空白的像素点代表有文字的像素点5.1.3 最小二乘法1、图片左右拼接的数学模型设,A B 分别表示左右放置的两张图片对应的数字矩阵,定义前一个矩阵的最后一列与后一个矩阵的第一列之间的偏差函数为:198021(,)(,72)(,1),if A BA iB i其中,(,72),(,1)A iB i分别表示矩阵,AB 第 72列和第 1列的元素。对于给定的矩阵A,若存在矩阵B,使得A与B之间的偏差函数(,)fA B达到最小,则称A与B可以匹配,此时A与B对应的图片可以左右拼接。2、图片上下拼接的数学模型类似地,设,C
10、D 分别表示上下放置的两张图片对应的数字矩阵,定义上面矩阵的最后一行与下面矩阵的第一行之间的偏差函数为:7221(,)(1980,)(1,),jh C DCjDj其中,(1980,),(1,)CjDj分别表示矩阵,CD 第1980行和第 1行的元素。对于给定的矩阵 C,若存在矩阵D,使得 C 与D之间的偏差函数(,)h CD达6 到最小,则称 C 与D可以匹配,此时 C 与D对应的图片可以上下拼接。我们称上述基于数字矩阵之间列(或行)距离的图片拼接模型为最小二乘法拼接复原模型。5.1.4 算法与求解(一)算法思想第一步,对附件中的19 幅图片分别进行灰度处理,然后取灰度阈值125T,进行二值化
11、,得到 19 个0,1数字矩阵,即图片的数字化。第二步,对上述 19个数字矩阵进行检测,若存在一个矩阵的最左侧一列元素全是1,根据破碎图片的特点,则该图片即为从左边起第一张碎纸片,记为1A。第三步,计算1A与其余 18 张图片对应矩阵的列偏差值。19802111(,)(,72)(,1),ifABAiB i若存在2A,使得12(,)fAA达到最小,则2A即位第二张图片。重复上述的步骤,依次得到所有碎纸片的排列,即可拼接成完整图片。(二)附件 1、2 的拼接复原结果附件 1 和附件 2 的拼接顺序如下表:(附件 1 的算法程序见附录一,复原图片见附录二;附件 2 的算法程序见附录三,复原图片见附录
12、四)表 2 附件 1 拼接顺序8 14 12 15 3 10 2 16 1 4 5 9 13 18 11 7 17 0 6 表 3 附件 2 拼接顺序3 6 2 7 15 18 11 0 5 1 9 13 10 8 12 14 17 16 4 5.2 问题二的模型建立与算法5.2.1 图片的数字化处理步骤一:将附件所给的BMP 格式图片转换成 JPG格式的图片;步骤二:对图片进行灰度处理;步骤三:然后进行二值化处理;最后,得到 209 张图片的数字化矩阵。5.2.2 聚类分析对于碎纸机既纵切又横切的情形,与问题一仅纵切相比,图片变小,因而每张图片7 包含的信息量明显变小,如果仅利用最小二乘法,
13、碎片之间的匹配不唯一。为了解决这个问题,我们利用聚类分析法,对碎片先进行分类。经观察测试,原始文档碎片具有下列特点:(1)字体大小:字体的最大高度和最大宽度一致。(2)切割的均匀性:同方向的切割线平行,图片大小均相等,沿纵横方向按直线切割。(3)文字的行距:文字的行间距等同,段落间距为定值。为了对 209幅图片进行聚类分析,如图2 所示,我们定义聚类指标如下:ia表示图片上端裁接处的字体长度,我们称之为裁截文字长度;ib为行间距;ic表示图片上端文字与切割线之间的空白距离,我们称之为裁截空白距离;id为字体高度,其中,=1,2,209i。图 2 图片聚类指标示意图令iiiDab或iiiDcd,
14、称iD为第 i 张图片的裁截距(=1,2,209)i,由图 2,如1212,aabb,则12DD。一般地,图片从上往下看,不同的裁截线形成的裁截文字长度不同,文字间的行间距相同,所以,如果裁接处的文字长度不相等,那么文字与空白间距之和就不相等。根据iD的不同取值,下面对图片进行分类。根据二值化矩阵的特点以及文字的特征,只要存在文字,则矩阵的某一行元素一定存在 0 元素,且在文字之间的元素为1。如下图所示:图 3 文字特征图利用matlab软件进行编程,将每个图片的裁截文字长度、行间距、裁截空白距离、字体高度以及裁截距的结果以excel的形式输出到表格之中。(程序见附录五)按裁接距进行聚类分析,
15、使用 spss软件分析处理后,得到聚类中心分布图如下所示:8 表 4 聚类中心聚类中心聚类1 2 3 4 5 6 7 8 9 10 11 V1 7 52 32 120 44 58 133 64 109 69 78 根据表 4 所示的聚类中心,对表格中裁截距进行初步分类。得到聚类结果如下表所示:表 5 每个聚类中的案例数每个聚类中的案例数聚类1 2.000 2 36.000 3 18.000 4 1.000 5 46.000 6 38.000 7 1.000 8 36.000 9 1.000 10 11.000 11 19.000 有效209.000 缺失.000 根据聚类结果发现,并不能将图片
16、平均分成11 个组。这时需要增加信息量来更好地进行分类,进一步观察图2,我们可以发现:图片的上端裁截处可能是文字,也可能为空白。但是裁截距iD可能相等,此时通过图片上端裁截处是空白还是文字加以人工分类。用 matlab将数据导出到 excel中并进行分析,结果如下:图 4 分析结果-100-50050050100150200250高度图片数量9 由图 4 可以看出:图片大体分为 11 个组别,为了得到更精确地聚类结果,通过 spss软件,我们再次确立聚类中心如下图所示:表 6 第二次聚类中心最终聚类中心聚类1 2 3 4 5 6 7 8 9 10 11 V1 25 2 40-38-93-69-
17、84 15 34-23-10 通过上面两次聚类,确立了两个不同聚类中心。利用第一次确立的裁接距的聚类中心对图片进行初步分类,然后利用裁截文字或者裁接空白再次进行判别,最终将图片分成了 11 组。如下表所示:(以上的算法都是在matlab软件下操作,程序见附件六)表 7 各组图片数量组别012345678910111213图片数量3188191918181918181810193由上表可以看出大部分图片已经分出组别,其中有4 个组达到了 19 张图片,有 6个组有 18 张图片,仅缺少一张图片。此时我们进行人工干预,根据每组图片总数目应为 19,且每类都应存在可作为文件左右边缘的碎纸片,我们对少
18、量图片进行归类可得到如下分组结果。如下表:表 8 聚类后的结果组别1 2 3 4 5 6 7 8 9 10 11 图片编号26183341350154111918912421610717402220232414432129322789283626253147663745331014952303539581064453601025461413851771094856711085763504673841105568801136567627482901255970831149169768110794139649385117957286881159714575126132119118788710312
19、8112150921371331231297910010513412115798138152140141961201221351241731041531561461439914213015912718111115816515117811614714816013618217116617015418613116816116914418417217419815518816217916717614918718017520018519016319118919916419720119620219419217719519320318320420620820520710 5.2.3 图片的拼接模型、算法与求解
20、(一)算法思想下面我们分两步来做,第一步,对每组碎纸片进行拼接;第二步,将各组进行拼接。最终完成文件复原。在已知文件切为 1119 的碎纸片情况下,将图片进行聚类分析得到了11 个组后。利用碎纸片左右边缘为空白的特点判断出文件左侧11 个碎纸片,再利用问题一模型和算法,对每个组进行匹配拼接,可得到11 个拼接好的图片,之后仍然按照问题一的模型和算法将这 11 张图片拼接成完整的图片。(二)图片的左边缘确定根据碎纸片边缘特征,利用 matlab对图片处理后得到数字化矩阵,根据最小二乘法进行分析得到 16 个可作为文件左边缘的碎纸片,编号如下:(程序详见附录七)7,14,29,38,49,61,6
21、2,67,71,80,89,94,125,135,143,168。已知文件分为 1119 的碎纸片,那么存在 5 个不是左边缘碎纸片。根据文件页边距一定的特点,此时进行人工筛选,明显排除了编号分别62,67,80,135,143 的图片作为文件左边缘的可能。此刻,我们也得到了左边缘碎纸片的序号:7,14,29,38,49,61,71,80,89,94,125,168。(三)图片的各组拼接第一步,计算机处理,利用问题一的列偏差函数进行图片拼接,现在我们以表4 中的第 9 组为例,得到如下结果:(程序详见附录八)图 6 以第 9 组为例的拼接结果1 第二步,人工干预,由于每组有19 个图片,可以明
22、显观察到排序的时候有一个图片没有出现,而且另一个图片重复出现了两次。此时我们进行人工拼接。得到正确的拼接结果,图片如下:图 7 以第 9 组为例的拼接最终结果其余分组按照相同方法可得到11 组的拼接结果,这里我们不在一一赘述,发现每组的拼接均无误,这说明我们的分类达到了预期的效果。11(四)图片的整体拼接上一步骤中我们得到了1119的碎纸片拼接而成的11个等大小的纸片,那么接下来,根据行偏差函数,判断11个纸片的上下拼接顺序,可以得到以下编号的图片可以上下拼接:308169 3915955062完成以上组合的拼接后,进行人工干预,完成图片的整体拼接,结果如下(复原图片详见附录九):表 9 附件
23、 3 拼接顺序04905406514318600205719217811819009501102212902809118814106101907806706909916209613107906311616307200617702005203616810007606214203004102314719105017912008619502600008701803814804616102403508118912210313019308816702500800910507401412800315908219913501207316020316913403903105110711517609403408
24、418309004712104212414407711214909713616412705804312501318210919701618411018706610615002117315718120413914502906411120100509218004803707505504420601010409817217105900720813815812606817504517400113705305609315307016603219607115608313220001708003320219801513317020508515216502706008914610215411404015120
25、7155140185108117004101113194119123对于附件 4,我们按照与处理附件3 相同的模型和算法进行处理,得到拼接结果表格如下,(复原图片详见附录十):表 10 附件 4 拼接顺序191075011154190184002104180064106004149032204065039067147201148170196198094113164078103091080101026100006017028146086051107029040158186098024117150005059058092030037046127019194093141088121126105155
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2013 全国 数学 建模 竞赛 优秀论文
限制150内