欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    HOG特征下的财务报表图像识别-精品文档.docx

    • 资源ID:17832257       资源大小:19.86KB        全文页数:8页
    • 资源格式: DOCX        下载积分:8.88金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要8.88金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    HOG特征下的财务报表图像识别-精品文档.docx

    HOG特征下的财务报表图像识别摘要:在财务领域,纸质报表向电子报表的转换需要大量的人工和时间成本。本文探究了纸质财务报表的自动识别经过,通过预处理、表头和表格区域的分割提取、单元格分割、字符提取与识别、表格复原等经过实现报表图片的转换,在实现报表信息便捷存储和查询的同时,也克制了人工录入的低效率、高成本等缺点。实验结果表明,该算法能有效实现图像的倾斜校正,且无需设置提示框限定拍摄范围;能有效分割表格格式的字符,其准确率为99.3%,无需手动框选待识别字符;字符识别准确率为93.7%,其中数字识别的准确率为97.8%,总体字符识别准确率相较Tesseract提升了8.1%。关键词:纸质财务报表;单元格分割;字符分割;训练样本制作;字符识别报表以其直观的数据显示作用在财务领域有着广泛的运用,然而大量的纸质文档不仅不便存放,而且报表信息会随着时间推移变得难以确认。为此,本文研究了一种光学字符识别方法,扫描纸质财务报表,然后通过字符识别算法将其中的数字和汉字转换成计算机文字以便分析和使用。目前市场上成功的光学字符识别OpticalCharacterRecognition,OCR软件有:汉王科技1、清华文通TH-OCR、赛酷文档秘书、丹青、蒙恬、FineReader2和Google的开源OCR项目Tesseract等,这些OCR软件有着很高的识别率,并广泛应用于身份证识别3、银行卡识别、名片识别、文档识别、报刊杂志数字化应用等。但在财务报表识别中,这些OCR软件会受表格线、倾斜角度、背景环境、光线条件等因素的影响,无法准确地对单元格进行分割或需要手动框选待识别字符,且一些OCR软件需要注册或付费,给使用造成不便。针对这些问题,本文设计研究了一套智能化程度高、适应性强、成本低的财务报表识别算法,采集图像时对报表摆放的位置和倾斜状态能够不做太多要求,算法能适应不同的外界环境,对于复杂的背景条件能很好地处理,有较强的适应能力。1整体流程本文财务报表识别流程如图1所示。图像预处理:主要包括图像灰度化、二值化、倾斜校正等经过,是图像信息和字符提取的前提,直接影响后续处理的效果。表头和表格区域的分割提取:表头定义报表类型,表格区域定义报表内容,将含表格线的表格区域与不含表格线的表头区域分割开进行单独处理。单元格分割:根据表格区域特点,定位水平、垂直线,利用线段相交特性,提取出单元格区域。字符提取与识别:采用一维投影的方式,根据像素分布情况对字符进行分割。选取财务报表常用字作为训练样本,然后提取样本方向梯度直方图HistogramofOrientedGradient,HOG特征,利用支持向量机SupportVectorMachine,SVM分类器,对数字和汉字进行识别。表格复原:将识别结果存储为excel,以便查询和使用。2报表处理与识别经过2.1图像预处理图像预处理4是在识别前所做的前期处理,其目的在于抑制无关信息、突出重要信息。本文所用的图片为相机拍摄的财务报表图片,其光线复杂且存在不同程度的倾斜,需要通过预处理来改善图像数据。其经过包括图像灰度化、二值化、倾斜校正。图像灰度化能够在保证图像信息完好性的前提下降低图像处理的数据量,提高识别速度,二值化5能够减少干扰信息,提高识别精度,图像自适应阈值二值化效果如图2b所示。在图像采集的经过中,纸质报表摆放的位置、拍摄的角度等因素可能会造成图片的倾斜,这些倾斜会对后续的分割和识别工作造成干扰,所以需要进行倾斜校正。财务报表的表格区域有明显的表格线,利用多边形逼近6的方式得到表格区域的4个顶点如图3a中圆圈所示。通过透视变换7对图像进行倾斜校正,其原理为:2.2表头和表格区域的分割提取对报表中的字符进行提取和识别时需要去除表格线的影响。整张财务报表能够大致分为含表格线区域和不含表格线区域,本文通过定位表格线来实现单元格的定位,在这之前需要对表格区域和表头区域进行分割。报表图片中面积最大轮廓的外接矩形为表格区域,根据轮廓位置提取感兴趣区域RegionOfInterest,ROI即可获得。表头区域不含表格线,以表格区域的位置信息作为参考,根据表格区域外接矩形的顶点坐标和矩形的width能够计算出表头区域四个顶点的位置,提取感兴趣区域即可获得表头区域。2.3单元格分割2.3.1表格线提取结合自定义核,运用形态学算子,通过选择核的大小和形状,构造一个对输入图像的特定形状敏感的形态学运算得到表格的水平线和竖直线8,将表格水平线和竖直线合并得到如图4所示的整体的表格线。2.3.2单元格提取在表格区域中,利用线段相交特性,水平、垂直表格线互相相交,构成闭合区域,即寻找的单元格区域,记录其位置信息,提取如图5b所示的单元格。2.4字符提取与识别2.4.1字符提取财务报表的字符信息由汉字和数字组成,考虑到汉字中存在分隔较开的上下构造和左右构造,不能通过找连通域或直接对二值图进行一维投影的方式分割字符。例如“二、公、利等汉字,上述方式分割后得到只是字符的一部分,进而影响识别结果。本文先对单元格二值图进行膨胀和腐蚀操作,然后再利用一维投影的方式对字符进行分割。在实际运行经过中,按上述操作分割后可能会出现相邻字符互相牵连的情况如图6d所示,因而对分割后的轮廓需判定其外接矩形长宽比,根据实际情况,设定基准值为1.5,对于长宽比超过该值的轮廓进行二次分割。一幅N×M的二值图可用矩阵表示为:2.4.2字符识别字符识别主要有模板匹配法和人工神经网络9。前者因特征维数过大会导致识别速度慢,后者需考虑网格输入数据选择和网络构造设计问题10。图像特征11有矩特征、颜色特征、边缘轮廓特征、方向梯度直方图等,其中HOG特征具有几何和光学转化不变性12,所以本文通过HOG+SVM的方式对字符进行识别,识别经过为:选取财务报表常用字作为字符模板,制作训练样本集,提取训练样本集的HOG特征,每个特征向量标有指定其类别的标签,将特征向量输入SVM进行训练,得到SVM模型,然后将待识别字符归一化后提取方向梯度直方图特征,加载训练模型进行预测,得到识别结果。识别经过如图7所示。财务报表包含:利润表、现金流量表、资产负债表3种类型。选取财务报表常用字323字宋体作为字符模板,将其归一化到20*40的字符模板,并对单个的模板进行角度为-5°5°、缩放系数为0.51的仿射变换,每一个字符模板有66张训练样本。此外,为数字09制作了相邻数字样本集100张,整个训练集共22318张样本。仿射变换原理13可表示为:根据实际运行情况,设置HOG特征14的窗口大小:20×40像素、块大小:4×4像素、块滑动增量:4×4像素、胞元大小:4×4像素、一个胞元中统计梯度的方向数目:9,HOG特征的维数为450维,根据字符识别流程分别对不同背景环境和倾斜角度下三种类型的财务报表宋体进行识别。2.5表格复原将识别结果根据单元格的位置对应复原成如图8所示的excel表格,存储在计算机中,方便以后的查询和使用。3测试结果与分析在实际运用中,由于三种类型的财务报表都有相对固定的格式,有经历的财务人员会很熟悉其中的汉字部分,所以数字识别是本文主要研究的内容,通过统计105张如图9所示的不同版式、不同倾斜角度、不同光线和背景环境下的财务报表,字符宋体识别率为93.7%,其中对数字的识别率到达97.8%。资产负债表由于版式为纵向,且字符较多,识别准确率较其他两种表有所降低。由于财务报表识别主要是对数字的识别,所以通常的语义矫正在此处的作用并不明显,在实际运用中,字符识别的结果能够通过人工核对的方式进行校正,由此能够大大降低手动录入造成的人员时间和精神的消耗。为比照实验结果,利用Google开源的tesseract-ocr15进行测试,由于表格格式、背景环境、倾斜角度等因素的限制,tesseract-ocr在对表格进行版面分析时存在众多问题,此处将利用本文算法分割好的单个字符结合tesseract-ocr自带的字符库进行识别,识别结果比照如表1所示。从表1能够看出,本算法对于带表格格式的字符能较好地分割和识别。在利用tesseract-ocr识别时,输入图片能够是整张报表图片、整个单元格或单个字符,表格线和倾斜角度等因素对于tesseract的字符分割造成了很大影响,所以在识别前需要自行分割。tesseract-ocr可以以本人训练字符库,但生成的字典很多识别出来的是空字符,由于tesseract库可能会将单个字符识别成多个部分或将多个部分识别成一个字符,此时需要手动点击Merge、Split16-18等操作,校正经过特别繁琐,给实际操作带来不便。4结束语本文对财务报表的识别进行了研究,通过预处理、表头和表格区域的分割提取、单元格分割、字符提取与识别、表格复原等处理步骤,实现了纸质财务报表的预处理、分割、识别和复原,对倾斜校正、字符分割等算法的实现进行了特殊情况的处理,以适应多种复杂的环境条件,是一套可靠、稳定的财务报表识别算法。该方法可以以扩展运用于银行卡识别、名片识别、文档识别等,有较好的可扩展性。今后会对除宋体外的其他字体进行样本集的训练,以适应多种字体的财务报表识别需求。

    注意事项

    本文(HOG特征下的财务报表图像识别-精品文档.docx)为本站会员(安***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开