文档介绍:南京邮电大学
硕士学位论文
文档图像识别预处理研究
姓名:陈刚
申请学位级别:硕士
专业:电路与系统
指导教师:王厚大
20100401
摘要随着计算机技术的推广应用,人类越来越多的依赖计算机获得各种信息,大量的信息处理工作也都转移到计算机上进行,存在着大量的文字信息处理问题,因而将文字信息快速输入计算机的要求就变得非常迫切。本文将研究重点放在了ご矸矫妫云渲的一些算法提出了自己的改进意见,并且用疌实现算法,进行实验,分析结论。本文的主要工作总结如下:图像二值化方面。提出了一种新的基于数学形态学的二值化算法,用数学形态学的方法将图像背景提取出来,得到零背景的图像,对零背景图像再进行二值化,解决了在图像获取过程中背景不均匀问题。图像倾斜校正方面。选取竖直扫描黑游程的中点为直线拟合的特征点,用最小二乘法进行直线拟合得出倾斜角度,将图像以左下点为旋转中心进行旋转,并按照旋转后新图像的宽、高扩大区域,完成倾斜校正。版面分析方面。提出了一种非文本块优先的方法。该方法,扫描文档图像做连通域搜索,抽取所有的连通域,根据连通域的尺寸特征,优先提取不具备文字结构特征的区域;用数学形态学的方法提取图像、图形区域;用基于投影的方法提取表格区域;最后对余下的文本区域采用改进的基于投影的纵横切割的方法进行版面分析。结果表明该方法能大大提高版面分析的速度,精度也有所提高。闹质侗鸱矫妗J迪只谛〔ǚ治龅奈闹质侗鹩牖诖┰酱问奈闹质侗穑⒏据实际情况文本字符的特点,利用版面分析过程中得到的连通域的结果对穿越次数的计算方法进行了改进。结果表明能有效减少文种识别的运行时间。关键词:预处理,二值化,版面分析,数学形态学,文种识别南京邮电大学·
..;..,.甀.,瑃,瞖甌,畉:珺琇,.
第一章绪论研究背景及其意义现代社会的信息量空前丰富,其中绝大部分信息是以印刷体的形式进行保存和传播的,这使得以键盘输入为主要手段的计算机输入设备变得相形见绌,输入速度低已经成为信息进入计算机系统的主要瓶颈,影响着整个系统的效率。因此,迫切需求一种能将文字信息高速、自动地输入计算机的方法。光学字符识别的概念就是在这种背景下由德国的科学家于年首先提出【浚较衷谝丫嗄甑姆⒄估贰光学字符识别琌】技术是计算机自动、高速的识别纸上的文字,并将其转化为可编辑的文本的一项实用技术。年镜腃和首次发表了汉字识别的文章【浚诘暮鹤质侗鹧芯靠J加甏饕S星寤大学计算机系、中科院自动化所、河北大学、南开大学、北京大学等单位。几十年来,汉字识别研究工作取得了很大进展,探索出许多新方法。大致可以分为三个发展阶段【浚第一阶段从年代末期到年代末期,主要是算法和方案探索。第二阶段是年代初期,中文墒笛槭易呦蚴谐。醪绞涤谩第三阶段也就是目前,主要是汉字识别技术和系统性能的提高。如今,字符识别技术已进入实用阶段,各种汉字识别软件与系统大量涌现,如清华紫光和鮋录入工厂等。实践证明,较高质量的书刊,其识别率大都可以在%以上,印刷质量差的文件识别率则显著下降,有的甚至不到%,在实际中根本无法应用。但是现实环境中,多种原因会产生和存在低质量文档图像。主要原因可归结为两大类】:一类是文本资料本身质量的原因,如纹理背景、版面排列不规整、纸面污渍等:另一类是输入设备的原因,如传真机或复印机的传真复印性能差、照相或摄像器材分辨率低、运动成像等。低质量图像的识别性能已经成为了τ孟低承阅芙徊教岣叩墓丶推烤保预处理结果的好坏直接决定了后续处理的顺利程度,好的预处理效果对提高低质量图像识别的准确率与效率至关重要。因此,对文档图像识别预处理进行研究,具有重要的学术价值和应用意义。南京邮电大学硕士研究生学位论文
研究的应用背景目前字符识别技术已经广泛地应用到了各个领域中。它作为计算机智能接口的重要组成部分,在信息处理领域可以大大提高计算机的使用效率,是办公自动化、新闻出版、计算机翻译等领域中最理想的输入方式;并且将庞大的文档图像压缩成机器内码可以节省大量的存储空间。下面介绍一些以字符识别技术为基础的典型应用,并强调低质量图像的常址侗鹪诎旃远械挠τ谩’目前,办公自动化已成为信息社会的发展趋势。虽然现如今出现了许多电子书、电子报纸等“电子版”刊物,尤其当前的金融危机环境下,国外有多家报社为了节省开支纷纷缩减甚至停止纸质报纸的发行,改发网络版报刊,但是总的来说印刷材料的数量仍然在大大的增加,毕竟阅读印刷材料更为符合人的自然阅读习惯,当前情况下,电子版刊物、书籍只能作为传统印刷材料的一个补充,短期之内不会取代后者。在实际应用中由于传真、复印等环节会导致文本质量的下降,使得低质量文本在办公自动化处理中占有相当大的比址侗鹪谥街实蛋甘只械挠τ谩在信息化的大趋势下,档案馆中保存的大量的纸质类档案,其中有一些利用价值高、年代久远的纸质档案