1 / 52
文档名称:

中文复杂版面分析方法.pdf

格式:pdf   页数:52页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

中文复杂版面分析方法.pdf

上传人:2024678321 2015/1/30 文件大小:0 KB

下载得到文件列表

中文复杂版面分析方法.pdf

文档介绍

文档介绍:摘要:关键字:的影响;丛忧蚪峁沟挠跋臁1疚恼攵砸陨纤睦嗬逊直鹛岢隽私饩龇桨福⒔文档图像理解、版面分析、中文版面分析、自底向上与自项向下结合是把纸介质上的信息转变成讨‘算机能够理解和编辑的信息,以方便保存和使用。在际跻丫嗟蓖晟频慕裉欤婷娣析成为文档图像理解工作中一个十分关键的问题。中文版面分析研究历史比较短,再加本文针对报纸等复杂版面提出了一个新的中文版面分析方法。该方法是自底向七和自顶向下方法的结合,吸取两种方法的优点。本文的一个突出特点是把造成中文版面分析困难的原因分为四类:;淖址较虿蝗范些方案结合在一个完整的版面分析流程中。试验结果表明该版面分析方法有相当好的效文档图像理解之中文在字符和排版方式上不同于英文使得中文版面分析有其自身的难点,所以对中文版面分析方法的研究是很有价值的。果。
琇::甦;甦..,甆瓹.,瑂甌—..,瑃.,瑀甌,猟瓼
第一章引言。’文档溪像璎髂豹意义键楚在入炎文麓妖淫串,蠢上千霉豹耩尊润娣蔗镬瓣纸奔矮寒黎载镶惑鹣,覆麓这憋承惑,会极大方便绉怠的保存和使爝。骚凳成遽~任务,使髑人工输入的方法浸然是不磷行的。所以我们簧寻求~耪方法让计辫极能够固韵竞成纸介质锫塞戮憩予媒体锖惠骢转第一章弓在辔兰滔酌各个方筒中,我夹枰4褰踊蟆H锎砘蟊4嘧苎噱鞴镆欢в嗾稹T颤,我们糖声音介蕨记录猩磁带上,我们整文字溪靖倚惑记袋在缀章杂悫上慈厝死文明随不断进步,承载僖怠的介质也在不傍魂更鞭抉代。扶豢石,竹简等初级介灏发麟到恕纸作为主攥的信息记录介质,蕊来又出现了磁带,唱片等柬承羧声裔信恿郊扑撬鹣出璇,为僚惑鹃传递,保存和检索掇珙了藤匏飞越。蕊今,瞧子媒体琶经娥为人们获取镲惑酶羹袋渠邋,电子媛《奉以旗方便、抉犍、铃廉、可震复馕臻、节省资源簿特点,受裂了人嬲黪广‘滋欢遴。载蔼息瀚羝夯臻静数爨还程戳缀麓的瀵度蹭长。绦存这鏊缎夯震释梭索其串色雷憨傣慧已经变成了一谗十分囡滚的事情。箍翔纂能把这些纸介质上煞髂怠转燮为电子媒体傣化。文档燃稼溅解技术黢遁麓生。文撼豳豫理解娩称邃渤文攫处臻≤赴菊5悴鞘呛持交嵴鹜辽烦患,辩缀绥,象惑,芙澹亮璧龋w旖涫ḿ讲匕竟涣w瓯嗉盹螅網襁,牡档龋握唔晔昱饺镒鹤喉攴界芗焖鳌交辎溺稼壤瓣妻簧筵建立在光学字符谈象,技术的蒸獭之上。孤零瞧缀六十年代起,人、ぴ贠方蕊做了太鬣骢研究,魏筒,技术已经糊当成熟,对予印剩体豹英文,识掰率~般都能繇%上,究垒可以满足熨际的鬻要∨璒技零圭嚣是钵对文零瓣识剃,它只鼹娥壤投食文字愚文字规则撼蹶的文档图像,箍程实际应餍申,这撵的缎竣鼹然跫不成立熬。髓饕穗版羧拳的不凝撬蕊√旯桨牯采<滔鹪嚼丛礁丛印X魂蠼识惆辏腼晟J剂伺裣蹙认箦鹆拙俊’
.、那些文字区域属于同一篇文章等。在相当多的应用中,要求文档图像理解系统的结,是由图像中物理组件及其关系决定的。物理组件包括:字符,文字行,文字区域,图像区域,或者表格区域等。物理组件之间的关系包括:位置关系纾翰考在部件淖蟊和包含关系纾鹤符包含在文字行中、文字行包含在文字区域中N牡低枷竦穆呒峁乖谝欢ǔ潭壬鲜由阅读者决定的,它包含了各个物理组件逻辑关系:部件在文档中角色纾罕晏狻⒄文或插图男┎考粲谕黄N恼拢约霸亩了承虻取自动版面处理分析文档图像的版面结构,所以由文档图像的两种类型的版面结构就得出了自动版面处理的两个阶段:版面分析。版面分析是抽取文档图像的物理结构,其目标是把文档图像划分成若,并且标定各个区域的属性纾何字、图像、表格等0婷胬斫馔瓿纱游锢斫峁沟铰呒峁沟挠成洌淠勘晔潜甓ǜ鞲和版面理解也不是完全隔离的两个阶段,在某些系统中,它们也是彼此有覆盖的。比如,在本文中提到的方法里,在版面分析中会把文字区域区分为标题和正文,这就相当于区别了文字区域在文档的逻辑结构中的不同地位,当然这样的区分也是建立在标题和在际醴⒄贡冉铣墒斓奶跫拢远婷娲砉ぷ鞫晕牡低枷窭斫饧际醯姆⒄褂上取决于版面分析的结果⋯·即能否正确的对文档图像进行区域拆分,以及对拆分的图像能否氯返谋昝魇粜即是图还是文6遥牡低枷竦穆呒峁共⒚挥幸桓雒魅返第一章引言自动版面处理的主要作用有两个方面:首先,自动版面处理要把输入文档图像切割成若干简单文本粗话じ鲎只蚣父鲎值耐枷区域,以便于氖侗鸸ぷ鳌A外,文档图像理解的目的并不仅仅是为了把纸介质上的字转化为计算机能理解的机器编码,我们还希望从文档图像中得到更多的信息,比如标题和正文的区分、阅读顺序的确果鏦募文件等鼙3趾褪淙氲奈牡低枷裼邢嗤陌婷娼峁埂W远婷处理的第二个作用就是抽取出文档图像的版面结构。所有的文档有两种版面结构:物理结构和逻辑结构。物理结构,也称为几何结构桶婷胬斫干个不相交的同质区域区域的逻辑属性,文章的层次关系和阅读顺序等。但是,在自动版面处理中,版面分析正文区域有不同的物理性质的基础上的。重要的意义。版面分