文档介绍:内蒙古师范大学
硕士学位论文
一种面向字形分析的汉字输入输出处理系统的设计与实现
姓名:郑军
申请学位级别:硕士
专业:计算机应用技术
指导教师:林民
20090420
中文摘要随着计算机信息处理技术水平的不断提高及计算机应用领域的日益广泛,对于解决汉字教学中错字和吉籍整理中的异体字等集外汉字的计算机处理问题的需求日益强烈。目前计算机还没有一种面向集外汉字输入输出处理的有效解决方案,本文针对这一问题设计实现了一种面向字形分析的汉字输入输出处理系统,使用该系统可以有效的实现集外汉字输入输出。同时能把手写输入的汉字转换为一种统一的网格字形形式,为字形的比对分析建立基础。首先,这种处理方法采用了把汉字字形看做是一个统一的整体图形这一新思想,而没有采用把汉字字形拆分成基本笔画来处理的传统思想。在新思想的指导下,本文重点研究了手写汉字转化为用于字形分析的网格字形模型的规整化处理方法。经过对手写汉字字形的大小规整、笔画方向规整和点位置规整等步骤最终实现了把手写汉字规整到网格字形模型这一目标。其次,针对生成的汉字网格字形数据,进一步设计实现了一个交互编辑系统。该系统主要由移动笔画、增加笔画和删除笔画等编辑功能组成。该系统在程序设计时使用了纳杓扑枷搿J褂谜呃酶孟低晨以进一步对自动生成的网格字形中不规范或错误的部分进行编辑修改,生成统一规范的网格字形。然后,为了使生成的网格字形也能在文本中显示输出,需要按照字库格式的要求,提取出网格字形的轮廓线。本文研究了网格字形轮廓的自动提取方法,设计实现了一个网格字形轮廓的自动提取算法,通过识别连通区域、抽取区域边界线、边界点有序化和提取特征点等步骤,最终按格式的要求生成了网格字形的轮廓数据。最后,在充分研究了字库中汉字轮廓数据的读写机制的基础上,设计实现了将网格字形轮廓数据写入字库的算法。最终生成了网格字形的字库。利用该字库可以实现网格字形的正常显示输出。关键词:集外汉字,手写输入,网格模型,,内蒙古师范人学硕士学位论文
,,.,,甎—瓵—,琩甈,.瑆瑃琫..
一一酊鷇———————————————————————————一——妤畇篛,内錾直堑篷奎兰堡:生堂垡堡茎琫,.甌,琲,
丝导师签名:々矫该/签名:都肇独创性声明关于论文使用授权的说明或扫描等复制手段保存、汇编学位论文,并且本人电子文档的内容保密的学位论文在解密后也遵守此规定。本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果,尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含本人为获得内蒙古师范大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示感谢。签名:日期:甓嘣履巳本学位论文作者完全了解内蒙古师范大学有关保留、使用学位论文的规定:内蒙古师范大学有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印和纸质论文的内容相一致。日期:年岁月移日。’
第一章绪论课题的研究意义国内外研究概况从年国家こ汉字信息处理系统工程U怪两瘢鹤衷谑淙胧涑处理领域取得了长足发展,涌现出多项重大成果,如汉字激光照排、汉字标准字符集、汉字的编码输入、整句输入、印刷体识别输入、手写识别输入等,汉字输入输出处理技术的成功给我国出版业和办公事务处理带来了巨大的革命,极大地促进了我的提高。但是,汉字在字形处理方面仍存在许多问题没有得到很好地解决。汉字教学研究者需要对错字进行分析研究,但目前计算机没有有效的输入错字古籍整理研究中需要输入异体字,代进去,丢失了很多字形的原貌信息,但往往只能找同义的正体字或其它异体字替对汉字的历史演变及相关研究非常不利民俗文化中也有一些拼合字,如“招财进宝U庑┳治薹既虢扑慊而也无法利用现代信息技术手段进行研究。虽然造字工具能输入这些标准字符集以外的汉字,但操作很不方便,很难自由这些问题直接影响了涉及古籍研究,统的出现。汉语教学与国际推广等领域的信息化建设功能强大的集外汉字字形输入输出软件系目前能够实现汉字输入输出功能的,主要是各种汉字输入法。汉字输入法有几百种,按照汉字编码方法不同可以划分为形码、音码、形音码和音形码四种。所谓的手段【俊输入各种想见的汉字ù碜帧⒁焯遄趾推春献值。而且无法对字形的结构、部件、笔画等构字特征进行深层次的分析处理。与发展,亟待一种操作简便,界面友好,第一章:绪论
汉字编码法,就是用于汉字输入的编码方法,也就是给汉字规定一种便于计算机识别的代码,使每一个汉字唯一对应一个数字串或符号串,从而把汉