1 / 7
文档名称:

中医古籍数字化生僻字的处理.doc

格式:doc   页数:7页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

中医古籍数字化生僻字的处理.doc

上传人:ying_zhiguo02 2015/8/26 文件大小:0 KB

下载得到文件列表

中医古籍数字化生僻字的处理.doc

相关文档

文档介绍

文档介绍:中医古籍数字化生僻字的处理
摘要:中医古籍数字化生僻字的处理是一项基本而又关键的技术,目前普遍存在缺字的现象,给中医古籍的阅读和研究造成障碍。本文分别从字符集、字库、输入法等方面,分析了集内字缺字产生的原因和解决方案,并探讨了集外字的处理方法。
关键词:中医古籍;数字化;生僻字
doi: .2095-
Investigation of Digitization of Rare Words Processing in Ancient Traditional Chinese Medicine Literature
Gao Jingjing
(Institute of Traditional Chinese Medicine of Zhejiang Province, Hangzhou Zhejiang 310007, China)
Abstract: Digitization of rare words processing in Ancient Traditional Chinese Medicine(TCM) literature is a basic and key technology. The prevailing phenomenon of missing words creates obstacles to reading and research of ancient TCM literature. The article analyzed the cause of missing words, offered solutions, and discussed processing methods of missing words out of the character set from the aspects of character set, font, and input methods.
Key words: ancient TCM literature; digitization; rare words

中医古籍承载着祖国医学数千年文明的绵延,是中医学传承、发展、创新的源头活水。中医古籍数字化,可以通过全文录入与网络共享,解决中医古籍作为一种不可再生资源而存在的借阅困难、容易损伤的问题,对比传统的手工检索,又极大地提升了查询的效率,使中医古籍得到了更广泛和更有效的利用,近年来颇受重视,发展迅速。在数字化进程中,对生僻字的处理直接影响到古籍阅读的质量和检索的效果,目前存在的问题主要是缺字现象。对于传统的纸质版发行与单机版的数字化,缺字可以通过自己造字或图片替代的方案解决。但是对于全文网络版数字化,使用自造字会在通用性上受到限制,而图片替代则导致检索困难,其解决方案需要进一步的研究与探讨。
1字符集与编码
字符集是各种文字和符号的集合,如包含英文字母的ASCⅡ字符集、包含简体中文的GB2312字符集、包含繁体中文的BIG5字符集等。计算机要准确地处理各种字符集文字,需要对字符进行编码,以识别和存储各种文字。随着中文信息处理技术需求的不断发展,国家标准总局发布了一系列的“信息交换用汉字编码字符集”。但由于各国文字