文档介绍:第4章汉字信息处理与汉字输入法
据统计,全世界使用汉字的人数约占世界总人口的36%。虽然汉字是世界上使用人数最多的文字之一,但早期的计算机是不能处理汉字信息的。拼音文字如英文,其单词可以由为数不多的字母通过不同的排列来构成。因此,用计算机来处理就比较简单。而表意文字如汉字,其构成词的符号是独立的。不但符号数量多,而且结构复杂,计算机处理起来就比较困难。
自20世纪60年代以来,日本、中国及其他一些国家相继开展了汉字信息处理的研究。1974年,我国将汉字信息处理研究课题“748工程”列为国家重点工程,研制汉字精密照排系统和汉字情报检索系统。20世纪70年代末到80年代初,我国在汉字基本属性、编码和存储、输入与输出设备和汉字应用系统等方面的研究取得了迅速的进展。尤其是激光精密照排系统已达到世界领先水平,微型机汉字信息处理技术进入了实用阶段,使我国计算机应用的深度和广度都向前迈进了一大步。
汉字信息处理的基本问题
微机汉字信息处理系统的构成和使用
4. 3 拼音码输入法
第4章汉字信息处理与汉字输入法
汉字信息处理的基本问题
文字信息的计算机处理过程
要用计算机来处理文字,必须解决如何把文字输入计算机并在计算机中存储起来,进行适当处理之后再输出文字等问题。首先要解决用0、1代码串表示文字符号的问题,也就是前面提到的编码问题。
以英文信息的计算机处理为例,英文字符的编码标准是ASCII码,即美国信息交换标准代码。这是七位的二进制代码,它是美国国家标准学会(ANSI)为计算机的信息交换提出的标准,后来由国际标准组织(ISO)确定为国际标准字符编码。为了和国际标准兼容,我国根据它制定了英文字符编码国家标准,即GB1988。其中除了将货币符号置换为人民币符号外,其他都与ASCII码相同。
计算机的键盘原本就是为英文输入设计的,只要按照字母击键,就可以输入英文。键盘的译码电路按照所击的键产生英文字符的ASCII码,输入到计算机的内存中。为了对输入的文字进行编辑加工,必须使用相关的应用软件,如Word 2000、WPS 2000,或其他文字处理软件。经过编辑的文本仍然以ASCII码表示。输出时,这些代码必须转换成字符字形的点阵,以便显示或打印。因此,计算机必须存储每个英文字符、数码以及标点符号的点阵信息。这些点阵信息构成了所谓“字模库”。字模库的点阵以有点或无点来表示文字和符号。
文字、符号的点阵信息由显示器或打印机输出时,必须通过相应的驱动程序,将点阵信息转换为显示器、打印机的电子或机械的操作。。
文字信息的计算机处理过程
汉字信息的计算机处理过程与英文信息处理过程是类似的。不过,由于汉字信息的特点,以及要考虑与英文信息处理系统兼容等问题,处理的难度更大。我国经过多年的研究,汉字处理的基本问题已经解决。
汉字编码标准
为了用0、1代码串表示汉字,在汉字系统或通信系统之间交换信息,必须给每个汉字规定一个统一的代码。这就是汉字的交换码。1981年5月,我国国家标准总局颁布了《信息交换用汉字编码字符集》(GB 2312-80),作为汉字交换码编码的国家标准,简称国家标准汉字编码,或国标码。收进该标准的字符共有7 445个。其中一级汉字3 755个,二级汉字3 008个,共计6 763个。一、%。为便于查找,一级汉字按汉语拼音顺序排列;二级汉字一般不易熟记它们的发音,故按部首和笔画排列。另外还包括常用符号、序号、GB 1988图形字符集、日文假名、希腊字母、俄文字母、汉语拼音、注音字符、制表符号等。
返回首页
%的汉字数量接近1万个。为了满足计算机实际应用的需要,我国在GB 2312-80的基础上扩大收字的范围,制定了“汉字内码规范”GBK,包含了20 902个汉字,又称为扩展的国标码。在Windows 95/98和其后的Windows 2000中,装入了GBK的全部汉字和符合GBK和GB 2312-80的输入法。
由于汉字的字符多,一个字节八位二进制代码不足以表示所有的常用的汉字。为了不与西文的ASCII 码混淆,在微型机汉字系统中,国标码的每个符号都用两个字节(十六位)代码来表示,并作为转换为机内码或其他汉字处理代码的依据。