文档介绍:中文拼音输入的 一种新的统计方法
作者:陈正李开复
翻译:李斌
导师:陈小荷
Email:gothere@
6/11/2018
1
计算语言学原著选读
内容提要
汉字输入法背景介绍
智能输入法
中文拼音输入的一种新的统计方法
输入法展望
问题讨论
6/11/2018
2
计算语言学原著选读
汉字编码输入历史
1950s,俄汉机器翻译研究,电报码、四角号码。
1960s,秉彝,见字识码方案。
,青岛,首次汉字编码研究会,《汉字编码方案》。
1983,词编码方案。
1980s末,词语输入为主,“以词定字”技术,使大量的同音字得以区分。
字输入阶段,形码的成果多于音码;进入词输入和句输入阶段,音码的发展比形码快。
6/11/2018
3
计算语言学原著选读
汉字输入法——汉字字符集——电脑软硬件的发展
年代
CPU
字符集
输入手段
输入方式
软件规模
早期
不详
不详
大键盘
字输入
不详
1984
8088
6763
标准键盘
字输入
40-60k
1992
486
6763
标准键盘
字、词输入
120-180k
2000
PIII
20902
OCR、手写、语音、T9、标准键盘
智能字、词输入
1-55M
2004
PIV
27533
OCR、手写、语音、T9、标准键盘、面部表情等
智能字、词、句输入
1-100M
6/11/2018
4
计算语言学原著选读
手机输入——T9
勿庸置疑,美国特捷通讯公司旗下的T9文字输入法自1996年公布以来一直是全球领先的手机文字输入方式,在欧洲、亚洲和美国,所有主要的OEM均得到了T9授权。
目前 T9输入法支持的语言也已突破42种,其支持的语言种类仍在扩展之中。2002年,共有 ,世界上预装有T9输入法的手机也已超过300款。
6/11/2018
5
计算语言学原著选读
国家标准
《汉语拼音方案》、《汉字笔顺规范》和《汉字部件规范》
GB/T 14159-93 通用汉字编码输入方法评测规则
GB/T15732-1995 汉字键盘输入用通用词语集
GB/T16295-1996 通用键盘汉字输入技能测试方法
强制性国家标准《GB18030-2000 信息技术信息交换用汉字编码字符集基本集的扩充》
推荐性标准《GB/T18031-2000 信息技术数字键盘汉字输入通用要求》
6/11/2018
6
计算语言学原著选读
传统的字输入法
输入方法
编码方式
重码
学习难度
输入速度
便于思维
电报码、区位码
纯编码
无
难
快
很差
全拼
拼音
高
易
慢
较好
五笔
拆字规则
低
难
快
很差
双拼
拼音
高
一般
较慢
较好
笔画
笔画
中
易
一般
一般
形音
字形+拼音
中
一般
一般
较差
如何让打字变得更快、更好学、更便于思维?
6/11/2018
7
计算语言学原著选读
智能输入法——想到即得到
第一条路,在编码方式上下功夫
编码原理简单、重码低、易学易用、输入速度快、便于思维
五笔、形音、其它的字输入法
第二条路,利用更大的单位来减少重码
字词
智能ABC以及各种词输入法
第三条路,词库及编码优化
简化输入(词组首码)、词频调整、方言属性、自学习词库
第四条路,利用构词规则、句法规则、模板
词词组句子
词组:拼音加加、紫光;句子:智能狂拼
第五条路,利用上下文
青月亮(上文4、下文1)、微软2003(3元文法)
6/11/2018
8
计算语言学原著选读
微软2003的改进
中文拼音输入的一种新的统计方法
陈正李开复
Zheng Chen, and Kai-Fu Lee.
“A new statistical approach to Chinese pinyin input”.The 38th Annual Meeting of the Association putational Linguistics, Hong Kong, 3-6 October 2000
6/11/2018
9
计算语言学原著选读
作者简介
陈正,1999加入微软,主要兴趣为机器学习、信息检索、语音识别、自然语言处理、多媒体信息检索、个人信息管理、人工智能。在清华大学计算机系获得学士、硕士、博士学位。
6/11/2018
10
计算语言学原著选读