文档介绍:2017-1-3 计算语言学原著选读 1中文拼音输入的一种新的统计方法作者:陈正李开复翻译:李斌导师:陈小荷 Email:gothere@ 2017-1-3 计算语言学原著选读 2内容提要?汉字输入法背景介绍?智能输入法?中文拼音输入的一种新的统计方法?输入法展望?问题讨论 2017-1-3 计算语言学原著选读 3汉字编码输入历史? 1950s ,俄汉机器翻译研究,电报码、四角号码。? 1960s ,秉彝,见字识码方案。? ,青岛,首次汉字编码研究会, 《汉字编码方案》。? 1983 ,词编码方案。? 1980s 末,词语输入为主, “以词定字”技术,使大量的同音字得以区分。?字输入阶段,形码的成果多于音码;进入词输入和句输入阶段,音码的发展比形码快。 2017-1-3 计算语言学原著选读 4汉字输入法——汉字字符集——电脑软硬件的发展 OCR 、手写、语音、 T9 、标准键盘、面部表情等 OCR 、手写、语音、 T9 、标准键盘标准键盘标准键盘大键盘输入手段 1-55M 智能字、词输入 20902 PIII 2000 1-100M 智能字、词、句输入 27533 PIV 2004 120-180k 字、词输入 6763 486 1992 40-60k 字输入 6763 8088 1984 不详字输入不详不详早期软件规模输入方式字符集 CPU 年代 2017-1-3 计算语言学原著选读 5手机输入—— T9 ?勿庸置疑,美国特捷通讯公司旗下的T9文字输入法自1996年公布以来一直是全球领先的手机文字输入方式,在欧洲、亚洲和美国,所有主要的O EM均得到了T9授权。?目前 T9输入法支持的语言也已突破42种,其支持的语言种类仍在扩展之中。2002年,共有 ,世界上预装有T9输入法的手机也已超过300款。 2017-1-3 计算语言学原著选读 6国家标准?《汉语拼音方案》、《汉字笔顺规范》和《汉字部件规范》? GB/T 14159-93 通用汉字编码输入方法评测规则? GB/T15732-1995 汉字键盘输入用通用词语集? GB/T16295-1996 通用键盘汉字输入技能测试方法?强制性国家标准《 GB18030-2000 信息技术信息交换用汉字编码字符集基本集的扩充》?推荐性标准《 GB/T18031-2000 信息技术数字键盘汉字输入通用要求》 2017-1-3 计算语言学原著选读 7传统的字输入法较差一般一般中字形+拼音形音一般一般易中笔画笔画较好较慢一般高拼音双拼很差快难低拆字规则五笔较好慢易高拼音全拼很差快难无纯编码电报码、区位码便于思维输入速度学习难度重码编码方式输入方法如何让打字变得更快、更好学、更便于思维? 2017-1-3 计算语言学原著选读 8智能输入法——想到即得到?第一条路,在编码方式上下功夫?编码原理简单、重码低、易学易用、输入速度快、便于思维?五笔、形音、其它的字输入法?第二条路, 利用更大的单位来减少重码?字?词?智能 ABC 以及各种词输入法?第三条路,词库及编码优化?简化输入(词组首码)、词频调整、方言属性、自学习词库?第四条路,利用构词规则、句法规则、模板?词?词组?句子?词组:拼音加加、紫光;句子:智能狂拼?第五条路,利用上下文?青月亮(上文 4、下文 1)、微软 2003 (3元文法) 2017-1-3 计算语言学原著选读 9微软 2003 的改进?中文拼音输入的一种新的统计方法?陈正李开复? Zheng Chen, and Kai-Fu Lee. ?“ A new statistical approach to Chinese pinyin input ”.The 38th Annual Meeting of the Association for Computational Linguistics, Hong Kong, 3-6 October 2000 2017-1-3 计算语言学原著选读 10 作者简介?陈正, 1999 加入微软,主要兴趣为机器学习、信息检索、语音识别、自然语言处理、多媒体信息检索、个人信息管理、人工智能。在清华大学计算机系获得学士、硕士、博士学位。