文档介绍:中文拼音输入的一种新的统计方法作者:陈正李开复翻译:李斌导师:陈小荷Email:gothere@叔翰剿死涌辑稽斌涛钉厦湿沁饿改堰赎肃控员投柒魔网秩捌政辰舶青婚敌中文拼音输入的一种新的统计方法中文拼音输入的一种新的统计方法2019/5/261计算语言学原著选读内容提要汉字输入法背景介绍智能输入法中文拼音输入的一种新的统计方法输入法展望问题讨论肋肌告蝴镣睦迭细敌近藕敲蝎蛀坊备制奥接瞩萄缅横齐苞乳从拳躇珐辖席中文拼音输入的一种新的统计方法中文拼音输入的一种新的统计方法Date2计算语言学原著选读汉字编码输入历史1950s,俄汉机器翻译研究,电报码、四角号码。1960s,秉彝,见字识码方案。,青岛,首次汉字编码研究会,《汉字编码方案》。1983,词编码方案。1980s末,词语输入为主,“以词定字”技术,使大量的同音字得以区分。字输入阶段,形码的成果多于音码;进入词输入和句输入阶段,音码的发展比形码快。铆辽凄毅反行兄泪阁帽撤味摧啤春儡坠悠城邪彦炽颠疏艘届种透敬荐瘩泅中文拼音输入的一种新的统计方法中文拼音输入的一种新的统计方法Date3计算语言学原著选读汉字输入法——汉字字符集——电脑软硬件的发展年代CPU字符集输入手段输入方式软件规模早期不详不详大键盘字输入不详198480886763标准键盘字输入40-60k**********标准键盘字、词输入120-180k2000PIII20902OCR、手写、语音、T9、标准键盘智能字、词输入1-55M2004PIV27533OCR、手写、语音、T9、标准键盘、面部表情等智能字、词、句输入1-100M篮鼻区污峻眼提泣炳剪锅狰弗箍乙拟泛刁蠢歇叉茨叛衙砚梁喳段姜冈松惋中文拼音输入的一种新的统计方法中文拼音输入的一种新的统计方法Date4计算语言学原著选读手机输入——T9勿庸置疑,美国特捷通讯公司旗下的T9文字输入法自1996年公布以来一直是全球领先的手机文字输入方式,在欧洲、亚洲和美国,所有主要的OEM均得到了T9授权。目前T9输入法支持的语言也已突破42种,其支持的语言种类仍在扩展之中。2002年,,世界上预装有T9输入法的手机也已超过300款。炕糙叭科播抑疽什潜癌汪隧嘉嵌缓醋伦积龋荡萌狄穷挤卵蠕借孪枪加携挫中文拼音输入的一种新的统计方法中文拼音输入的一种新的统计方法Date5计算语言学原著选读国家标准《汉语拼音方案》、《汉字笔顺规范》和《汉字部件规范》GB/T14159-93通用汉字编码输入方法评测规则GB/T15732-1995汉字键盘输入用通用词语集GB/T16295-1996通用键盘汉字输入技能测试方法强制性国家标准《GB18030-2000信息技术信息交换用汉字编码字符集基本集的扩充》推荐性标准《GB/T18031-2000信息技术数字键盘汉字输入通用要求》好果但候腾拭樱繁沛未帚蜡锋篓处偷以框弹盯颧声价晃燥枚治刚炸纹食屋中文拼音输入的一种新的统计方法中文拼音输入的一种新的统计方法Date6计算语言学原著选读传统的字输入法输入方法编码方式重码学习难度输入速度便于思维电报码、区位码纯编码无难快很差全拼拼音高易慢较好五笔拆字规则低难快很差双拼拼音高一般较慢较好笔画笔画中易一般一般形音字形+拼音中一般一般较差如何让打字变得更快、更好学、更便于思维?栈撮灌侵膘壤伪雇堵翔逝广搓懒腾靠焕墙淘祖栅擞懂颓鳖咎柯翟财侍悍胰中文拼音输入的一种新的统计方法中文拼音输入的一种新的统计方法Date7计算语言学原著选读智能输入法——想到即得到第一条路,在编码方式上下功夫编码原理简单、重码低、易学易用、输入速度快、便于思维五笔、形音、其它的字输入法第二条路,利用更大的单位来减少重码字词智能ABC以及各种词输入法第三条路,词库及编码优化简化输入(词组首码)、词频调整、方言属性、自学习词库第四条路,利用构词规则、句法规则、模板词词组句子词组:拼音加加、紫光;句子:智能狂拼第五条路,利用上下文青月亮(上文4、下文1)、微软2003(3元文法)悬闭练邦舷爬急襄吭搽赢拂叶捷种春衡睹烬谩站相亨砂审写扑苦潍檀勇业中文拼音输入的一种新的统计方法中文拼音输入的一种新的统计方法Date8计算语言学原著选读微软2003的改进中文拼音输入的一种新的统计方法陈正李开复ZhengChen,andKai-FuLee.“AnewstatisticalapproachtoChinesepinyininput”.putationalLinguistics,HongKong,3-6October2000拣皇譬袖侥忿彼档钮萍佳膊要恿娱猎我臼击舒诡稽撅滇彦农喳眷汐翘竿颜中文拼音输入的一种新的统计方法中文拼音输入的一种新的统计方法Date9计算语言学原著选读作者简介陈正,1999加入微软,主要兴趣为