文档介绍：Automatic Speech Recognition
语音识别技术（ASR）
侯国涛
比尔·盖茨近日在接受采访时表示，“PC诞生30年来最重要的行业创新是自然界面的进化，包括图形用户界面、语音识别、手势和触控界面。”对于一般用户来说，通过语言进行交流是最直接、最自然的一种方式。那么语音识别技术的原理是什么，目前的发展状况如何，又有哪些有趣的应用呢？
简单地说，语音识别主要包括3个步骤：
1、对输入的语音进行特征提取
2、将提取的语音信号与计算机内的语音模型进行匹配
3、将匹配结果进行输出或转化为特定的指令
虽然语音识别的难度很大，但是目前还是取得了一些进展。其中最有影响的机构是IBM和微软。短句、少量词汇的语音识别已经实现了商业化，针对非特定人、自然语言的语音识别也有了长足的进步。
自然语音难以识别
语音信息量太大
语音的相似性、模糊性
语音易受上下文、时间、环境的影响
背景噪音的影响
语音识别的主要难点
语音识别技术的应用领域非常广泛，例如工业控制、教育、通信等。这里选取了一些比较有趣的应用案例来阐述。
上面三款产品分别是Qrobot、Karotz和Kinect。这三款娱乐产品中都应用了语音识别技术，其中最为知名的是微软的Kinect，它支持英语和日语两种语言输入，可以实现游戏的开启、退出、跳换以及游戏角色的控制。Kinect语音识别技术中最大的亮点是它能够有效地避免噪音的干扰和识别出特定玩家的语音。为了实现这些，kinect上安装有三个麦克风，同时还有专门的软件来配合摄像头准确识别玩家的位置。
微软在它应用更多的Windows 7操作系统中同样内置了语音识别功能。通过该功能，用户可以语音实现各种常用的操作，包括选择、打开及关闭程序，浏览网页等。而最强大的是它还能实现文本的语音输入，特别是配合word软件，能够轻松实****大量文字的口语输入，识别的准确性也较高，这对于盲人、肢体残疾者以及文盲等来说，无疑提供了极大的方便。更让人高兴的是，Win7的语音识别是支持中文的，而且还不需要普通话特别标准。
Android能够在智能手机领域取得绝对领先的优势，很大程度上得益于它能够支持更多有趣、实用的应用。安装有Voice Search的Android手机能够实现许多有趣而便捷的功能，例如直接说出联系人姓名后对其呼叫，口语输入短信后发送，直接说出地名后Google Earth进行定位，语音浏览网页，语音选择歌曲等。这样的应用无疑更进一步拉近了手机与用户之间的距离。Google的竞争对手苹果当然也不甘落后，iPhone 4不仅能支持中文，甚至连广东话也不冷落。只可惜苹果的语音控制的能力还是弱了点，只能语音控制拨打电话和播放音乐。
最新的语音识别研究不仅仅限于单纯的语音信号的分析，而是结合面部识别来更加精确地分析用户所传递的信息（Audio Visual Speech Technologies）。这方面比较有代表性的机构有IBM以及雅典的National Technical University 等。
相关链接：
/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB