文档介绍：
语音识别芯片 [语音识别“在路上”]
“钢铁侠”Tony Stark有一位智能管家，人们看不见它，它却无所不知，是居家旅行、拯救世界的必备良物。　　它满足了人类对于“语音识别”排序过程。当一段语音被输入，模型会通过自己的算法，从数据库中寻找匹配度最大的那一句。各家公司不同的“算法”，以及建立起来的基础数据库，成了它们各自在语音识别上的核心技术。
　　一段话是谁说的并不重要，更重要的是它的文本识别率。按照宋謌平的说法，一般能达到90%以上的识别率，大部分的用户都可以接受。

　　要提高准确率，除了数据库和算法，另一个必须解决的问题就是在噪音环境中更准确地分辨出输入的语音。
　　眼下要解决噪音问题一般通过两种办法，一是在训练素材中包括噪音数据，让模型“记住”声音在不同环境下的差异，并在最终识别的时候，对噪音进行降噪处理；另外一种办法，则是识别同样噪声环境里的、没有经过降噪处理的语言。
　　在数据库有可能建立得比较大的情况下，搜集到足够的噪音数据、并在噪音中进行识别是一种最好的办法。但现实是，一般意义上的“噪音”太多。比如汽车的引擎、餐厅中的各种声音，本质上并不相同，但都会对说话人的语音输入造成干扰。对于手机而言，计算和存储能力都有限，建立庞大和复杂的模型并不现实，一般会直接使用降噪处理的办法。
　　早在11012年，一家名为Nuance的公司就看到了语音识别技术的商机。目前Nuance在美国已经开辟出两部分主要市场，包括咨询业务和医疗诊断记录的听写。2022财年，，其中产品销售及授权收入占比46%，产品的使用人数已有1600 万。
　　这家拥有近4000项专利的公司通过提供面向医疗、手机、汽车等企业的语音解决方案盈利。在美国昂贵的人工费用压力之下，包括美联航和大部分医院在内的机构，都开始选择语音听写引擎这样的识别设备，解决部分客户服务和书写病历的问题。

　　将默默埋头赚钱的Nuance推向前台的正是苹果。由于Siri使用了Nuance的语音识别引擎，这家公司开始获得越来越多的曝光。Siri曾在起步阶段使用过其他平台，但最终切换到了Nuance，不知这是否与Siri和Nuance同样出自斯坦福研究院有关。
　　曾有传言苹果与Nuance进行了几个月的接触，试图收购后者，但因其价值连城的专利，以及“在谈判时近乎于乔布斯级别难缠的CEO”，这场收购后来不了了之。苹果通过引入Nuance的语音识别，再将识别之后的信息与其他“知识和资讯类数据库”连接，在人机交互领域发起了一场革命。
　　2022年，通过云端访问Nuance的语音数据库的访问量达到了20亿次。眼下，它们也开始进入中国市场，最新版本的Siri将提供包括普通话、广东话和台湾地区国语的识别。不过中文与英文的识别引擎完全不同，需要重新开发。
　　在中国，还没有形成大规模的语音识别应用市场。国内语音市场占有60%以上份额的是科大讯飞，主要营收也只是来自于语音合成技术。它只是让电脑“念”出文本，在电信公司和银行的呼叫中心里较为常用。
　　微软创始人比尔·盖茨曾在2022年预测，五年之内互联网的搜索大部分将通过语音完成。现在看来，他或许乐观了一些。即使语音识别技术已经能够适于应用，真正的人机交互还有待于语音识别的更深层—语义识别技术的发展。

　　如果从字面上解释，语义识别的意义在于能让机器真正明白信息的含义。当机器听到一个名为“意大利菜”的关键词时，技术优良的语音识别可能会做出搜索意大利菜的反应、或者帮你预订好常去的餐厅，但语义识别则意味着，它还可能明白意大利菜会有