1 / 17
文档名称:

语音识别芯片 [语音识别“在路上”].docx

格式:docx   大小:33KB   页数:17页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

语音识别芯片 [语音识别“在路上”].docx

上传人:文档百货 2022/6/9 文件大小:33 KB

下载得到文件列表

语音识别芯片 [语音识别“在路上”].docx

文档介绍

文档介绍:
语音识别芯片 [语音识别“在路上”]
“钢铁侠”Tony Stark有一位智能管家,人们看不见它,它却无所不知,是居家旅行、拯救世界的必备良 物。   它满足了人类对于“语音识别”排序过程。当一段语音被输入,模型会通过自己的算法,从数据库中寻找匹配度最大的那一句。各家公司不同的“算法”,以及建立起来的基础数据库,成了它们各自在语音识别上的核心技术。
  一段话是谁说的并不重要,更重要的是它的文本识别率。按照宋謌平的说法,一般能达到90%以上的识别率,大部分的用户都可以接受。










  要提高准确率,除了数据库和算法,另一个必须解决的问题就是在噪音环境中更准确地分辨出输入的语 音。
  眼下要解决噪音问题一般通过两种办法,一是在训练素材中包括噪音数据,让模型“记住”声音在不同环境下的差异,并在最终识别的时候,对噪音进行降噪处理;另外一种办法,则是识别同样噪声环境里的、没有经过降噪处理的语言。
  在数据库有可能建立得比较大的情况下,搜集到足够的噪音数据、并在噪音中进行识别是一种最好的办法。但现实是,一般意义上的“噪音”太多。比如汽车的引擎、餐厅中的各种声音,本质上并不相同,但都会对说话人的语音输入造成干扰。对于手机而言,计算和存储能力都有限,建立庞大和复杂的模型并不现实,一般会直接使用降噪处理的办法。
  早在11012年,一家名为Nuance的公司就看到了语音识别技术的商机。目前Nuance在美国已经开辟出两部分主要市场,包括咨询业务和医疗诊断记录的听写。2022财年,,其中产品销售及授权收入占比46%,产品的使用人数已有1600 万。
  这家拥有近4000项专利的公司通过提供面向医疗、手机、汽车等企业的语音解决方案盈利。在美国昂贵的人工费用压力之下,包括美联航和大部分医院在内的机构,都开始选择语音听写引擎这样的识别设备,解决部分客户服务和书写病历的问题。










  将默默埋头赚钱的Nuance推向前台的正是苹果。由于Siri使用了Nuance的语音识别引擎,这家公司开始获得越来越多的曝光。Siri曾在起步阶段使用过其他平台,但最终切换到了Nuance,不知这是否与Siri和Nuance同样出自斯坦福研究院有关。
  曾有传言苹果与Nuance进行了几个月的接触,试图收购后者,但因其价值连城的专利,以及“在谈判时近乎于乔布斯级别难缠的CEO”,这场收购后来不了了之。苹果通过引入Nuance的语音识别,再将识别之后的信息与其他“知识和资讯类数据库”连接,在人机交互领域发起了一场革命。
  2022年,通过云端访问Nuance的语音数据库的访问量达到了20亿次。眼下,它们也开始进入中国市场,最新版本的Siri将提供包括普通话、广东话和台湾地区国语的识别。不过中文与英文的识别引擎完全不同,需要重新开发。
  在中国,还没有形成大规模的语音识别应用市场。国内语音市场占有60%以上份额的是科大讯飞,主要营收也只是来自于语音合成技术。它只是让电脑“念”出文本,在电信公司和银行的呼叫中心里较为常用。
  微软创始人比尔·盖茨曾在2022年预测,五年之内互联网的搜索大部分将通过语音完成。现在看来,他或许乐观了一些。即使语音识别技术已经能够适于应用,真正的人机交互还有待于语音识别的更深层—语义识别技术的发展。










  如果从字面上解释,语义识别的意义在于能让机器真正明白信息的含义。当机器听到一个名为“意大利菜”的关键词时,技术优良的语音识别可能会做出搜索意大利菜的反应、或者帮你预订好常去的餐厅,但语义识别则意味着,它还可能明白意大利菜会有