1 / 15
文档名称:

深度解读智能音箱技术:360度解剖智能音箱的耳朵.docx

格式:docx   大小:154KB   页数:15页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

深度解读智能音箱技术:360度解剖智能音箱的耳朵.docx

上传人:ipod0b 2019/12/7 文件大小:154 KB

下载得到文件列表

深度解读智能音箱技术:360度解剖智能音箱的耳朵.docx

相关文档

文档介绍

文档介绍:深度解读智能音箱技术:360度解剖智能音箱的耳朵————————————————————————————————作者:————————————————————————————————日期: 深度解读智能音箱技术:360度解剖智能音箱的"耳朵"智能音箱产业系列报道导读:最近数月,智能行业第一媒体智东西已深入智能音箱产业链,围绕智能语音交互入口之争和智能音箱之热,连发数篇深度报道,该系列还将覆盖业内数十家关键公司、核心操盘手和热点话题,本文为系列报道之一。如果没有“它”,所有的人工智能设备都是“聋子”,所有的智能音箱都是智障音箱;如果没有它,背后的人工智能技术牛X到天都没用!它是智能设备的“耳朵”——麦克风阵列。“Alexa”,当你对着亚马逊Echo呼唤时,它用顶部的蓝色光环应声相应,“今天天气怎么样”,它就会“听懂”你的意图,用柔和的声音告诉你天气状况。而“听懂”或者“听清”的第一步在于准确的获取用户的声音(即拾音),否则无论云端的虚拟助手多么智能,也是无头苍蝇。麦克风阵列是语音交互的第一步,在智能音箱落地中有关键作用,不仅传统的芯片公司,语音技术巨头和有深厚技术背景的初创公司纷纷加入这一领域。同时,随着智能音箱的火热以及语音交互的盛行,麦克风阵列技术开始走向前台,“XX产品用的是谁家的麦克风阵列”也成为行业中热议的话题;这时我们很有必要看清“麦克风阵列”产品技术的过去现在和产业链现状,也是本文作为智东西智能音箱产业系列报道的主要目的。那么我们经常提及的麦克风阵列究竟是什么?它有哪些类别及作用?哪些玩家参与其中?市场上各家智能音箱使用的麦克风阵列又有什么不同?一、麦克风阵列:拾音简单来讲,麦克风阵列是由2个及以上麦克风按一定规则排列组成,在特定空间对声音进行获取和处理的录音系统,它是远讲语音(超过1米以上)设备的一个关键部分。(注:本文所讨论的为远讲语音设备中的消费级麦克风阵列)麦克风阵列的功能就是拾音。在远讲语音设备中,麦克风阵列通过声源定位、波束形成、噪声抑制、回声消除等远讲算法,有效拾取声音,从而保证具体场景中语音的识别率。具体来讲,以智能音箱为例,在家庭场景中会存在各种噪声等,麦克风阵列的作用就是“众里寻他千百度”,在众多干扰噪声中寻找到你,但只是找到还不够,还需要抑制噪声、消除自身发出声音的影响,并增强你的声音,从而确保在云端进行有效识别,并满足你的任务指令。而拾音又分为远场拾音(1米外)和近场拾音(20cm内)。比如,以Siri为代表的智能手机就是近场拾音,采用的是单麦克风,可在近距离、低噪声的情况下拾取符合语音识别需求的声音。但是一旦将智能手机放在有噪声的较远的距离,Siri的识别率就会直线下降,单麦克风的局限就凸显了出来。而这正是远场拾音和近场拾音的区别,也凸显了麦克风阵列的重要性。不仅如此,由于噪声、混响等因素的存在,远场拾音还要与远讲语音识别算法相匹配,才能真正做到“听清”。二、麦克风阵列中的关键技术在远场拾音中,麦克风阵列可以提供前端信号处理,拾取有效的语音信号输送到云端进行识别。这其中就几项关键的技术:声源定位、波束形成、噪声抑制、回声消除、语音增强。1、声源定位声源定位的任务就是在具体场景中,甚至从噪音中找到发出声音的“你”,以便后续的波束形成。它是基于麦克风阵列对目标信号(声源)的位置探测,确定在特定空间中说话者的位置关系。尤其是在移动场景中,实时的声源定位就显得重要。2、波束形成波束形成是对麦克风阵列中各个麦克风输出的声音进行信号处理,从而形成空间指向性。这种方法会抑制目标声音以外的声音干扰,不仅抑制噪声也包括其他方向的人声。以叮咚音箱的AIUI模式为例,开启了一定时间的多伦对话后,它会优先默认第一个说话者作为它拾音的主方向,从而抑制其他方向的声音,来保证和一个对话者的交互。这也意味着,当前技术下,智能音箱不可能同时和多人进行交互。3、噪声抑制你在卧室中开着电视,是很难唤醒在你床上睡觉的iPhone中的Siri的,这就是它不具备噪声抑制的能力。但你可以唤醒理你较远的智能音箱,这正是噪声抑制的作用。简单来讲,噪声抑制就是在目标信号和干扰噪声中,保留目标声音,削弱周围的噪声,从而保证获取的目标声音信号相对清晰,再结合云端相匹配的语音识别算法,实现有效识别理解。4、抗混响混响就是声源发出后,在空间中经过多次物体(墙壁)的反射和吸收,若干声波混合在一起所形成的现象,它会影响语音信号的处理,声源定位的精度以及语音识别效果。通过远讲算法消除混响是远讲语音设备在拾音环节的关键一环。5、回声抵消回声抵消简单来讲,就是不让语音设备自己发出的声音干扰到拾音过程。比如在智能音箱播放音乐时,你唤醒设备并下达命令,这时麦克风阵列同时采集你发出的声音和正在播放的音乐的声音,而回声抵消就是要去掉其中音乐的声音并保留人的声音,以供

最近更新

2022-2023职技鉴定考试民航乘务员模拟考试(含.. 19页

2020年资料员考试全真模拟试题及答案(共七套).. 41页

2025年矿安全生产先进集体申报材料 5页

基于MATLAB的CO 2弧焊机器人实践教学应用 3页

2025年石方开挖施工技术交底记录试卷教案 3页

2025年疾控中心审计处竞聘报告 8页

2025年电缆防火施工方案 20页

基于DVC和μFEA研究松质骨微观力学行为的方法.. 3页

基于DEA的财政支出效率研究 3页

细胞的分化、衰老、调亡与癌变 35页

基于C#与OpenGL的密集井井眼轨迹三维可视化系.. 3页

2025年电力线路施工方案试卷教案 18页

基于ANP的发电用户对辅助服务价格承受能力综合.. 3页

基于AHP方法的高校科研经费绩效评价指标构建研.. 3页

2025年申请班长竞聘书 9页

域控AD在网络运维中的应用 4页

2025年生活区临时用电施工方案 3页

2025年生产设备及厂房建筑物分工的规定 7页

2025年班组建设问题调研 5页

城区LTE深度覆盖优化探讨 3页

2025年深孔预固结灌浆施工方案试卷教案 31页

2025年浅谈高层建筑施工安全管理现状与对策试.. 4页

2025年商丘学院单招职业技能测试题库精编 61页

2025年长沙电力职业技术学院单招职业技能测试.. 61页

普通动物学第15章圆口纲 26页

2025年湖南城建职业技术学院单招职业技能测试.. 74页

党员出国备案表 1页

中级养老护理员练习题库与答案 15页

2024年山东铝业职业学院单招综合素质考试题库.. 56页

齿轮双面啮合综合测量仪设计含4张CAD图 43页