文档介绍:摘要说话人定位与跟踪是人机交互研究中的重要课题,在视频会议系统、多媒体系统以及机器人等领域有着广泛的应用。通常,基于计算机视觉的人脸或人体跟踪方法与基于计算机听觉的声源定位方法都可作为解决说话人定位与跟踪问题的基本手段。然而,这些单模态的定位与跟踪方法难以适应复杂的动态环境,人脸跟踪方法容易受到视频遮挡以及光照、姿态变化等因素的影响,而背景噪声与房间混响则制约着声源定位方法的性能。因此,采用信息融合技术对说话人的音视频双模态信息进行处理,则成为提高说话人定位与跟踪系统精度与鲁棒性的重要手段。音视频联合说话人定位与跟踪是计算机听觉与计算机视觉相互融合的一个重要方向,其目的是综合利用说话人的音频与视频信息来估计说话人的空间位置。本文对音视频联合说话人定位与跟踪问题进行了深入研究,取得的研究成果如下:ǘ啻ǜ衅餍畔⑷诤霞际跤糜谒祷叭硕ㄎ挥敫傥侍猓岢隽艘恢只诙叶斯网络的音视频联合说话人定位与跟踪方法。在动态贝叶斯网络框架中,该方法分别采用麦克风阵列声源定位、基于肤色的人脸跟踪以及音视频互信息最大化三种感知方式获取与说话人位置相关的测量信息;然后采用粒子滤波对这些信息进行融合,通过贝叶斯推理实现说话人的有效跟踪;并运用信息熵理论对三种感知方式进行动态管理,以提高跟踪系统的实时性。ḿ尤ㄗ涌占淠夂纤惴ㄓτ糜诼罂朔缯罅猩炊ㄎ晃侍猓岢鲆恢挚泶尤ㄗ空间拟合声源定位方法。该方法在贝叶斯估计理论框架下,结合语音信号的宽带特性,构造了一个适用于语音信号的目标函数,采用粒子滤波对该目标函数进行全局优化,从而有效地确定声源的空间位置。酆峡悸怯镆艚⑿藕庞胨祷叭嗽硕P驮谝种品考浠煜熘械淖饔茫岢鲆恢基于分层采样粒子滤波的麦克风阵列声源跟踪方法。在实际的中小型房间环境中,由于墙壁、地面、桌面的反射作用,麦克风阵列接收到的语音信号中通常含有混响成分,从而影响声源定位与跟踪系统的性能。基于分层采样粒子滤波的声源跟踪方法从语音信号中提取出无混响的建立信号,将其作为观测信息来计算麦克风阵列波束形成器的输出能量,同时考虑语音信号不同频率成分在声源定位中的作用,采用分层采样方法提高粒子的采样效率,从而增强跟踪系统的实时性。悸堑剿祷叭舜蕉畔⒍杂镆舾兄5脑銮孔饔茫ǹ墒佑镆粢胗镆籼崛∥侍猓提出了一种基于粒子滤波的双模态语音提取方法。双模态语音提取方法在粒子滤波框架下,根据音视频互信息与语音峭度来确定分离矩阵,从而实现语音信号的有序提取。大连理工大学博士学位论文
知识水坝***@pologoogle为您整理
衑琣甌甌甀猇,.··..⑽鰐琲..Ⅱ.·
知识水坝***@pologoogle为您整理
作者签名:坌垦壶日期:丝呈:笪:笸独创性说明作者郑重声明:本博士学位论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。,
芋—型辍!暝隆;ト作者签名:金墨益大连理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。导师签名:大连理上大学博士研究生学位论文
斯网络融合说话人的音视频信息,如图所示。图中五、妫麦克风阵列获取的两路仁褂昧礁雎罂朔缬胍桓錾阆窕袢∷祷叭说囊羝涤胧悠敌畔ⅲ⒗昧W勇波进行信息融合【】来确定说话人的空间位置。与訨姆椒ḿ右愿慕使用W勇瞬ń行畔⑷诤希以谏刹裳W佑爰扑懔W尤ㄖ盗礁龉讨均使用说话人的音频与视频信息,从而增强了系统的跟踪能力【H鹗緿工智能感知研究所U沟腁项目根据说话人的音频信息生成采样粒子,融合音频与视频信息来计算粒子权值【G寤4笱旃忪锝淌谔岢龅娜诤戏椒ㄔ谏刹裳粒子与计算粒子权值两个过程中都利用说话人的音频与视频信息,使得音频信息在系统中的地位与视频信息对称,更好地发挥了二者的互补性【仁褂枚喔錾阆窕多对麦克风,利用粒子滤波跟踪说话人的三维空间位置凹】。捎帽匆端雇缛诤肤色、唇动等信息进行说话人检测【⑷硌芯吭旱腂炔捎帽匆语音信号,硎旧阆窕杉耐枷裥畔ⅲ琭为时间延迟,,,.,M枷衿揭疲琣,’,分别为原始语音与图像。学移与时间延迟之间关系的标定过程包含在参数学习过程中,该方法通过贝叶斯推理计算后验概率,,,从而确定说话人的位置【俊T诙喔錾辞榭鱿拢珹采用贝叶斯网络检测音频事件产生的时间与位置