文档名称：

基于概率潜在语义分析地音频场景识别方法.pdf

格式：pdf 页数：55页

下载后只包含 1 个 PDF 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

基于概率潜在语义分析地音频场景识别方法.pdf

上传人:beny00001 2016/4/1 文件大小：0 KB

下载得到文件列表

基于概率潜在语义分析地音频场景识别方法.pdf

相关文档

文档介绍

文档介绍：Classified Index: : Dissertation for the Master Degree in Engineering AUDIO SCENE RECOGNITION BASED ON PROBABILISTIC LATENT SEMANTIC ANALYSIS Candidate : Zhou Chenghao Supervisor : Associate Prof. Zheng Tieran Academic Degree Applied for : Master of Engineering Specialty : Computer Science and Technology Affiliation : School puter Science and Technology Date of Defence : Ju ly, 2013 Degree-Conferring- Institution : Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 I 摘要随着音视频网络的飞速发展和人们生活水平的不断提高,各种记录日常生活点滴的音视频文件如潮水般涌现在各大音视频网站,并伴随着人为主题标注的主观性和随意性,以及录制工具带来的音视频质量差异性,给管理和识别这些音视频文件带来巨大挑战。因此,急需有效的智能系统对这些音视频文件进行分门别类的管理,而且,以声音为决策依据的智能系统不仅能在管理和识别音频文件领域有着不可替代的作用,还可以通过分析视频文件的伴音信息对基于视觉的智能系统提供技术支持和补充。音频场景识别是解决以上问题的有效手段之一。音频场景可以看作是刻画和区分音频内容的一种特定的语义标签,它由一系列语义上相关、时间上相邻的声学事件构成。因而音频场景识别实质上是对音频内容语义层面的识别和理解。传统的音频场景识别方法主要分为三类:其一是基于启发式规则的音频场景识别,一般是在提取音频特征之后通过将其与特定的特征阈值相比较来实现分类;其二是基于最小距离的音频场景识别方法,为每类音频场景建立模板,然后通过计算待测音频与模板间的相似度或空间距离进行识别;其三是基于统计理论的音频场景识别,如基于高斯混合模型的音频识别方法和基于隐马尔可夫的音频场景识别方法等。简单来说,上述方法不是直接识别音频场景,而是通过检测与特定音频场景紧密相关的关键声学事件的出现来间接识别音频场景。这种基于关键声学事件的识别策略对实验环境和实验语料的要求较高,在识别相似的音频场景时力不从心,提取或定义相似音频场景的关键声学事件的难度非常大。尽管如此,基于关键声学事件的音频场景识别方法仍然极具借鉴意义,可以通过对共现声学事件的挖掘在广义上对基于关键声学事件的音频场景识别思想进行扩展。参照在文本语义分析中的研究方法,将共现声学事件视为同义词,将出现在多个场景的同一声学事件视为多义词。本文正是针对音频场景识别遇到的问题和需求提出一种消除声学事件同义性和多义性影响的音频场景识别方法,方法的核心是概率潜在语义分析模型。基于概率潜在语义分析的音频场景识别方法的首要步骤是构建声学事件类字典,这一过程主要通过高斯混合模型实现,高斯分量决定了某特征向量隶属哪一个声学事件类;其次是去除具有同义性和多义性的声学事哈尔滨工业大学工学硕士学位论文 II 件对音频场景识别的影响,这一步骤通过概率潜在语义分析模型完成;最后,通过支持向量机模型对概率潜在语义分析模型处理后的音频场景文件进行分类。为了检验基于概率潜在语义分析模型的音频场景识别方法的实验效果,本文以经典的基于长时统计特征和支持向量机模型的音频场景方法作为基线系统,音频长时统计特征在音频场景识别中的意义和支持向量机模型分类稳定性决定了基线系统的比较意义。接下来,本文对基于概率潜在语义分析模型的音频识别方法进行了改进,一方面通过近邻传播聚类算法实现音频场景文件的自由聚类,另一方面引入了音频场景分割的思想,将音频文件转化成由声学事件类按序构成的文件。音频场景分割是通过高斯模型构建的声学事件类字典指导完成,从而实现了完整意义下的基于内容的音频场景识别。研究结果表明,基于概率潜在语义分析的音频场景识别方法能够有效的处理同义的和多义的声学事件类对音频场景识别的影响,基于近邻传播聚类算法和音频场景分割改进的系统的性能有所提升。关键词: 音频场景识别;概率潜在语义分析;声学事件;高斯混合模型; 支持向量机哈尔滨工业大学工学硕士学位论文 III Abstract With the rapid development of audio and works and the continuous improvement of people's livin