文档介绍:东南大学
硕士学位论文
基于内容的音乐哼唱检索系统关键技术研究及实现
姓名:吴天银
申请学位级别:硕士
专业:信号与信息处理
指导教师:陈阳
20090227
摘要随着数字音乐技术的迅猛发展和手机等移动设备存储容量的增加,如何快速、有效地检索音乐信息成为迫切需要解决的问题。传统基于文本的检索方法,只能对有标注的数据信息进行检索,这需要人工先对这些信息进行描述和分类,随着数据库容量的不断增大,人工输入标注属性的方法不能满足人们对海量信息的需求,且人工对音乐的描述属性高度主观,难以表达蕴藏在音乐数据中丰富的内容以及内容感知描述的直观性。此外,随着数据容量的增加,用户很难记住所有数据的描述信息。因此,希望找到一种更加方便、快速的检索方法。基于内容的检索方式不依靠标注信息,它从新的角度来管理音乐信息。根据音乐中的旋律、音高、节奏等信息进行检索。哼唱式音乐检索是基于内容的音乐检索方法之一,它允许用户通过哼唱的方式来查找所需的歌曲。本文以此展开研究工作,要实现基于内容的哼唱式音乐检索系统必须对三个方面的内容进行研究。首要问题是如何从哼唱信号中有效的提取旋律特征信息。由于哼唱音符的准确切分,即音高提取和音长切分的准确与否直接影响查找效果,因此这是哼唱音乐检索系统的关键问题之一,本文中采用了基于凸出度的音符切分方法;其次,如何从复合音、多音轨乐曲中提取主旋律特征信息,我们采用了当前大部分哼唱检索系统广泛使用的单音轨的数据库;最后,就是如何提高检索的速度。本文中通过对线性伸缩、动态时间规整及字符串相似匹配算法的性能比较,在试验部分观察了它们在检索上的识别效果,讨论他们的优点和缺点。我们对线性伸缩算法进行一定的改进,提出了分段线性伸缩算法,很好的解决了哼唱不一致的情况;我们还讨论了基于歌唱片段的不定长分割方法用于哼唱片段的模糊匹配。关键词:旋律特征提取,哼唱检索,音高提取,线性伸缩,动态时间校正,字符串模糊匹配
,鷇∞∞辒辀鷌鷗鮯砌舉啪∞肿∞磇,゛即郴椭∞瞅椰玖璽猟纳俞賕穙餱伽鷏颗鬿姐蝒哆∞膁辡緇恤衑矗辴鷓耫籱小舡衧仃鷌币∞鹏她,蚯蒪缸粥疞盯,—鉪舔矽也%鷇锄.,Ⅵ恤鉨柚獻’閏甒譻,Ⅱ器辸∞讯瓼吐璐篗托、,琱∞,群衜懿伞辌猧多筘,餭膖騟铲讲、Ⅳ—瑚雐絤瑁釉ヘ甌砖停琣“溃—膖轎鱥—代鮝辌琲∞№觮烤蒼∞ⅲ琣瓾’
研究生签名:』象二盟日期:上竺烨导师签名:琶星皇生日期:二竺蝴东南大学学位论文独创性声明东南大学学位论文使用授权声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布以电子信息形式刊登畚牡娜ú磕谌莼蛑小⒂⑽恼R5炔糠帜谌荨B畚牡墓ú包括以电件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质子信息形式刊登谌ǘ洗笱а芯可喊炖怼研究生签名:
,有视觉、听觉、触觉和味觉等方面的感知。在视觉方面,可以感知位置、运动、颜色、纹理、形状、符号等;在听觉方面,可以感知位置、运动、音调、音量、旋律等;另外还有触觉档摹⑷鹊摹⒌绲摹⒓∪庠硕矫娴和嗅觉丁⑽兜赖。除了视觉、触觉和嗅觉外,人们可以从听觉中获得许多信息,如我们日常收听的电台节目、欣赏的音乐、聆听的自然声响等。有许多与音频相关的应用,如音频数据库、广播、音频编辑、监控、在线音乐等。音频是多媒体中的一种重要媒体。我们能够听见的音频频率范围是~綡术渲杏镆舸约分布在綢之内,而音乐和其他自然声响是全范围分布的。声音经过模拟设备记录或再生,成为模拟音频,再经数字化成为数字音频。数字化时的采样率必须高于信号带宽的叮拍正确恢复信号。样本可用换槐忍乇硎尽以前的许多研究工作涉及到语音信号的处理,如语音识别。机器容易自动识别孤立的字词,如用在专用的听写和电话应用方面,而对连续的语音识别则较困难,错误较多,但目前在这方面已经取得了突破性的进展,同时还研究了辨别说话人的技术。这些研究成果将为音频信息的检索提供很常规的信息检索研究主要是基于文本,例如我们已经非常熟悉的诸如和百