文档介绍:痳”甃⋯.一一⋯.⋯⋯一一:.⋯篢.:。一⋯:—猚
—————.唬:,、,
学雠文储签名泉键学位论文作者躲康暌指导撕虢。⒛晟显拢慈力如年上月/口保密,在一年解密后适用本授权书。晗缭拢日河北科技大学学位论文原创性声明河北科技大学学位论文版权使用授权书本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品或成果。本人完全意识到本声明的法律结果由本人承担。本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权河北科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于,尉不保密。朐谝陨戏娇蚰诖颉啊獭指导教师签名:\
一‘一一薄!摘要⋯一⋯’一。一⋯摘妻随着互联网信息量的爆炸式增长,当今的时代已经成为了信息的时代,信息检索技术也在逐步趋向成熟,信息检索工具搜索引擎也层出不穷。但是用搜索引擎检索信息并不总是让用户满意,一方面由于任何一个搜索引擎都不可能覆盖互联网上的所有网页,这样就会致使用户检索不到所需要的信息;另一方面由于搜索引擎自身的因素,没能氯纷既返睦斫庥没У挠镆舛贾碌牟宦阌没У募焖餍枨螅涣硗猓由于搜索引擎用户逐年增加,人群遍及各行各业,年龄从老到幼,他们使用搜索引擎的方法不当引起没能检索到有用信息。所以近年来研究搜索引擎技术的学者越来越多,最终的目的是使搜索引擎使用起来能够更加的方便。作为河北省教育厅年度科学研究计划,本课题研究的是基于自然语言的智能检索接技术的研究以及在高等艺术教育网中的应用,在课题中主要针对自然语言的处理以及利用语音进行输入进行了研究,重点做了以下工作:数据采集,主要在网络上采集艺术类网页,并对网页内容进行分析提取,再将网页标题、『牡扔杏眯畔⒋嫒胧蚩狻T网页采集过程中,使用了在网页中的去噪方法,将网页信息的标题和内容等有用信息提取出来,为后续的检索打下基础。利用语音进行检索输入,语音输入能让用户在检索过程中更加的方便。将语音识别技术引入到搜索引擎,,同时还能够使一部分特殊人群缡植可瞬姓使用搜索引擎检索信息。在研究过程中,采用了不同的方法进行尝试,语音识别功能实现后通过不断训练使识别准确率达到了一个用户可以接受的效果,并和其他的语音引擎进行了比较评判。自然语言处理,课题主要从疑问句的检索和重定向的研究两个方面进行设计,使得系统的搜索引擎有较高的使用价值,并通过实验证明了系统引擎的优劣。关键词信息检索;搜索引擎;数据采集;语音识别;自然语言处理⋯·.
⋯一...‘⋯一一。R弧灰弧甌瑃’,.,甌甐瓵’甆猻.—,,痗甀琣‘甌,——,,,’’一一一一‘一‘‘R弧
;籹
目录第滦髀邸!课题意义和应用前景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯”课题的主要工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯”章节安排⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯“第滦畔⒓焖飨喙毓ぷ髯凼觥信息检索概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·.⒓焖鞯钠兰壑副辍概念检索⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·搜索引擎⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·.乃阉饕妗目录搜索引擎⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯··.K阉饕妗自然语言处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯··.诰淠5募际酢ぁ问答系统⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯语音技术概述⋯⋯⋯⋯⋯⋯⋯:⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一第轮悄苄畔⒋淼男畔⒉杉ひ概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯网页爬取策略⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·信息的提取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·.杏眯畔⒌奶崛有用信息的存储⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验结果与分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯蚪椤去噪⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·Ⅳ...~‘一
.ト」⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯”第滤阉饕嬷卸约焖魇淙氲难芯俊』.栌布肪场语音输入的实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验结果与分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·微软语音输入法简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯”.笛楣逃虢峁谋冉稀实验结果的分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯