1 / 73
文档名称:

网络舆情热点主题词提取研究.pdf

格式:pdf   页数:73页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网络舆情热点主题词提取研究.pdf

上传人:779277932 2011/12/12 文件大小:0 KB

下载得到文件列表

网络舆情热点主题词提取研究.pdf

文档介绍

文档介绍:网络舆情热点主题词提取研究杭州电子科技大学硕士学位论文研究生:程肖陆蓓教授指导教师:
篊:.,‘
论文作者签名:/示弘氨移角指导教师签名:荒纤日期:沙辍背奕日期:辏日期:月杭州电子科技大学学位论文原创性声明和使用授权说明原创性声明学位论文使用授权说明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体己经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人完全了解杭州电子科技大学关于保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属杭州电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为杭州电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。C论文在解密后遵守此规定论文作者签名:
摘要热点主题词提取技术是网络舆情热点话题发现的基础,即利用计算机对海量的网络信息进行处理并提取热点主题词,能给进一步进行与网络舆情相关的热点话题挖掘提供很好的利用结果;另外,它也是用来研究提高信息检索速度,或作为准确抽取自动摘要的有效方法。本文针对传统热点主题词提取技术中的噪音词库的建立和热点主题词的判定展开了研究,提出了相应的改进算法,并对热点主题词的提取问题进行了有效的探讨。首先,本文对网络舆情热点主题词提取技术的现状和发展进行了简要的回顾。文中分别对网络舆情信息挖掘的相关技术和主题词提取算法作了分析。网络舆情信息挖掘主要包括信息来源和信息采集等部分,舆情信息分析关键技术包括话题检测与跟踪和文本倾向性分析等。主题词提取算法中介绍了常用的几种主题词提取算法并对其进行比较分析,包括基于语义的主题词提取等。然后,本文着重研究了基于多级过滤的主题词提取算法,详细描述了其整体流程图,通过分析其相关技术和整体逻辑结构,针对传统的基于词频的噪音词提取方法和主题词提取方法的缺点,做了进一步的改进,主要分为改进的噪音词提取模块和热点主题词提取模块,把概率论与数理统计中方差的概念引入到对噪音词提取的方法中,以此提出了基于联合方差的噪音词提取方法,并详细描述了改进后噪音词提取算法的步骤和流程图。同时为了进一步提高热点主题词的可信度,改进传统的对热点主题词的判定方法,提出了基于关注度的热点主题词提取方法,并把热点主题词提取的实验结果与新浪网中的热点新闻标题进行验证比较。实验证明,本文改进的算法具有稳定性和高效性,并具有一定的可信度。此外,分别使用大规模数据语料和真实新闻语料对本文提出的基于联合方差的噪音词提取方法和基于主题词关注度的提取方法进行了实验,并对测试结果进行了比较和分析。实验结果表明,本文改进的基于多级过滤的主题词提取方法对于处理新闻语料热点主题词发现的问题具有一定的优势。本文最后对论文所做的工作进行了总结与评述,并提炼了热点主题词提取中值得继续研究的若干问题,为以后的研究奠定了基础。关键词:主题词提取,网络舆情,文本挖掘,中文信息处理杭州电子科技大学硕士学位论文
琣甌,,,甌,琣琣杭州电子科技入学硕士学位论文..甌,.,猙瑆..、析甌瑃,甌.
广