文档介绍:武汉理工大学
硕士学位论文
互联网舆情分析关键技术的研究与实现
姓名:章栋兵
申请学位级别:硕士
专业:计算机科学与技术
指导教师:徐东平;姚寒冰
20100501
摘要随着互联网用户爆炸式的增长,受众群体越来越广。在缺乏有效管理的互联网上,对一些敏感案件和突发事件的不实言论和恶意煽动,误导和欺骗了广大人民群众,扩大了人民群众的不满情绪,影响和破坏了社会的和谐稳定。互联网信息的健康程度已引起各级政府的高度重视,有必要对互联网上涉及意识形态安全的议题和言论进行有效地监管。互联网网页每天都以指数级的方式增长,要人工去甄别每个网页所含的信息,并加以分析统计是不现实的。只有采用计算机自动处理技术,使其自动地对互联网舆情进行分析、整理,才能建立起全面、有效、快速的舆情监测预警机制,使互联网得以健康、快速的发展。因此,对互联网舆情的获取与分析技术的研究已成为一项紧迫而又重要的课题。本文对文本的语义倾向性分析这一关键技术进行了深入地研究,通过分析现有语义倾向性识别技术的优缺点,结合隐马尔科夫模型在文本处理方面的良好表现,将本文研究的文本语义倾向性分析方法应用到互联网舆情分析系统中,对舆情信息进行分析,并提供舆情预警功能。文本的语义倾向性分析的目的是判断文本针对评价对象所持有的情感倾向是支持、反对还是中立。由于相似的评论文本,其内容必定有一定的内在联系。互联网舆情信息的表现方式多种多样,本文以网络评论为研究对象,试图将隐马尔科夫模型从已经成功应用的模式识别领域推广到语义倾向性分析系统。与传统倾向性识别系统不同的是,此理论通过建立隐马尔科夫分类模型,将未知文本进行状态序列化,得到文本中所有具有语义倾向的词语所对应的倾向性,然后选定多数词的倾向性来作为文本的总体语义倾向。⒒肪晨7ⅲ治S锪喜杉构建模型和语义识别三个模块。语料采集模块为其它两个模块提供数据支持。构建模型模块将采集得到的数据作为语料进行训练,得到语义识别模型;语义识别模块完成对指定的文本的语义倾向性识别。本文通过对腾讯新闻论坛的数据分别进行封闭测试和开放测试,结果表明,该分析模型可以很好地识别各种未知文本的语义倾向性,并且当训练数据越全面,规模越大时,获得的识别率关键词:互联网舆情分析系统,语义倾向性分析,隐马尔科夫模型更高、更稳定。
’叩饥鷅,柚印锄·狃,,閏Ⅳ,孕,.,.瑉,,矗,瑃皐浚甧,
鰁鷄徊鷄劬“,鷄苐盟甌印礶簅叩鷗印╞,琖痵齛黟.,巾趓甌,蓋篒猠縭.
~嗽刿ɑ铡Α肷签名:聋拯垦,日期:翌』夯学位论文使用授权书独创性声明本人声明,所呈交的论文是我个入在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。C艿穆畚脑诮饷芎笥ψ袷卮斯娑
绪论第引言报告》【数据显示,截至年底,中国网民规模达到谌耍升。中国的网站数,即域名注册者在中国境内的网站数ㄔ诰衬诮尤牒途外接入锏万个。网页的规模反映了互联网的内容丰富程度。自年开始,中国的网页规模保持成倍地增长,年网页数量年增长率超过ィ达到诟觥M缧挛攀褂寐饰%,覆盖八成以上的网民群体,较年提高了%;用户规模达亿人,年增长万人,,腾讯公司宣布,同时在线用户数突破凇这说明互联网应用、数字化生存方式已经很大程度上嵌入人们的同常生活。如何对互联网信息进行监管,对突发事件和恶意言论等负面信息进行及时预警并温家宝总理分别在年月同两次接受中国政府网、新华网联合专访,与广大网友在线交流网友进行了在线交流,并在访谈结束时和网友约定,明年再来。网友提问十分踊跃,温总理答问真挚坦诚。在交流中,温总理就加快转变经济发展方式、医疗卫生体制改革、住房保障、劳动就业、社会保障、“三农”问题、教育改革和发展、物价走势、两岸关系、中美贸易等回答了网友提出的问题。由此可以看出国家政府及领导人对网络媒体的重视程度。随着互联网在全球范围内的飞速发展,网络成为反映社会舆情的主要载体之一。网络媒体作为一种新的信息传播形式,已深入人们的日常