文档介绍:瞎西料技大筝论文题目:基于网络社区的高影响力主题的发现及应用申请学位学科:工学所学学科专业:计算机应用技术培养单位:电气与信息工程学院导师:杨云教授硕士生:吴亚男月
Ⅲ㈣洲舢啪—.畊......產....產....佬氰贰阨丛篜駆一■觥瘛鯥觥瘛觥瘛觥觥鯻■■●■■,
基于网络社区的高影响力主题的发现及应用摘要由于现代网络的流行,人与人之间的交流已经不仅仅是停留在现实环境中,网络社区在日常生活中逐渐形成。随着网络世界越来越发达,网络社区的规模也越来越壮大,覆盖面越来越广。网络社区具有其独特属性即超越时空性,人们可以不受时间和地域地限制在这一平台彼此沟通,从而在网络社区中产生大量的信息。通过网络社区中的信息能够反映出入们现实需求、价值观及世界观等。因此对网络社区中信息地研究具有较深远的意义。在国内外,为从网络社区中提取热点话题,通常利用最为简便的统计数据方法如浏览数或者回帖数等来判断其关注度。此方法能够在一定程度上反映其影响力,然而也有不足之处:由于网络社区基本不会设置门槛,人人都可以是社区的成员,如此便会出现大量的灌水现象或者有害的信息。因此仅依靠数据已不能够准确地反映信息的价值,而是应该进一步从信息的内容出本文主要围绕网络社区信息的处理,内容的分析和价值的评估进行研究,最终从社区中提取出高影响力主题。在网络社区中能够表达信息语义的最小单位是词语,因此如果能够从社区中提取出关键词则就类似于从中提取了有价值的信息。首先需要对信息进行分词处理,将能够表达句子语义的词语保存下,提取词语的准确率高低会在一定程度上影响主题选择的效率。其次利用词语权重公式计算每个词语的权重值,根据主题内的权重值来提取高权词。主要依照网络社区信息存储的方式对传统权重计算公式进行了适当的修改,使其将词语出现位置纳入考虑因素即词语位置然后通过改进后的内容影响力传播模型扑愀呷ù实挠跋炝Σ⒋中选择高频词语。此时高频词便被认为是网络社区中关键词。关键词语间必定会存在关联,因此本文进一步探讨词语间关联度,将关联度高的关键词进行聚类。最后还通过计算词语的臣屏拷徊教崛∏痹诟逰词并添加到及。因子。‘△
聚类中,从而在社区中提取出高影响力主题。经分析,本文的高影响力主题提取系统能够较好的弥补传统数据统计方法的不足,从根源杜绝通过灌水来提高帖子人气的现象,并且能够在一定程度上观察出近期社区信息的走向。关键词:网络社区,位置因子,关键词提取,词语关联度,词语权重Ⅱ
甀甌.,甌琒琻..琣瑃,.瑃—..瑃甌,:琒琤.,,.·
—甅,甌.·瓵琒..琫
目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..髀邸网络社区简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.缟缜ㄒ寮捌涮氐恪璲⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⒄骨魇啤网络社区主题发现意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯网络社区主题发现现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本文工作与组织方式⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⒉杉驮ご怼网络社区信息采集相关技术介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯癶的相关知识⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯网络社区的信息存储⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯信息预处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⑾帧词语权重计算方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯,..⋯⋯⋯⋯⋯⋯关键词的提取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。ⅰ潜在高实奶崛重建词语关系图高影响力主题的提取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..哂跋炝χ魈夥⑾╠论坛的准备工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.
的初始化配置⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.煅榕渲檬欠癯晒Α系统开发环境⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..哂跋炝χ魈夥⑾窒低成杓朴胧迪帧系统的工作流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯系统的总体框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯系统功能模块的实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...畔⒃ご砟?∧?椤高影响力主题提取模块⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.淖芙峒罢雇璲⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯研究内容总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.存