文档介绍：上海交通大学
硕士学位论文
互联网舆情信息获取与分析研究
姓名:金晓鸥
申请学位级别:硕士
专业:通信与信息系统
指导教师:李翔
20080101
互联网舆情信息获取与分析研究
互联网舆情信息获取与分析研究
摘要
本文对互联网舆情信息的获取和分析做了较深入的讨论。利用 Rhino
脚本解析引擎,有效地解决了互联网中 JavaScript 动态网页的获取问题。
同时,结合基于向量空间的文本分类方法和基于语义的文本分类方法,
对传统的文本倾向性分析进行改进,有效地提高了准确率和普适性。
本文首先讨论了 JavaScript 动态网页的获取,回顾了网页获取领域的
已有成果,列举了网页获取领域的基本知识,包括 HTML 语言、HTTP
协议以及 URL 统一资源定位符等基本概念,以及动态网页方面的相关知
识。同时指出了,随着网页技术的快速发展,网页获取技术需要做相应
的改进。
在回顾网页获取领域已有成果的基础上,本文针对其中的链接获取
机制做了详细的说明。尽管传统的网页获取技术可以利用 HTML 语言的
一些特点,提取出网页中包含的链接地址,然而由于网页技术的发展,
越来越多的网页将链接地址隐藏在网页脚本中。鉴于此,本文通过认真
分析,认为需要在网页获取技术中增加脚本解析环节。通过本文的测试
验证,证明了增加脚本解析环节后,可以有效地提高网页的获取率。
接着,本文还讨论了网页文本倾向性问题的研究,回顾了文本分类
领域的已有成果,列举了文本分类领域中的几个重要知识,包括文本分
词,文本表示,特征选择,以及分类方法。指出了随着技术的发展,文
本倾向性分析将是文本分类的一个重要发展方向。
III
互联网舆情信息获取与分析研究
在回顾文本分类领域已有成果的基础上,本文针对其中的分类方法
做了详细说明。尽管现有的分类技术可以有效地将文本分为体育、娱乐、
政治等类别,但是还不能有效地根据文本作者想表达的情感特征进行分
类。本文通过认真分析,认为在基于向量空间模型的分类方法中可以适
当地借鉴基于语义的分类方法中的权重设置方法。通过本文的测试验证,
本文提出的综合的方法,可以有效地对文本进行倾向性分类。
关键字:网页采集,文本倾向性分析,动态网页
IV
互联网舆情信息获取与分析研究
REASERSH ON PUBLIC OPINION
INFORMATION EXTRACTION AND CLASSIFICATION
ABSTRACT
This paper makes relatively deep discussion in the field of public
opinion information extraction and classification. By using the Rhino script
engine, it can be solved effectively that extracting the JavaScript
dynamic web page. And, bining the text classification based on VSM
(vector space model) and which based on semantics, making modification to
traditional text orientation, the accurate and universality of the text
orientation classification has been improved.
At the first part, the extraction of JavaScript dynamic web page is
discussed. It turns back to the achievement in the field of web page extraction.
It lists the basic research in the areas of web page extraction, HTML markup
language, work protocol, URL, etc. Moreover, it lists the research
in dynamic web page, and points out that some modifications are necessary
to web page extraction because of booming of