文档介绍:密级: 学校代码:10075
分类号: 学号:20091312
工学硕士学位论文
面向产品评论挖掘的特征粒度树研究
学位申请人: 李爱清
指导教师:袁方教授
学位类别:工学硕士
学科专业:计算机软件与理论
授予单位:河北大学
答辩日期:二○一二年六月
Classified Index: CODE: 10075
: NO: 20091312
A Dissertation for the Degree of M. Engineering
Research on Feature-granularity Tree
for Mining Product Reviews
Candidate : Li Aiqing
Supervisor : Prof. Yuan Fang
Academic Degree Applied : Master of Engineering
Specialty : Computer Software and Theory
University : Hebei University
Date of Oral Examination : June, 2012
摘要
摘要
产品评论挖掘就是从用户发表的评论中挖掘出产品特征、用户观点,并判断观点极
性,为生产、营销商家和潜在的用户提供参考。通过对提取出的产品特征进行分析,发
现用户对产品特征粒度的关注是不同的,本文针对这一问题进行了研究,主要工作如下:
利用基于索引的标签路径的方法找到数据区路径,抽取产品说明书和原始评论。定
义标注细则,完成原始评论的人工标注,为后续研究准备基础数据。
给出了基于特征粒度树获得产品特征粒度关系的方法。由于单个说明文档中的特征
分类效果不好,本文利用改进的相似度公式判断来自不同说明文档特征记录的相似性,
相似度公式的改进使得特征记录相似性判断的准确性有了较大提高;基于相似特征记录
将特征组进行重组,根据新的特征组集合建立特征粒度树;由于特征记录来源于同一型
号的产品,其特征覆盖不完全,本文抽取了多种类型产品的说明文档,用于完善粒度树,
增加特征粒度树的广泛适用性;根据相似度计算和《同义词词林》判断从产品评论中抽
取的特征与特征粒度树中结点的相似性,将产品特征在特征粒度树中进行定位,从而获
得产品特征之间的粒度关系。
实验结果表明本文改进的相似度公式提高了相似判断的准确性,也验证了基于特征
粒度树获得产品特征粒度关系方法的有效性和本文建立的特征粒度树的实用性。
关键词评论挖掘特征粒度特征粒度树特征抽取相似度计算
I
Abstract
Abstract
With the explosive growth of work information, how to find useful information
from es to a hot research focus. Mining product reviews is to extract the product
features, users’ attitudes and judge the emotional polarity, in order to offer reference
information for potential users and merchants. However, after analyzing the extracted product
features, we find that the granularities of product features which users concern are different.
So the paper studies this problem, and the main work as follows:
Using the method of label path basin on index, this study finds the path of data area, and
extracts the product manual as well as original product reviews. Then define the label rules
and mark reviews artificially, prepari