文档介绍:HEBEI UNIVERSITY
密级:
分类号:
学校代码:10075
学号:20091314
硕士学位论文
面向电子产品评论的比较关系挖掘
学位申请人: 何烁
指导教师:袁方教授
学位类别:工学硕士
学科专业:计算机软件与理论
授予单位:河北大学
答辩日期:二〇一二年六月
Classified Index: CODE: 10075
: NO: 20091314
A Dissertation for the Degree of M. Engineering
Mining parative Relations for
Electronic Products Reviews
Candidate : He Shuo
Supervisor : Prof. Yuan Fang
Academic Degree Applied : Master of Engineering
Specialty : Computer Software and Theory
University : Hebei University
Date of Oral Examination : June, 2012
摘要
摘要
从产品评论中获取信息的重要性,已经在生产、营销者和潜在的消费者中达成共识。
因此,产品评论挖掘也随之成为一个热门的研究课题。在这些产品评论中,存在着一定
数量的比较句。作为一种常见的表达方式,比较句可以帮助评论者方便地阐述两个产品
质量与服务的高低和优劣。因此,对这类评论进行研究值得重视。
本文对电子产品评论中的比较关系进行研究,主要工作包括以下几个方面:
在识别比较关系评论时,预先构建了比较关系特征词典和极比类型特征词典,并对
比较特征词按照极性进行分类,为后续工作做出准备。
将比较关系评论的识别看作一种分类问题,即“比较类”和“非比较类”。考虑到
比较关系评论通常具有固定的模式结构,因此首先采用类序列规则算法进行评论的一次
识别。针对一次识别中被判定为含有比较关系的评论和无法确定类别的评论,本文又给
出了基于产品命名规则的二次识别算法。依据评论中包含产品个数的不同,分别采用不
同的方法进行二次判断。
在抽取评论中的比较关系时,将抽取的结果表示为五元组。通过计算产品型号与网
页相关信息的相似度,完成比较对象的识别。而后构建出适用于比较关系评论的特征属
性抽取模式和结果值计算公式,依次完成五元组的抽取。
实验结果表明,利用本文的方法识别和抽取评论中的比较关系,能够提高准确率和
召回率。
关键词评论挖掘特征词典类序列规则命名规则五元组抽取模式
I
Abstract
Abstract
Customers and producers have already reached a consensus on the importance of getting
information from product reviews. Product reviews mining has also e a hot research
topic. A number parative reviews are included in product reviews. As mon
expression, comparative sentences can help critics describe the difference of quality and
service between two products. Therefore, the study on such reviews is important.
This paper studies parative relations among electronic products reviews, and the
main work includes the following aspects:
When identifying parative reviews, parative feature lexicon and a
superlative feature lexicon is firstly constructed. Then the study classifies the words in the
comparative feature lexicon accordi