文档介绍:密级: 学校代码:10075
分类号: 学号:20091318
工学硕士学位论文
面向网络评论的产品特征和极性词
挖掘研究
学位申请人: 石少宁
指导教师:王煜教授
学位类别:工学硕士
学科专业:计算机软件与理论
授予单位:河北大学
答辩日期:二〇一二年六月
Classified Index: CODE: 10075
: NO: 20091318
A Dissertation for the Degree of M. Engineering
Research on Mining Product Features and
Opinion Words for Web Reviews
Candidate: Shi Shao ning
Supervisor: Prof. Wang Yu
Academic Degree Applied: Master of Engineering
Specialty: Computer Software and Theory
University: Hebei University
Date of Oral Examination: June, 2012
摘要
摘要
随着电子商务的兴起,网络客户评论也必然会成为人们购买产品和商家改进自身服
务的重要参考,但是如何从海量评论中挖掘出有用信息是一项具有挑战性的工作。产品
特征挖掘作为网络评论挖掘的关键技术之一,已成为网络评论挖掘领域的一个重要研究
方向。本文给出了一种面向网络评论的产品特征和极性词挖掘方法,目的在于从大量网
络客户评论中对产品特征和极性词进行自动化地抽取。
本文基于关联规则算法和属性共现度对网络评论中的产品特征进行挖掘,在获取的
产品特征集合的基础上,通过句法分析器来提取极性词。主要工作如下:
在创建关联规则事务文件过程中建立常用产品特征列表,尽可能地减少中文分词工
具对挖掘结果的影响,通过关联规则算法获取名词和名词短语作为候选产品特征集合,
并将互信息引入到候选特征的剪枝中,对互信息的计算公式进行了改进,计算候选特征
与区分符的互信息值,过滤不满足阈值的候选特征;然后通过极性词挖掘非频繁特征对
关联规则算法进行补充,得到更加全面和准确的产品特征。
在挖掘得到的产品特征集合的基础上,利用句法分析器形成句法分析树,提取存在
SBV 依存关系的词对,通过三步剪枝获得最终的极性词集合。
本文从大型中文购物网站上选取评论语料,对提出的产品特征和极性词挖掘方法分
别进行了验证,实验结果证明了本文方法的有效性。
关键词关联规则属性共现互信息剪枝句法分析器
I
Abstract
Abstract
With the development of merce, network reviews will inevitably e an
important reference for people to buy products and businesses to improve their service, but
how to dig out useful information from the mass reviews is a challenging work. Product
features mining as one of the key technologies work reviews mining has e an
important research direction work reviews mining area. This paper proposees work
reviews-oriented product features and opinion words mining method, the purpose is to extract
the product features in a large number work reviews automatically.
This paper mines the product features and opinion words based on association rules
algorithm and the degree of property co-occurrence in work reviews,