文档介绍:密级: 学校代码:10075
分类号: 学号:20091328
工学硕士学位论文
面向产品评论的垃圾评论识别方法研究
学位申请人: 刘立佳
指导教师:袁方教授
学位类别:工学硕士
学科专业:计算机应用技术
授予单位:河北大学
答辩日期:二〇一二年六月
Classified Index: CODE: 10075
: NO: 20091328
A Dissertation for the Degree of M. Engineering
Research on Identifying Review Spam
for Product Reviews
Candidate : Liu Lijia
Supervisor : Prof. Yuan Fang
Academic Degree Applied : Master of Engineering
Specialty : Computer Applied Technology
University : Hebei University
Date of Oral Examination : June, 2012
摘要
摘要
近年来,随着因特网的快速发展,人们发表观点以及相互交流的方式也发生了改变。
在产品评论领域,人们越来越喜欢在购物网站上发表自己对产品所持有的观点。这些由
用户发表的观点中包含着丰富的有用的信息。同时,在这些观点中也充斥着一些无用的、
不真实的垃圾信息。这些垃圾信息的存在影响了产品评论挖掘的质量。
本文面向中文产品评论领域,对垃圾评论识别进行了研究,主要工作如下:
首先,通过对中文产品评论领域的垃圾评论进行分析,将垃圾评论分成无用评论和
不真实评论两大类别,并根据其特点的不同,提出了不同的识别方法。
针对无用评论的识别,将其看成是二元分类问题。使用产品特征词、对非产品信息
评价语句、问句以及超链接4个重要的分类特征,同时又结合信息增益方法自动抽取出
一部分特征来共同表示评论文本。最后由这些特征构成的特征值将评论文本向量化,再
采用基于Logistic回归的分类方法将评论文本分为正常评论和无用评论两大类来完成对
无用评论的识别。
针对不真实评论的识别,考虑了词与词之间的次序问题,并采用2-gram模型来表示
评论文本。在构建语言模型的同时,为了避免出现概率值为零的情况,采用Katz平滑方
法对模型进行平滑,最后计算每对语言模型的KL散度,如果其值小于某一给定的阈值,
则认为是不真实的评论。
实验结果表明,本文提出的方法能够有效地识别产品评论中存在的无用评论和不真
实评论。
关键词垃圾评论 Logistic回归 2-gram模型 Katz平滑 KL散度
I
Abstract
Abstract
In recent years, with the rapid development of the , the way of expression and
communication of people has also changed. In the field of product reviews, People are more
inclined to express themselves on such online shopping. Those expressions of the users are
rich in varied and useful information. Meanwhile those expressions may also include some
spam information. The spam information has affected the quality of the product reviews
mining.
This es up with an identification way of the spam in the Chinese product
reviews. The main works are as follows:
First, based on the analysis of spam reviews in the Chinese product reviews, spam
reviews are classified into