文档介绍:华中科技大学
硕士学位论文
基于文本聚类和语料库的信誉维度发现研究
姓名:李迪
申请学位级别:硕士
专业:管理科学与工程
指导教师:赵学锋
2010-12-14
华中科技大学硕士学位论文
摘要
现有的主流在线零售网站普遍采用了一些简单的在线信誉系统来试图解决网络
交易中信任缺失的问题,虽然起到了一定作用,但大多存在着不同商品共用同一评
价维度、信誉评价模型维度区分度不高的情况,不能准确表达用户的真实选择意愿。
针对上述问题,本文从用户的文本评论本身出发,使用客观的聚类方法发掘客户的
真实感受,从定性的客户评论研究在线信誉系统,以期能够更加准确地给出用户所
关注的信誉评价维度。
本文在回顾前人的相关研究之后,采用文本聚类分析的方法对客户评论内容进
行了分析。本研究编写了 程序抓取原始数据,使用 Visual C++,Java,Matlab
等语言对数据进行了分析、聚类。经过抓取文本评论数据,分词,生成特征项集合,
编码标注,确定词义相似度计算方法,机器聚类,对聚类簇进行分析等步骤,得出
了一个更加合理的信誉评价维度。其中,根据研究的具体情况,本文对 TFIDF 处理
的具体步骤做出了改进,把词义相似度应用于聚类分析,并且在 DBSCAN 算法中
加入了对聚类簇进行 TFIDF 过滤的内容。经过对原始的信誉评价维度和聚类分析得
出的信誉评价维度进行对比,本文发现原有的信誉评价模型确实遗漏了一些比较重
要的评价维度,而且有些评价维度不够全面、清晰,而使用聚类分析的方法分析文
本评论数据,可以从用户评论中找出用户真正关心的信誉维度。
研究结果证明,聚类分析做为一种新的信誉维度确立方法,可以尽量减少人为
地干预,避免主观影响干扰分析结果,确保能够从用户评论本身出发,科学地、合
理地得出客观的信誉评价维度。
关键词:信誉维度文本聚类文本评论词义相似度
I
华中科技大学硕士学位论文
ABSTRACT
Most existing online retail monly used some simple online reputation
systems to try to solve the lack of trust in online transactions. Though played a role, these
online reputation systems still have some problems, for example, mostly there are
different products share the same evaluation dimensions; evaluation dimensions cannot
discriminate clearly; reputation systems cannot accurately express the true customer
choices. To solve these problems, we shall study the ments from the users
themselves, then use an objective clustering method to explore the true customer choices,
and analyze online reputation systems qualitatively. Finally we want to get a reputation
dimension system that can shows accurately what users concerned about.
In this paper, after a review of previous studies, we analyze ments with the
method of clustering analysis. We code a program to grab the original data, then
analyze and cluster the data with Visual C++, Java and Matlab. After the process of
grabbing text reviews data, words segmentation, the generation of characteristics
collection, code marking to determine the semant