文档介绍:上海交通大学
硕士学位论文
基于最大熵方法的评论信息抽取研究
姓名:赵丽芳
申请学位级别:硕士
专业:计算机技术
指导教师:陈玉泉;崔莉莉
20091201
上海交通大学工程硕士学位论文摘要
基于最大熵方法的评论信息抽取研究
摘要
互联网技术的不断更新带动了电子商务业务的高速发展。信息技术已经渗透到人
们生活的各个角落。随着网络购物理念逐渐普及,消费者不仅可以足不出户地在网上
挑选、购买商品,而且可以随时发表评论与他人分享购物经验,因此用户评论信息成
倍地增长。然而大量的用户评论信息让产品制造商和潜在购物者都很难跟踪用户对产
品的意见和建议。研究如何快速、准确地从海量的信息中获取有用的资源并进行处理
的工作日益受到人们的重视,用户评论信息抽取的研究已成为目前研究的热点。
本文在研究了国内外相关的理论及应用现状的基础上,针对目前互联网的信息与
日俱增,而用户评论信息利用率很低的现状,提出了一种基于最大熵分类器进行评论
信息抽取的方法,并结合自然语言处理技术,利用同义词林以及反义词林定位产品评
论属性值的语义极性,从而判断用户评论信息的褒贬性。随后,通过实验验证了评论
信息抽取方法的可行性和有效性。
在以往的评论信息抽取研究中的研究对象大多从主题,文本甚至是词汇、短语的
角度来对用户评论信息作抽取判断。本文尝试着从产品属性角度着手,来研究被评论
的产品的特征属性及属性值之间的关系,并结合中文语义进行情感倾向性分析。本文
的研究意义在于运用自然语言处理技术以及信息抽取技术提高了用户评论信息的利
用率以及应用范围,利用该方法结合电子商务服务功能给予购买者以直接的信息导
购,进而提高了网络搜索引擎的性能,对于网络个性化服务系统的改进与更新具有一
定的商业实用价值。
关键词:信息抽取,最大熵,情感分类,语义倾向,电子商务
上海交通大学工程硕士学位论文 ABSTRACT
RESEARCH OF OPINION INFORMATION EXTRACTION BASED
ON MAXIMUM ENTROPY MODEL
ABSTRACT
The rise of improvement in results in the rapid development of merce.
Information technology has sunk into each aspect of people’s daily life. With the increasing
popularity of online shopping idea, consumers, instead of going out, can simply stay at
home and do shopping on line. They also ment on products to share with others,
that really brings out great convenience. As a result, the on-line evaluation is doubled. A
large number of users’ on line opinion information made it difficult for manufacturers or
potential customers to track ments and suggestions that customers made. Figuring
out the way how to obtain some useful resources from tons of information quickly and
punctually and to process them plays a vital role in people’s attentions. Analyzing the
sampled users’ comments has currently e a hot topic.
This paper studies national and foreign relevant theories and applies to the reality.
According to currently an increase in information and low usage of users’
comments, there present a theory based on maximum entropy