文档介绍:第11章: 观点挖掘
广东外语外贸大学
杜剑峰
Web数据挖掘
2
简介–事实和观点
万维网中两类文本信息
事实
观点
目前的搜索引擎查找事实(假设它们是正确的)
事实可以使用主题词表示.
搜索引擎不查找观点
观点难以使用数个关键词表示
人们怎样看Motorola手机?
目前的搜索排序策略不适合观点检索或搜索.
Web数据挖掘
3
简介–用户生成内容
万维网中的口水话(Word-of-mouth)
网民可以在评论站点、论坛、讨论组、博客和微博等地方就任何事件阐述个人的经历或观点(称作用户生成内容)
包含有价值的信息
我们感兴趣的是: 在用户生成内容中挖掘观点
一个智能的很具挑战性的问题.
实践中很有用.
Web数据挖掘
4
简介–应用
商务和组织: 市场情报.
工商企业花费大量的金钱搜集顾客的意见和观点.
顾问、调查组, 等等
个人: 在下列情况下会对他人的观点感兴趣
购买产品或使用服务
寻找政治话题的观点
广告放置: 在用户生成内容中放置广告
当用户称赞某个产品时放置广告.
当用户批判某个产品时放置竞争品牌的广告.
观点检索/搜索: 提供观点的全面搜索
Web数据挖掘
5
两类评价
直接观点: 关于某个对象诸如产品、事件、主题和个人的情感表达
比如, “the picture quality of this camera is great”
主观的
比较观点: 表示多于一个对象的不同点或相同点的关系. 通常表示一种次序.
比如, “car x is cheaper than car y.”
客观的或主观的
Web数据挖掘
6
观点搜索(Liu, Web Data Mining book, 2007)
能够像通常的Web搜索一样方便地搜索观点吗?
当你需要决策时, 你可能需要知道他人的观点
你可以向搜索系统提出诸如下面的问题, 立即找到相关观点
直接观点: “Motorola cell phones”
比较观点: “Motorola vs. Nokia”
现在还没有这种搜索方式!
Web数据挖掘
7
典型的观点搜索问题
查找观点持有者(个人或组织)对某个特定对象或对象的某个特征的观点.
比如, Bill Clinton对婚外恋的观点是什么?
查找关于某个对象(或对象的某些特征)的正面或负面的观点, 比如,
关于某个数字相机的顾客观点.
某个政治话题的大众观点.
查找关于某个对象的观点的变化情况.
对象A比较对象B的观点是什么?
Gmail vs. Hotmail
Web数据挖掘
8
查找关于某个对象的某个人的观点
在某些情况下, 通用的搜索引擎能够处理这个问题, 比如通过提供合适的关键字
Bill Clinton对婚外恋的看法
理由:
个人或组织通常对某个主题持有唯一的观点.
该观点通常包含于一个文档中.
因此, 可以使用合适的关键字找到该观点.
Web数据挖掘
9
查找关于某个对象的观点
以产品评论为例:
搜索产品评论与一般的Web搜索是不同的.
比如, 搜索关于“Motorola RAZR V3”的观点
一般的Web搜索(关于事实): 基于某种权威和相关性分数对页面排序
用户浏览首页(如果搜索是完美的)
一个事实= 多个事实
观点搜索: 排序是可取的, 但是
读取排在首位的评论是不够的, 因为它仅是某个人的观点.
一个观点多个观点
Web数据挖掘
10
观点汇总问题
评论可以看作是传统的调查报告.
在传统的调研中, 返回的调查问卷可以用作原始数据.
对调研结果做汇总分析.
比如, 支持或反对某个问题的百分比, 等等.
在观点搜索中,
能够产生汇总吗?
汇总应该是什么?