文档介绍:电子商务与数据挖掘
基于WEB日志的用户访问模式挖掘
电子商务与数据挖掘——完美结合
在电子商务中进行成功的数据挖掘得益于:
电子商务提供海量的数据
如果一个电子商务网站平均每个小时卖出五件物品,那么它一个月的平均点击量是160万次。
丰富的记录信息
良好的WEB站点设计将有助于获得丰富的信息
干净的数据
从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合
研究成果容易转化
在电子商务中,很多知识发现都可以进行直接应用
投资收益容易衡量
电子商务为数据挖掘提供海量数据
“点击流”(Clickstreams)将会产生电子商务挖掘的大量数据
Yahoo!在2000年每天被访问的页面数是10亿,如此大的访问量将会产生巨大的Web日志(记载页面访问的情况),每个小时产生的Web日志量就达到10GB!
即便是一个小的电子商务站点,也会在断时间内产生进行数据挖掘所需的大量数据
计算一下,如果你的站点一个小时卖出5件物品,一个月会有多少页面访问:
5件×24小时×30天/%2(转化率,表示访问的人中买东西的人的比率)×9页面(平均买一件物品要访问9个页面)=1,600,000页面
丰富的记录信息
如果你的电子商务站点设计的好,你将可以获得各种商务的或者是用户访问的信息:
商品和商品的属性
商品的归类信息(当同时展示多种商品是,归类信息是非常有用的)
促销信息
关于访问的信息(比如:访问计数)
关于客户额信息(可以通过登陆/注册来获得)
“干净的数据”
信息直接从网站上提取
无需从历史系统中集成,避免很多错误
可以通过良好的站点设计,直接获得跟数据挖掘有关的数据
而不是再来分析、计算、预处理要用的数据
直接收集的电子数据——可靠
无需人工数据输入,避免了很多错误
可以通过良好的站点设计,良好的控制数据采样的颗粒度
颗粒度控制在客户级别或者是session级别,而不是页面级别
有趣的“生日现象”
一个银行通过对客户数据统计发现,它的5%的客户都是在同一天出生的(同年同月同日)!
为什么?
如何解释?
研究成果容易转化
历史上的数据挖掘研究有过许多的知识发现,但是这些知识发现却很少在实际的商业应用中产生什么效果
要应用这些发现的知识可能意味着要进行复杂的系统更改、流程更改或是改变人们的办事习惯,这在现实中是非常困难的。
在电子商务中,很多知识发现都可以进行直接应用
改变站点的设计(改变布局,进行个性化设计等)
开始有目标的促销
根据对广告效果的统计数据改变广告策略
可以很容易的提供捆绑销售
投资收益容易衡量
使用数据挖掘成果的革新带来的收益如何衡量?
在传统的商业中衡量投资收益需要长期的测量和观察,Paco Underhill在《购物的科学》一书中提及,一个超市为了衡量他们的促销策略带来的投资收益,每年要花14,000个小时查看录像带。
在电子商务中,衡量革新的投资收益是非常容易的
销售变化的报表可以自动产生
客户对电子邮件和电子调查的反馈都可以在几天内得到,而不必等个几个月
电子商务乃至整个互联网都是传统商业的理想试验室。
对电子商务网站的Web数据挖掘
通常在一个电子商务网站上应用的数据挖掘技术是Web数据挖掘。
我们可以在一个电子商务网站挖掘些什么东西?
内容挖掘(Web Content Mining)
结构挖掘(Web Structure Mining)
使用挖掘(Web Usage Mining)
Web Content Mining
对Web页面内容进行挖掘,从Web数据中发现信息。
自动地从数以百万计的Web站点和在线数据库中搜索和获取信息和资料;
尽管人们可以直接从网上通过抓取建立索引,实现检索服务来获得资源,但是大量的“隐藏”信息只能通过内容挖掘来自动挖掘。