1 / 50
文档名称:

基于hadoop平台日志分析系统.pdf

格式:pdf   页数:50
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于hadoop平台日志分析系统.pdf

上传人:hytkxy 2016/7/4 文件大小:0 KB

下载得到文件列表

基于hadoop平台日志分析系统.pdf

文档介绍

文档介绍:‘I?????????嗍删吣舢洲洲舢删㈣?’: 332蒜嘟介绍??????????·”渊戮I?..21 .3本章小结?????????????????_?点烹导兰三鲁.!??.2l 万方数据基于Hadoop平台的日志分析系统目录 ????????????????????????一参考文献??????????????????????????致谢??????????????????????????????????. 参与的科研项目???????????????????????甜笛万方数据基于Hadoop平台的日志分析系统摘要摘要随着互联网的迅速发展和广泛普及,web的信息量以惊人的速度增长。目前,World Wide Web已深入到人类社会的每一个角落,成为拥有近亿个工作站,数十亿页面, 蕴含着巨大潜在价值知识的分布式信息空间。电子商务网站创造了前所未有的访问量,各种大型网络游戏不断刷新着在线用户数峰值,于此同时这些大型系统都记录下了海量的用户日志。就电子商务网站而言,处理网站访问日志有助于为网站的管理者提供决策支持进而指导网站运营,如改善网站结构提升用户体验:进行关键词营销提升流量、促进转化、提升效益:分析用户行为进行个性化的推荐和营销来提高网站的核一Ii,竞争力,在激烈的市场竞争中保持优势。 Hadoop是Apache下的一个开源分布式计算平台,它提供简单的编程模型,对大量数据进行分布式处理。Hadoop一般运行在由大量普通计算机组成的集群上。Hadoop 框架的核一11,是分布式文件系统HDFS和分布式计算框架Map/Reduce,为用户提供了系统底层细节透明的分布式基础架构。对电子商务网站日志进行预处理和分析,可以利用集群优势并行处理与分析日志,快速及时的为网站运营团队提供决策数据。某大型网站的分析引擎项目就是为了向企业提供基于流量、来源通路、访客、内容、商品和订单六大对象的数据分析,通过图形报表形式向企业管理者展示网站的核心数据,如动销、转化率、流量和销售集中度等,同时满足企业对于WebAnalysis和 BusinessAnalysis的需求。本文在分析现有分布式储存和计算等关键技术的基础上,结合对Hadoop平台的分析与研究,设计实现了一种基于分布式计算平台的日志分析系统,并使用本系统进行了网站流量、网站来源、网站访客及订单等分析工作。本文对该系统的各个功能模块进行了详细的阐述并对本文给出的分布式平台的高效性进行了实验比较分析。实验表明,采用该分析系统,通过多个资源完成原先由一个节点承担的工作,无论是在数据处理还是任务执行上,其效率都高于基于单机集中式环境的Web日志分析,另外还可以得出任务的执行时间不仅与集群节点数量有关,还有处理的任务的逻辑复杂度有关。关键词:电子商务;Map/Reduce;Hadoop;日志分析万方数据基于Hadoop平台的日志分析系统 ABSTRACT AB STRACT With therapid development and thewidespread popularity ofIntemet,the amount of web information grow at an alarming ,World Wide Web has rated into er of human society and es adistributed information space which has a hundred million workstations,billions of pages,and contains a huge knowledge. merce siteshavecreated anunprecedented number ofvisits,avariety oflarge-scale online games constantly refreshthepeak number ofonline users,at the same timethese large systems recorded massive user merce sites,website access logsprovide decision support for thesitemanagers and then guide Web siteoperators,such asimproving the structure ofthesite toenhance the user experience and toimprove your site’S petitiveness. Had