文档介绍:摘要随着信息技术的发展与普及,人们产生和收集数掘的能力迅速提高,在过去一段时阌里,各领域产生了大量的业务数据,但因为缺乏相应的对数掘进行高级分析的方法与工具,这些“数据金矿”所蕴藏的财富并没有被充分挖掘出束,被描述为“数掘丰富,信息贫乏”。如何从大量的数掘中找到真正有用的信息成为人们关注的焦点,数掘挖掘技术也正是伴随着这种需求从研究走向应用。网络论坛的丌设为广大网络用户丌辟了自由发表言论的空间,网络用户可以自由的在论坛上沟通交流。但随着信息量的急剧增大,传统的对论坛用户管理的方法已很难适应时代发展的需求,因此,及行为模式,进而为论坛管理提供指导,如何有效、快速地分析论坛用户的特征就成为各网站越束越关注的热点。基于这样一种需求,本文将数据挖掘技术引入论坛用户分析中并做了如下工作。根据论坛的运行管理机制,建立论坛用户模型并设定计算指标,结合论坛历史数据,构建论坛用户数据仓库。利用技术,实现多维数据浏览。在数据挖掘过程中,根掘数据规模,选择不同挖掘方法。针对全局大规模数据,借助工具实现聚类与决策树分析,针对局部小规模数据,实旌灵活柔性挖掘。对于数据挖掘中发现的孤立点,析孤立点产生原因。在数掘挖掘过程中,规律,预测论坛发展趋势。‘结合论坛运行实际情况及查询工具,分合理解释挖掘结果,总结网络论坛发展关键词:数据仓库:数据挖掘;在线分析处理;模糊均值聚类中文摘要
篋:籇;;英文摘要,瓺’.瑃甌瓸,..猟甎瓹琧..
敝作者躲黝新躲球垫论文作者签名:茼獬加炅嗽赂鏡不保密酿请在以上方框内打“√”大连海事大学学位论文原创性声明和使用授权说明保密口,在——年解密后适用本授权书。学位论文版权使用授权书原创性声明:堑掘毽坦查窒庄筮扳生鲍廑厦:。除论文中已经注明引冢簔甏踉耑本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,撰写成硕士学位论文用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体己经公刀⒈砘蛭垂开发表的成果。本声明的法律责任由本人承担。本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、版权使用管理办法”,同意大连海事大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。本学位论文属于:保密口
第滦髀研究背景年中国第一一个网络论坛运行以来【浚夜缏厶车氖咳缬旰蟠核癜阊该驮黾樱信息技术的迅速普及以及互联网在全球的广泛应用使社会各领域信息飞速膨胀。基于的全球信息系统的发展使我们拥有了前所未有的丰富数据,简单的信息搜索技术已不能满足人们的信息搜索需求。如何在浩如烟海的网络数据中找到信息并将信息转化为知识成为人们渴求的目标。网络论坛作为互联网技术的主要应用之一【浚9愦笸缬没峁┝艘桓鲎杂交流的空问,网络用户可以自由的在论坛上沟通交流,用户既可以提出~个新的话题,也可以对别人提出的话题提出自己的看法,和其它用户一起探讨。自很多网民将论坛当作自己的精神家园,“水木清华”,“西祠胡同”等知名论坛内的讨论屡有惊人之作。随着论坛规模及影响力的扩大,在论坛上注册的用户越来越多,在论坛里发表的内容也越来越多。大量历史数据,占据着宝贵的系统资源,不断加重论坛系统的负荷,降低论坛的运行效率,同时也增加了论坛管理人员管理的难度。如何识别不同的用户群并进行资源配置,如何找到最有价值的用户并预测用户的行为成为论坛管理员需要解决的首要问题。数据挖掘是从数据库或数据仓库中提取人们感兴趣的东西,发现知识,以指导人们有效地利用其中的数据,从而为正确的决策提供可靠的依据。数据挖掘使用者可以根据研究的问题领域及自己对现实业务需求的理解,选择并找到相关的方法,分析数据,挖掘信息,自动地发现和描述数据中的趋势,挖掘“数据金矿”。最近,囊淮胃呒都际醯鞑榻萃诰蚝腿斯ぶ悄芰形!拔蠢慈五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术的前两位数据挖掘在客户分析中的应用
研究现状及问题分析目前的诰蚣际醺嗟氖羌性诘缱由涛窳煊颍ü齏服务器的日本文的研究内容和意义成本在网络上获得,由于谌蚧チネǎ梢源又腥〉玫氖萘磕岩约提供了强大支持,如何在网络这个全球最大的数据集合中发现有用信息成为了数目前国内外对网络上数据的研究,主要是指诰颉词褂檬萃诰蚣术在葜蟹⑾智痹诘摹⒂杏玫哪J交蛐畔ⅰ挖掘研究覆盖了多个研经网络等。与传统数据和数据仓库相比,系男畔⑹欠墙峁够虬虢峁够摹动态的、并且是容易燎残混淆的,所以很难直接用找成系氖萁惺萃一般可以分为三类:,随着际醯目焖倨占昂脱该头⒄