1 / 49
文档名称:

频繁项集报告.docx

格式:docx   大小:430KB   页数:49页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

频繁项集报告.docx

上传人:aihuichuanran1314 2020/2/9 文件大小:430 KB

下载得到文件列表

频繁项集报告.docx

文档介绍

文档介绍:目录第一章绪论............................................................................................................................................................................................................2第二章频繁项集.........................................................................................................................................................................................................................................................4第三章A-Priori算法......................................................................................................................................................................................................6第四章PCY算法.......................................................................8第五章A-Priori算法的java实现.............................................9第六章Hadoop核心........................................................................................................................................................................................................................................................................................................14第七章基于MapReduce的A-Priori算法实现...................,也就是说,超时和连锁商店都会记录每个结账的购物篮的内容、这里的“项”指的是商店出售的不同商店,而“购物篮”指的是单个购物篮中所装的项集,通过发现频繁项集,零售商可以知道哪些商品通常会被顾客购买,那些共同购买的频度远高于各自独立购买所预期的频度的项对或项集。频繁项集分析的应用并不仅限于购物篮数据,同样的模型可以用于挖掘很多其他类型的数据。例如:(1)关联概念这里的项是词,购物篮是文档。文档中的所有词就构成了对应购物篮中的项,如果要寻找多篇文章中共同出现的词汇集合,那么这些集合大都被高频常见词所占据,比如,我们想要寻找猫和狗的网页摘要,但是停用词“and”和“a”却占据了频繁项集中的主要比例,如果忽略所有的停用词,那么我们希望在高频次对中发现某些能够代表联合概念的一部分词对。(2)文档抄袭这里的项是文档,购物篮是句子。一篇文档中,如果包含某个句子,则任务该句子对应的购物篮中包含文档对应的项。本应用中,寻找那些在多个购物篮中共同出现的项对,如果发现这项的项对,也就是两篇文档有很多相同的句子,实际当中,设置一到两个句子相同都是抄袭发生的有力证据。2(3)生态标志物这里的项包括两种类型,一种是诸如基金或血蛋白之类的生物标志物,另一类是痢疾,而购物篮是某个病人的数据集,包括他的基因组合血生化分析数据,以及他的病史信息。频繁项集有某个疾病和一个或多个生物标志物构成,它们组合在一起给出的疾病是一个检测建议。