1 / 23
文档名称:

频繁项集报告..docx

格式:docx   页数:23页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

频繁项集报告..docx

上传人:分享精品 2016/3/25 文件大小:0 KB

下载得到文件列表

频繁项集报告..docx

文档介绍

文档介绍:1 目录第一章绪论................................................................................ 1 研究背景和意义............................................................... 1 本文主要内容................................................................... 2 第二章频繁项集........................................................................ 3 频繁项集概述................................................................... 3 频繁项集名词解析........................................................... 3 频繁项集分析指标........................................................... 4 第三章 A-Priori 算法................................................................... 5 概述.................................................................................. 5 Apriori 核心算法过程....................................................... 6 第四章 PCY 算法......................................................................... 8 第五章 A-Priori 算法的 java 实现.............................................. 9 第六章 Hadoop 核心................................................................ 11 HDFS ................................................................................ 11 HDFS 概述............................................................... 11 NameNode 和 SecondNameNode ......................... 12 MapReduce ..................................................................... 14 第七章基于 MapReduce 的 A-Priori 算法实现................... 16 2 第一章绪论 研究背景和意义购物篮模型的最早应用源于真实购物篮的分析, 也就是说, 超时和连锁商店都会记录每个结账的购物篮的内容、这里的“项”指的是商店出售的不同商店,而“购物篮”指的是单个购物篮中所装的项集, 通过发现频繁项集,零售商可以知道哪些商品通常会被顾客购买,那些共同购买的频度远高于各自独立购买所预期的频度的项对或项集。频繁项集分析的应用并不仅限于购物篮数据, 同样的模型可以用于挖掘很多其他类型的数据。例如: (1) 关联概念这里的项是词, 购物篮是文档。文档中的所有词就构成了对应购物篮中的项, 如果要寻找多篇文章中共同出现的词汇集合, 那么这些集合大都被高频常见词所占据, 比如, 我们想要寻找猫和狗的网页摘要, 但是停用词“ and ”和“a”却占据了频繁项集中的主要比例, 如果忽略所有的停用词, 那么我们希望在高频次对中发现某些能够代表联合概念的一部分词对。(2) 文档抄袭这里的项是文档,购物篮是句子。一篇文档中, 如果包含某个句子,则任务该句子对应的购物篮中包含文档对应的项。本应用中, 寻找那些在多个购物篮中共同出现的项对, 如果发现这项的项对, 也就是两篇文档有很多相同的句子, 实际当中, 设置一到两个句子相同都是抄袭发生的有力证据。(3) 生态标志物这里的项包括两种类型, 一种是诸如基金或血 3 蛋白