1 / 5
文档名称:

一种改进的Apriori算法.pdf

格式:pdf   大小:400KB   页数:5页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

一种改进的Apriori算法.pdf

上传人:q1188830 2022/2/19 文件大小:400 KB

下载得到文件列表

一种改进的Apriori算法.pdf

文档介绍

文档介绍:万方数据
一种改进的惴琖:斌生;万旺根。男,教授。博士生导师。:.啪。删州幼·点橱珂炅筚〈口砌凇计算机工程与应用刘维晓,陈俊丽,屈世富,万旺根惴ǚ治合罴槌伞O匀黄咴酱蟛暮蜓∠罴氖烤驮蕉唷珻琎上海大学通信与信息工程学院,上海.摘要:的调整。��用户兴趣项约束用户兴趣项顾名思义就是用户感兴趣的、想挖掘其所有改进的算法利用用户兴趣项剔除事务数据库项集中的不相关项,并且将项集的长度做相应的变化生成新的事务数据库。例如:项集的长度为三含有厅个用户不感兴趣项则剔除无关项后新项集的长度��一玎。.以表��镜氖挛袷�菘馕�例,数据库中的项目集为卢�琹,厶,五,厶,厶,厶,厶��没�胪诰虺�所有关于���,厶,厶,厶的强关联规则,则兴趣集��瓶,五,厶,厶,厶�L蕹�薰叵詈笮碌氖挛袷�菘馊绫�所示。剔除无关项后新事务数据库与原来事务数据库的计算量���吹氖挛袷�菘庵辽傩枰I��次才能找出所有的候选项集,而新的事务数据库为�涡�侍岣��プ笥摇���偕栉澹��,厶,厶,厶,五,厶都为频繁一项集,则原来的事务数据库在生成候选�罴�辈��蜓∠罴�鍪�嘉猯��觯�而新的事务数据库在生成候选�罴�辈��暮蜓∠罴�鍪�约为��觯�ゴ雍蜓∠罴�母鍪��裕��侍岣咴嘉��ァ�由以上两个方面的对比可见:当处理规模庞大的数据库时是否加入用户兴趣项会对算法的效率产生很大的影响。针对扫描数据库过多的弊端,改进的����惴ù蚱屏�常规的算法步骤,利用数组存放数据,减少数据库的扫描次数。以表�械氖挛袷�菘馕@�樯芨慕�乃惴ㄕ页銎捣毕�集的步骤:步骤�槔�碌氖挛袷�菘獠⒋嫒胧�椤�表�械氖挛癫淑勇╄鹤皂�鸥木菘庵械摹3熬咐匮泻臁耆绫�。事务数据库中项目集的唯一标识符为���谰軹�将遍步骤�槔��锳产生频繁项集。遍历数组彳根据设定的�痭产生频繁一项集和多项.�� 集。并将其以及对应的支持度存入数组讧。,彳:,⋯,彳。�校��中疗代表项目集的长度三。项集与支持度之间用“、”分隔,不同的项焦之间用“;”进行区分。对于表�氖挛袷�菘舛�陨����.�虿��绫�的频繁集。将频繁集对应存入数组中:�口�五、���籄、���獭�.�;步骤��珊蜓∑捣毕罴�利用数组�S胱陨砹�硬��蜓�项集并根据����生成频繁�罴����傻暮蜓∑捣奔�階。数组中的项集进行比较,如果数组中不存在则按顺序存入�J�椤�算法步骤上对����惴ǖ母慕�氪�车乃惴ㄏ啾却嬖�以下优势:��恍枭�枋�菘庖淮危�蟠蠹跎倭耸�菘獾谋槔��数,降低了系统�疧的负载。����械钠捣奔�捌渲С侄却嫒攵杂Φ氖�楸阌谒�后置信度等评价标准的����焖偕�汕抗亓9嬖颉���滤惴ㄔ谑导视τ弥校�没Э梢愿�萜捣倍嘞罴���中数据存入的先后顺序来判断哪些强关联规则是由数据库中原有数据生成的,哪些是由候选频繁项集生成的,有利于用户进行有针对性的实际应用。��兴趣度模型基于“支持度.置信度”的评价准则在某些情况下并不能真实地反映出强关联规则对用户的实际应用价值,因此需要建立适合关联规则算法的兴趣度模型。兴趣度主要包括主观兴趣度和客观兴趣度两个方面。目前对兴趣度的研究主要集中在客观兴趣度方面,主要存在如下的兴趣度模型脚:����蚈����男巳ざ饶P蚼��和����兴趣度用来评估零售交易集项目间的关联程度。兴趣度定义为:越高。��。���������������