文档介绍:山东大学
博士学位论文
基于遗传规划和集成学习的Web Spam检测关键技术研究
姓名:牛小飞
申请学位级别:博士
专业:计算机系统结构
指导教师:马军
2012-10-15
山东大学博士学位论文摘要所有试图增加网页在搜索引擎中排序的欺诈行为被称为鶶网络作锄严重降低了搜索引擎检索结果的质量,使用户在获取信息的锄数据集的特点,围绕基于网页特征构建分类器检测锄方面进行了研究,主要工作包括以下三方面:锄的方法可以找到优化的判别函数来提高鶶募觳庑阅堋H欢褂靡糯ü锄数据集中的内容、链接等特征,需要较长的判别函数,对锄,该方法先使用若干小规模的个体锄。本文还研随着网络上的信息呈爆炸式增长,搜索引擎已成为日常生活中帮助人们发现其想要信息的重要工具。给定一个确定的查询,搜索引擎通常能返回成千上万个网页,但是大部分用户只读前几个,所以在搜索引擎中网页排名非常重要。因此,许多人采用一些手段来欺骗搜索引擎排序算法,使一些网页获得不应有的高排序值来吸引用户的关注,从而达到获取某方面利益的目的。弊过程中遇到巨大障碍,产生较差的用户体验。对于搜索引擎而言,即使这些作弊网页没有排得足够靠前来扰乱用户,抓取、索引和存储这些网页也需要成本。因此,识别觚殉晌K阉饕娴闹匾L粽街弧本文根据岢龌谝糯ü婊芭斜鸷觳釽将个体定义为检测甧的判别函数,经过遗传操作,遗传规划就划产生判别函数时会出现一个问题,因为没有关于最优解的任何先验知识,所以很难知道个体的适当长度,如果个体长度太短,则个体中所包含的特征就会很少,个体的辨别力不高,对应函数表达式的分类性能就不好。要想充分利用甧应个体规模较大。对于由较大规模个体组成的种群,构造和搜索所需时间较长。基于较长判别函数是由若干较短判别函数组成的这一原理,本文提出通过遗传规划学习判别函数检测创建多个种群,每个种群经过遗传操作产生本种群的最好个体,然后再将每个种群所得的最好个体通过遗传规划进行组合得到更好的判别函数,从而利用较短时间就能产生性能更好的较长判别函数来检测甤究了表示个体的二叉树深度在遗传规划进化过程中的影响以及组合的效率。在甎菁辖辛耸笛椋笛榻峁砻鳎氲ブ秩
山东大学博士学位论文锄的方法。样本比作弊样本多很多。由于存在多种不同类型的鶶际酰吕嘈锄是不可能的。所以,通过集成多个分类器的检测结果来找到增强分类姗是一种有效方法,并且集成学衡数据锄,首先使用不同的分类算法分别在不同的样本集和锄数据集的特点,利用不同的数据集合和分类算法时的方法取得更高的攘恐怠遗传规划相比,使用两次组合的多种群遗传规划能将召回率提高%,度量提高ィ仿侍岣.%。与啾龋路椒ń倩芈侍岣吡%,攘刻岣吡ィ范忍岣吡%。岢隼没谝糯üü乖煲桓分类器,并且大都忽略了数据集中作弊样本和正常样本的不平衡性,即正常的技术也在不断出现,期望发现一个万能分类器来检测所有类型的琫器用于检测甧集分类问题的有效方法之一。在集成学习中,如何产生多样的基分类器和如何组合它们的分类结果是两个关键的问题。本文提出利用基于遗传规划的集成学习来检测特征集上进行训练产生多样的基分类器,然后使用遗传规划学习得到一个新颖的分类器,由它基于多个基分类器的检测结果给出最终检测结果。该方法根据产生差异较大的基分类器,利用遗传规划对基分类器的结果进行集成,不仅易于集成不同类型分类器的结果,提高分类性能,还能选择部分基分类器用于集成,降低预测时间。该方法还可以将欠抽样技术和集成学衡数据集的分类性能。为了验证遗传规划集成方法的有效性,分别在平衡数据集和非平衡数据集上进行了实验。在平衡数据集的实验部分,首先分析了分类算法和特征集合对集成的影响,然后将其与已知集成学习算法进行比较,结果显示在准确率、召回率、攘俊⒕范龋砦舐屎虯方面,优于一些已知的集成学衡数据集上的实验表明无论是同态集成还是异态集成,遗传规划集成均能提高分类的性能,且异态集成比同态集成更加有效;遗传规划集成比、、多数投票集成、算法和基于岢龌谝糯ü婊绿卣骷觳釽特征在分类中扮演着很重要的角色,数据集中有个内容特征、个链接特征和鲎;涣唇犹卣鳎渲个转换链接特征是
山东大学博士学位论文力的新特征,然后将这些新特征作为分类器的输入来检测鶶T个链接特征的简单组合或对数操作,这些特征的产生不仅需要由专家来完成,关键词:鶶觳猓灰糯ü婊患裳埃环瞧胶馐菁掷啵还很耗费人力,并且也不易把不同类型缒谌萏卣骱土唇犹卣的特征融合在一起。该方法提出利用遗传规划将已有特征进行组合从而产生更有区别甎菁系氖笛橄允荆褂鲂绿卣鞯姆掷嗥鞯姆掷结果好于使用原个链接特征的分类器,与使用鲎;涣唇犹卣鞯姆掷器的性能相当。
.⒎