文档介绍:茸学位论文作者签名:盛鑫煮孥母≤开口保密年——月学位论文作者签名:盛盎起签字日期:盈。匹:羔孕独创性声明关于论文使用授权的说明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。本论文除了文中特别加以标注和致谢的内容外,不包含其他人或其他C艿难宦畚脑诮饷芎笥ψ袷卮诵机构已经发表或撰写过的研究成果,也不包含为获得南京信息工程大学或其他教育机构的学位或证书而使用过的材料。其他同志对本研究所做的贡献均已在论文中作了声明并表示谢意。南京信息工程大学、国家图书馆、中国学术期刊馀贪杂志社、中国科学技术信息研究所的《中国学位论文全文数据库》有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文,并通过网络向社会提供信息服务。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布ǹ论文的全部或部分内容。论文的公布ǹ授权南京信息工程大学研究生院办理。指导教师签名:期日字签
摘要殖莆?床患耐常侵竿ㄓ盟阉饕嬗捎诩际踉蛭薹ㄋ饕男畔⑹荢菰词嵌摹⒉欢媳浠模⒎撬械耐潮淼ザ际荄檠涌冢飧鳧畔⒌幕袢〈戳死选J褂谜呖梢酝ü柯贾菘獾确绞嚼椿袢菁芍械氖菰捶⑾趾徒涌诜掷嗾饬礁鲋氐阄侍进行了较为深入的研究,主要的研究工作和成果如下:訢进行了研究,包括亩ㄒ濉⑹萏匦浴⒐婺!存在类型、获取途径以及檠涌诘呐卸āT谕潮淼ヌ卣魈崛〉幕∩霞尤肓似发式判定规则。运用了分类器集成思想,采用算法将多个朴素贝叶斯分类器进行累加形成一个强分类器,减弱朴素贝叶斯分类算法中属性独立性假设的要求,利用多个分类器之间的差异来改善分类器的整体性能。实验结果显菰捶掷唷2捎肈惴ê虲算法相结合的方式,较好的处理了归纳偏置问题和分裂子集样本数目接近样本总数引起的增益比率过大问题。实验结果显示,在多个领域的分类准确性都有所提高。本文解决方案比较适用于存在共有属性的领域,在这类领域的分类效果比较好。采用掷嗥鞫圆檠涌诮信卸āT诖嘶∩。但是,还有很多有意义的问题值得进一步研究,例如:中英文网页之间的差别;进一步扩展掷嗥鳎怀浞掷猛页表单以外的其他网页特征;通过返回结果判定网页表单类别;分类中融入遗传算法、人工神经网络、支持向量机等分类算法。关键词:菰捶⑾郑檠涌谂卸ǎ菰捶掷啵菁到的那部分信息,叮啾扔表层网其信息更有价值。这些信息以自主的、独立的形式分布在整个网络中,而且南、专业搜索引擎、畔ⅰNA擞行的提供这些信息,必须对惺菁伞本文针对菁芍械墓丶侍狻示,在查全率和查准率上都达到了%,取得了较好的判定效果。本文提出了基于特征与启发式规则相结合的檠涌谂卸ǚ椒ǎ
琧甒.,辭甶甀鮢:,.Ⅱ
羽黼鯥篖■■『■瘛簍『甌..试瑃,.:..瓼.,琩爆琩Ⅲ
目录胪ㄓ盟阉饕妗砉嬖颉第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.研究的背景和意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。本文主要研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.论文的组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第二章菰捶⑾盅芯俊通用搜索引擎概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⑾值闹匾P浴菰捶⑾执嬖诘哪训恪本文所采用的方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯数据集成介绍⋯菁傻囊庖濉菁煽蚣堋菰捶⑾钟敕掷嗾蹇蚣堋第三章分析处理网页中的亩ㄒ逵牖竟钩伞也处理分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第四章辮檠:呐卸ā查询接口判定的相关研究工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯檠涌谂卸ǖ哪训恪查询接口判定方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.潮淼シ掷唷网页表单特征描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.
.⋯⋯⋯⋯⋯⋯.⑹⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。第五章菰捶掷唷菰捶掷嘞喙匮芯俊决策树算法的原理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。隒相结合的分类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验结果与分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯