文档介绍:肠导师签名:/秘布学位论文作者:名学位论文版权使用授权书签字日期:玣,岁年衫月厶日独创性声明签字日期:纠;年乡月心日签字日期:砂班年多月厂C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ椋韭畚模嚎诓槐C埽诒年本人提交的学位论文是在导师指导下进行的研究工作及取得的研究成果。论文中引用他人已经发表或出版过的研究成果,文中己加了标注。本学位论文作者完全了解西南大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权西南大学研究生部可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。密期限至月止学位论文作者签名:
目录第滦髀邸研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.庋芯肯肿础主要研究工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯论文的组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯网页表单特征描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.员淼ブ蠭控件的属性值的统计和分析⋯⋯⋯⋯⋯..对表单中“”语义特征的统计和分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.表单特征提取方案⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯菰词侗鹧芯俊胪ㄓ盟阉饕娴墓叵怠摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.谘芯肯肿础数据挖掘技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..表单特征分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一对表单中丶膙属性值的统计和分析⋯⋯⋯⋯⋯..第翫引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..檠涌谑侗鹧芯孔芴逅悸芳凹芄埂通用搜索引擎⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯定义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..ぷ髁鞒獭⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.
制作贝叶斯分类器⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验结果与分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯实验环境⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.笛榻峁治觥第翫菰捶掷嘌芯俊引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.攻读硕士学位期间公开发表的论文⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..
菰吹自动识别与分类研究摘要计算机软件与理论专业硕士研究生林宽指导教师余建桥教授摘要疃韧缱试矗殖谱鞑豢杉蛞赝译为,它常常被人称为谷歌查不到的网络信息,这些信息不属于我们所熟知的那些标准搜索引擎所能够搜索到的。通常认为搜索引擎查不到的信息要占网络全部信息的%。据公司技术白皮书的中描述,试慈萘吭嘉猄倍,而且包含着更多有价值的资源。超过一半的谌荻急4嬖谧ㄒ盗煊虻氖菘庵小:A康谋砻嫘畔⒐然可以通过普通的搜索引擎查询到,可是还有相当大了的信息由于隐藏在深处无法被搜索引擎查到,而且菰赐庇质遣欢媳浠模蟛糠忠氐男畔⒈匦胪ü肭产生网页信息,标准的搜索引擎是没有办法对它进行查找的。因为这些动态请求产生的网页信息必须要通过檠覧椿袢。沟肈畔⒒袢”涞母永眩A擞效的获取畔ⅲ颐潜匦胍6訢惺葑远侗鸷头掷唷本文通过对菰吹淖远侗鸷头掷嘌芯空饬酱笾氐阄侍庹箍I钊胙芯俊V饕的研究内容包括:云胀ㄍ潮淼ゼ癉车谋淼ヌ卣鹘蟹治觯喜ⅰ⑻砑印⑸秆〉到的得到本文采用的表单特征提取方案,包含各控件值,控件数量,包含语义信息的词条等一系列特征值作为分类属性。菁傻墓丶侍庋芯浚檠涌诘氖侗鸺胺掷嗯卸āU攵云铀乇匆端方法的限制,使用粗糙集算法进行优化约简。该方法利用两次随机抽样建立基于朴素贝叶斯算法的分类器组,利用粗糙集算法