文档介绍：论文作者签名:翌奕州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。期:
日期:型日飙龇叫年一月解密后适用本规定。苏州大学学位论文使用授权声明本人完全了解苏州大学关于收集、保存和使用学位论文的规定,即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数涉密论文口本学位论文属信息情报中心、中国科学技术信息研究所蚍绞莸缱映霭嫔、中国学术期刊馀贪电子杂志社送交本学位论文的复印件和电子文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段据库进行检索。在非涉密论文口论文作者签导师签‘·‘.
菰捶⑾趾头掷嘌芯中文摘要互联网的飞速发展使畔⒘坎欢吓蛘停缯谘杆偕罨S捎诖罅康男息都隐藏在查询接口之后,无法利用传统的搜索引擎技术获取,这类信息被称为8咚僭龀さ腄信息已成为人们进行信息获取的重要来源,但由于畔⒌囊旃剐院投裕褂闷鹄捶浅2环奖悖虼耍嫦駾氖据集成系统便应运而生。本文对菰捶⑾趾头掷嗨婕暗降南喙丶际踅辛松钊胙芯浚⑻出了相关模型和机制,有效的解决了传统方法的局限性。主要研究工作包括:讨论了一种利用搜索引擎来发现数据源的方法。为了能够向搜索引擎提交高质量的关键词,将本体作为等级化组织词汇的架构引入到初始词构建过程中。对所有词汇按照在当前领域中出现频率高低进行分类,并根据搜索引擎返回接口集元素数量进行二次分类,确保关键词是对发现数据源查询接口贡献较大的词汇。岢隽艘恢掷媚:透怕誓P头掷嗍菰吹姆椒ā6愿髁煊蛑械拇驶惆照其对当前领域的贡献程度分为特征词和常用词。为了能够在网页文本中找出更加精确的词汇,将模糊集作为归一化词汇的工具引入到特征词集和常用词集精简的过程中,并且将归一化后的词汇在各领域上建立概率模型,通过计算数据源表单向量与各领域向量之间距离来分类。芯苛艘恢滞绫淼シ掷嗥鞲慕疲没浦饕=玴—蚿猶技术结合来使各种分类错误的表单进行二次分类,使这些表单能重新分类到正确的领域中。在分类前利用各领域问的相互关系建立图模型,使表单同时分类到当前领域相关的多个领域集合中,再将各领域表单集合的交集进一步通过探测查询进行分类,使得表单分类更加精确化。本文进行了大量的实验,验证提出的各种理论和方法,同时提出了有待进一步深入的问题,实验结果表明本文提出的方法技术是可行有效的。关键词:菰捶⑾郑槐淼シ掷啵徊檠讲猓环植隳:作者:王海龙指导老师:崔志明淌
瓻甌甌籺琣,琒,.,:甌..’
:,,—瓵甦’—.;
/
目录第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯研究概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⒄⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。第二章菰捶⑾趾头掷唷菰捶⑾⑾⑾址椒ā璴菰捶⑾⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..支持向量机分类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.决策树分类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯~.神经网络算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.传统分类方法的改进⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第三章基于搜索引擎的菰捶⑾帧数据源发现系统模型和方法概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一初始关键词构建⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯查询接口集合词汇抽取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...槿〔≡『头掷唷初始关键词二次分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第四章基于分层模糊集合的菰捶掷唷基本术语⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯利用各数据库领域间关系建立领域有向图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..数据源表单的词性分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯建立分层模糊集合⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯