文档介绍:刷磁引褐儿饧学位论文作者签名中:’曾.】\寿学位论文作者签名中:嗜繁记┳秩掌冢一耛日劢日学位论文独创性声明学位论文版权使用授权书签字日期:加限年本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得含其他人已经发表或撰写过的研究成果,也不包含为获得直昌太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。签字同期:劲勰的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包本学位论文作者完全了解南昌大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权南昌大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。同时授权中国科学技术信息研究所和中国学术期刊馀贪电子杂志社将本学位论文收录到《中国学位论文全文数据库》和《中国优秀博硕士学位论文全文数据库》中全文发表,并通过网络向社会公众提供信息服务。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ宦畚亩来葱陨
囊麓一辫僬鵨:皆挚黪辫毒彳,学孝9薏伪绯肝÷ㄈ一灰弧‘一·灰灰灰弧弧!’好毒攀姥萼荩~、秣鬻》掇╥簧欤、.萸媛鹖≤葶枣妻嘻攀§誊旁蔶..。;曼墓鹱邈≯猨嬖毒警受罄:话≯囊;’::“.曩蕊誊毒醚黪C扛鹗驮驽鳌聖.:带,二;÷穸郑翰猓晦毒簦甶窆誉嘴’.’兑焕橐蝗豭嚣啤谵伲簀‘曾≯鼻.‘磐、霍蔓秘;÷萝墩嗑弧酚唬嚎迥。:辩~释蘸:尊警王羔#骸拢瓤萼.、≈妻害,≥;埽簀暑;参‘:‘。弧:誊璮。拢甹‘;荩弧绘奁小R惑譬●。八埃海善~。’¨!一。、每●、、,一。攀痡~、一岛一.!二.、。.’
摘要随着网络的大规模覆盖,浏览网络新闻已成为大家了解社会动态的一个重要渠道,新闻搜索引擎不可或缺。然而,虽然网络如一本无所不包的百科全书,由于当前搜索引擎技术仍处在革新阶段,致使信息检索结果还不尽如人意。由此,本文将本体、信息检索等技术相结合,使搜索引擎能够朝着智能化考虑内容相似度的普遍性不足,本文提出了兼顾内容相似度与结构相关度的语二、提出了加权修正信息增益的惴āU攵訧算法偏向选择取值三、设计了基于领域本体的新闻搜索引擎拖低常⒃贖方向发展,进而改善当前搜索引擎性能。本文的主要研究工作如下:一、提出了基于领域本体的新闻网页分类算法。为了改进当前分类算法只义分类思想:首先,解析本体得到本体类别向量,抽取新闻网页文本关键词并进行语义降维,此时找出网页文本中存在的与本体类别向量相同的词汇构成文本期望向量,再运用向量余弦定理计算两者的内容相似度。其次,将上述共同词汇映射到本体层次结构图上,通过计算该有向无环图的加权路径得到结构相关度。最后,结合内容相似度与结构相关度计算新闻网页与本体的综合关联度,通过判断结果与阈值的大小关系来决定新闻网页的类别。较多属性作为分裂节点的缺陷,惴ǖ母慕悸肥牵赫页鲂畔⒃鲆婕叭≈个数都达到阈值的属性,并同时考虑条件属性与决策属性的相关性,加权修正上述属性的信息增益值,再依据修正值选择分裂节点。实例对比说明本算法构造的决策树在一定程度上有所改善。、瓤T垂ぞ叩闹С畔峦ü道橹ぁ关键字:领域本体;搜索引擎;相关度;相似度;分类算法摘要
⒋:!M鋈簿頸唬号禾牵捍恰拢徽莞诱轶疾蚸..,“一;尽苈刺荏记;浚骸荻荆甹一:篱繁蕊专柩啵毒簧蓍暖臻簦斡亨掣善黄ナ麦济商颍骸s剂势芥瘛恕踎、蛰嚣惘等蛩阂弧¨’,;~。荒移彳毒蛎关潮湟胧欺浴::鼍,强耥郏憾厩妫唤推耙弧圮哑ン簦簀麓;簿杂;:。遗超垫尊秽饕辩爹鐾童一掣,叠囊事。霸鬻≯簿霆摹鬟鬻郏赫ヂ酟’;.趇≥詈暇绰晨压渴拢怠。。:‘:碜五;≯乇;警察麓潜箨革:孵》≤一⒍緕漪摹籵妫呼ⅲ.‘一:‘:誉,。:孽棼鼋≯簿攀。坚孽.’、.唬弧⑿躞朗模瑃一薅器妻辩:怏烈唬痡..誓麓专摇贰2蝚秘零番黪;薯。.蚤:’‘濞撵超一·、糭;挚警孝≯校壕痡冀藏■《‘.昀,枣鸣一’≯乏ぼ海緅望誊誉审举薹罕识.‘二:一:·~;’罨譬,海骸畗;!;:鬟羹‘≯嘤嘉:蒂专曩羹登‘,瑶’:.;
產琤畁瓾,猠,..甶.:產甀甶.、琲痥.,,。’..,甋甤瑂
;;籧,..琣,,,;,
录目研究工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第孪喙乩砺塾爰际醺攀觥第禄诩尤ㄐ拚畔⒃鲆娴腸算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第滦髀邸研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⒄瓜肿础组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯