文档介绍:法。先根据网页中的誏标记把网页表示成一棵鳎喝缓罄檬髦忻扛摘要随着的迅猛发展,人们对高效率的信息获取技术的需要越来越迫切,对海量信息进行采集、分析、整理,得到高质量的分门别类的结构化信息,方便用户快捷地浏览查询,是极具现实意义的重大课题。为适应广大师生教学和研究的需要,中国科学技术大学图书馆先后购买了多种网络数据库,涉及的门类非常齐全,为中国科大建设一流研究型大学打下个数据库中信息不能统一起来为用户提供更深入的服务,基于这种情况,本论文利用脱机的跨库检索系统解决上述问题。结果界面的统一化,同时深入挖掘文章的信息,为用户提供更深入的服务。本文所研究的就是脱机跨库检索系统中两个重要的技术:文章信息抽取和关键词提取技术。本文的主要技术和创新点为:攵酝际楣莞魍缡菘馕恼滦畔⒌南允窘峁际峭沟耐痴庖惶征,本文提出了一种基于学习的抽取模板构造方法。这种基于学习的模板构造方法只需要人工标注两个网页即可生成模板,节省了构造者的时间并且构造出岢鲆恢只诰霾呤骱吐矶煞蛄吹脑诨チM献远槿∥蚀鸲缘姆节点的结构和文字信息,抽取相应的特征;最后将得到的节点特征通过由决策树和一阶马尔可夫链结合得出的分类模型进行分类。A私饩鲇械奈恼略谕缡菘庵胁⒚挥懈鑫颐枪丶收飧鑫侍狻1文提出一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要进行抽取。提出以句子为基本抽取单位进行关键词取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。关键词:信息抽取,跨库检索系统,了坚实的基础。由于各个数据库的查询界面以及查询结果的返回界面各异;各脱机检索系统的最终目的是建立一个脱机的跨库检索系统,实现查询界面和的模板非常准确。抽取的思想。在提出关键词的候选词时采用痛市韵嘟岷系姆椒ǎ谘关键词抽取,中国科学技术大学硕士学位论文
知识水坝***@pologoogle为您整理
.痶—甒中国科学技术大学硕士学位论文瑃.,,瑆琲琄,,、.,猧,—琣:’..瑀,..
知识水坝***@pologoogle为您整理
作者签名:童恐中国科学技术大学学位论文相关声明作者签名:堡:乜生兰上∞辍卧律本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。本人授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。保密的学位论文在解密后也遵守此规定。
第一章绪论数字图书馆跨库查询系统概述目前中国科学技术大学图书馆已购买使用或者试用的网络数据库有将近个。这些网络数据库相互独立,并集成于不同的网站,它们具有自己独立的访问网址和网络用户接口,通过国际专线或者国内镜像站点的地址进行访问。读者通过网络进行访问时,从网络用户接口填写接口界面表单并提交请求数据,到达网站相应的应用程序,从而访问网站后台的数据库,获取所需要查找的内容。图书馆对这些不同的网络数据库的使用,是将它罗列成页面上的一个个链接,点击后分别进入不同的网络数据库检索主页,新的网络数据库的添加也仅仅是在网页上增加一个链接,如图卜尽U庋那榭觯贾露琳叻梦收庑网络数据库时,没有统一的数据库界面访问标准。这些网络数据库网址各不相同,呈现的检索表单接口也不一致,像图书馆引进的/菘猓檬菘馓峁暌岳吹拿拦缙缱庸こ淌ρ会和英国电气工程师学会出版的嘀制诳多种会议录,近直准的全文信息。它的检索界面如尽美国计算机协会惴菏章级嘀諥电子出版物,包括了年的期甑幕嵋榧锹家约俺蛞车娜淖柿稀M是据库的检索界面。这些网络数据库,除了检索界面各不相同,检索返回结果的内容以及格式也是相互独立的。例如:当检索“刊及杂志,币淮适保疾是中国科学技术大学硕士学位论文图猯中国科学技术大学图:转馆网络数据库链接页面
检索数据库返回的结果页面,而图卜茿检索数据库返回的结果页面。中国科学技术大学硕士学位论文第一章绪论图焖鹘缑图检索界面
岬甴琷恤‘岣日一州玉哪帆緀哪蝴㈣凇蕖泵槟蘆心裎裰‘咖谥[嶂蓁帧●相咖琷盥蚴嚣:啦加凹砬匹拭瞠劂上如酗锴液缈劫叫蚰也盈越啦吐蛙础血盥蛐二【如緉駎№鄒琽甴撼鲇せァ辬嗌久篥臞如垦:醋“田亏霸钤斫膨泄础凹喔咎顾襝谊瓢虬蚴∞■嘶肿■硝嘲衅■——騞颉鯥●■岫“嚆舝—¨州嘲妇皿如生Ⅲ睡啦埘帅Ⅲ帅蚺壳遥γ罂盺龇鷌雌蛆皿赀辪璽馡“川Ⅲ跨库检索系统的研究现状岫口瞰帜摹癈韪凸Eκ囚:噬∞嘲駉髗⋯瓀猲弧●●●祎’●憎閔纭●●眖瘢畉盯蛩躥呻■艚村啊”∞僻&诒芙╢甜住觋铩啊裉蹦◇姗菇“。:嚣:篙:;