文档介绍:中南大学
硕士学位论文
关键词与叙词对照表自动构建的研究
姓名:朱伟丽
申请学位级别:硕士
专业:情报学
指导教师:肖晓旦;陈先来
20040527
摘要—规定,学术期刊论文都应在摘要后给出相应的关键词作为检换为规范化的叙词,手工编制了关键词一一叙词对照表,但它是自动生成关键词一一叙词对照表一直是学者们所关注的热点之甓戎杏胄难9芗膊∶芮邢喙氐奈南准锹甲献数据库及手工检索工具时会造成检索系统的效率下降。因此我繁杂,因此建立一种关键词与叙词对照表,揭示关键词和叙词之为实验来源,首先通过分类途径从谐槿∮胄难9芗膊背景:关键词作为一种非受控情报检索语言,因其灵活性、易用性及较强的专指性,受到人们的日益重视。国家标准索标识。但关键词在显示概念之间等同关系、等级关系及相关关系等诸多方面存在着缺陷,因而利用关键词作为检索标识建立文国生物医学信息部门在创建生物医学文献数据库及编制手工检索工具的过程中通常采用叙词作为检索入口词,而将关键词作为辅间的关系,实现人工标引与自动标引的转换是非常必要的。中国医学科学院医学信息研究所曾组织几位具有专业知识背景、多年标引经验、水平较高的标引人员将关键词表中二十余万条记录转建立在工作人员主观分析的基础上,进行人工对照,客观性、一致性不够,并且费时费力。因此,实现关键词与叙词自动转换,目的:通过实验比较几种测量词间相关性的方法在测量关键词与叙词相关性时的准确性,探讨自动构建关键词与叙词对照表对照的关键词与叙词原始对照数据库,最后利用互信息、条件概助检索标识。由于用叙词标引和检索医学文献的规则与方法过于的可行性和有效方法对象与方法:本研究以《中录,作为原始统计数据,然后设计程序对这些原始数据进行预处理,提取记录中的关键词及叙词,形成掺杂着虚假一。中文摘要
信息的数据库中自动提取出关键词与叙词的正确对照,其中利用结果:利用互信息测量关键词与叙词之间相关性时,关键词与叙词对照的准确度为%,:实验表明采用我们所设计的技术路线与方法实现关键方法及条件概率与字面相似性相结合的方法都能够从含有冗余对照表,叙词,关键词,自动叙词表,互信息,字面相似性,条件概率率及两者与字面相似性结合的方法对这些数据进行统计处理,选取统计值最大者作为对照结果,产生对照表,并对每种方法产生的对照表的准确度进行比较分析。%;利用条件概率方法测量关键词与叙词之间相关性时,,利用互信息与字面相似性相结合的条件概率与字面相似性相结合的方法在本研究中效果最佳。关键词:
甌:.甤.—,:篢籺颇士学位论文英文摘要
:瑃曲%,..琺,,琧,..:
导师签客&竺垦日期:竺刍晟显卤倘日期:地±年』月罩日作者签名:苯缱鹚作者签名:釉圭瑚关于学位论文使用授权说明原创性声明本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本本人了解中南大学有关保留、使用学位论文的规定,即:学校有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文;学校可根研究所作的贡献均已在论文中作了明确的说明。据国家或湖南省有关部门规定送交学位论文。
关键词与叙词对照表自动构建的研究肖晓旦教授第一章前言研究生:副指导老师:陈先来指导老师:朱伟丽关键词和叙词应用现状且专指性强,国家标准—规定,学术期刊都应在每篇文章的摘要在我国生物医学信息界,大多采用美国国立医学图书馆编制的医学主题词注释字顺表魑4唇ǜ骼嗌镆窖南资菘狻手工检索工具的检索语言,建立叙词检索系统,同时以关键词作为检索标关键词是世纪年代初出现的一种检索语言,年代末,年代初引入我国。所谓关键词,是指那些出现在文献的标题C⒄陆诿以及摘要、正文中,对表征文献主题内容具有实质意义的语词,亦即对揭示和描述文献主题内容来说是重要的,带关键性的梢宰魑<焖鳌叭肟凇钡那些语词。它是现代科技论文编制二次文献、建立计算机数据库、计算机联名词胀驶蜃ㄓ忻或词组组成,它不是句子或句子成分,更不是助词、动词及某些形容词、副词和无具体含义的名词纭袄砺邸薄ⅰ氨ǜ妗薄关键词直接采用自然语言的语词,顺其自然、简便易用,灵活快捷而后面给出个关键词。但是,关键词有其固有的缺陷,即词间关系含糊不清或不正确,无法清楚的显示概念之间的关系,并且由于同义词和准同义词的存在,同一概念有着不同的表达形式,因