1 / 56
文档名称:

分析化学手册.PDF.pdf

格式:pdf   页数:56
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

分析化学手册.PDF.pdf

上传人:unnwldv331 2015/11/6 文件大小:0 KB

下载得到文件列表

分析化学手册.PDF.pdf

文档介绍

文档介绍:基于终端元素结点的牡邓饕椒贺琪陈晓峰王甘霖畉引言谥斩嗽K氐腦文档索引重值来计算较高层次的相似度。这里利用了谖腅中提到的思想:通过对文档中某喙毓ぷ计算机科学隹虾K笱畔⒀г上海本文提出了一种索引N牡档姆椒ǎㄒ了索引的结构以及利用该索引信息进行检索时输入检索条件的基本格式。本文的基本思想是:只对文档结构中终端结点的文本内容矗进行索引,统计并记录该词的出现频率作为其权重值;检索实现的过程为,通过从最低层开始由下向上累加词的权一部分的索引,来有效地实现对整个文档的检索。近年来,结构化文档的索引和检索方面的工作已经取得了很大的进展。荖7⒌一个软件,它能够处理文档并支持协议。然而,它只提供在一个限定域范围内进行搜索查询,它仅仅能够检索固定域如:蚢中的元素,并且这些域彼此之间还不能分等级。开发的峁┝艘桓黾虻サ乃阉功能,能够使得匹配查询的词更加清晰明确。但是,即使它能够对。文档进行高质量的浏览,但它不具备查询和检索的特征。目前,几个商业系统已经被用来支持。文档。但是,他们中的大多数还是假设对于结构化文档中的每一层的元素都进行了索引。专门的K阉饕娣⒄挂埠芸欤壳已有的K阉饕嬗校篒、!、、畂等。此外,为了查询N牡岛桶虢峁够荩经提出了很多查询语言。其中是由公布的第一个关于2檠镅缘墓ぷ鞑莅福可以广泛地应用于各种类型的J菰础索引的建立为了加快对用户检索要求的响应速度,需要对数据建立索引。本文采用的方法为:对文档结构中的终端元素结点的文本内容进行索引。每个文档都可以用一系列关键词来表示,这些关键词描述了文档的内容。:出现在两个标签中的文档词项的信息;标签中的词项信息;文档中标签的嵌套层次信息。本文采用的索引结构由两部分组成,如图图K饕保存N牡档谋昵┬畔⒓案鞅签间的层次信息,图衋为索引表慕峁梗琤为索引表懈鹘岬愕慕峁梗凰饕保存档中所有词的信息,图衋为索引表峁梗琤为索引表鹘岬愕慕峁埂琁,琒文档根结点结点图饕及其结点结构琣:.,·图籥,瑃琣
例如:,存储的是:按照要求的路径进行查输出:查询结果存储器后压入栈中;//丶值母鍪猰航ǜ副昵┯胝籛的栈顶元素进行比较,设父索引的创建过程:用图模型表示N牡担先对N牡凳鹘邢雀槔幢槔承蚪的各个标签结点放人索引表小1槔讨形J的每个结点分配一个二元标记牡岛牛副昵┪置父标签位置,即父标签在索引表械钠量倍砸蹲咏岬阒械母鞲龃氏钚畔⒆鞔势低臣处理,即每个词在这一部分出现的频率,用表示缤,给出了图校琾标签下各个词的词频O蛩饕插入记录的同时,若遇到叶子结点,则将结点中的每个词连同这个词的词频一同存人索引表校贝嫒氲幕褂姓飧鲆蹲咏岬愕亩元标记。基于索引的检索算法检索实现的基本思想为:由N牡凳鞯淖低层开始,由下至上沿查询路径累加词的权重信息,将累加过程进行至用户所要求的结束层为止。在介绍检索的具体实现算法之前,给出一个存储查询结果的动态查询结果存储器的结构示意图。图R桓龆檠峁娲⑵鳎贾兴镜二元标记为牡岛牛丶趾。按照上面给出的查询条件的基本格式可以看到,允许用户一次查询输入多个关键字,按输入顺序由前到后,关键字号分别为、扛龆1昙谴淼氖且桓龃娲⒌元,相应存储单元中存储的内容是:按照要求的路径进行查询,得出的指定关键字在指定文档中出现的频率。询,关键字谖牡中出现的次数,即词频。因为关键字的个数和文档的数量都是不固定的,所以这个查询结果存储器为动态的。算法夯谒饕迪諼文档检索输入:检索条件;索引表凰饕航⒁桓稣籛;航ḿ焖魈跫泶锸紺械恼蚵肪侗泶式部分按照分隔符“.”划分为几部分,按顺序由前至取关键字;在索引表胁檠胫嗥ヅ涞拇蔠瑆⋯,统计匹配词的个数由匹配词结点中的文档号标志位和父标签偏移量,在索引表姓业礁媒岬愕父标签;标签名为若栈顶元素为:单个标签,则比较与H粝嗤虻稣欢ピK豧,判断父标签偏移量是否为转晃蛞谰莞副昵┢屏空业絣的父标签,然后转蝗粲胝欢ピK夭煌蜃若栈顶元素为一:弹出栈顶元素,判断母副昵┢屏渴欠裎,为晃则依据父标签偏移量找到的父标签,然后转若栈顶元素为痜罕硎玖礁霰昵┑或关系,将两个标签分别按上述方法处理,两者只要有一个与嗤偷稣欢ピ素,若都不相同,则转若栈顶元素为:比较雤。若相同则判断母副昵┢屏渴欠裎,为猻,不为蛞谰莞副昵┢屏空伦5页图饕及其结点结构图昵┫碌拇始按势图檠峁娲⑵词篺辨.·
法,这是阉饕婕际踔械闹匾W槌刹糠帧分别进行处理:第一种情况:如果采用推荐的哈西信息,实现了成功搜索,则不需要调整哈西索引。第二种情况:满足下列条件之一,需要更新哈西信息:绻侥壳拔V梗捎霉魉阉骰姑挥幸淮成功,则需要更新哈西信息。阉餍畔⒅邪男畔⒂胗伪曛械淖钚滤索信息不匹配,则需要更新哈西信息。更新哈西信息如图尽二进制搜索二进制搜索的总体原则:从树根开始,遍历非叶结点页上符合条件的结点指针,并根据这个指针定位下一层的页号,直到找到叶结点页内的相应记录。