文档介绍:复旦大学
硕士学位论文
XML文档的检索、更新及发布
姓名:李岷
申请学位级别:硕士
专业:计算机软件与理论
指导教师:周傲英
20040501
龅耐涎菔鞠低场摘要换工具。为了有效地加工、分析和处理荩芯空呙且丫岢隽烁髦莸幕敬砑际酰渲校琗的存储、索引、查询等淼幕技术,例如检索、更新以及牡捣⒉嫉热床⑽匆鹧芯空呙堑淖愎还惴旱重视。因此,对上述技术的研究面临了更多新的挑战。本文研究牡档募焖鳌⒏潞臀牡捣⒉技际酰欢訶数据保持健约文档等方面进行了深入的研究和探讨,提出了有效的算法和新的技术,并且实现提出方法的有效性。研究成果将可直接用于菘獾南钅靠7⒑筒费兄构,相比原有的检索弓妫珻ü呕焖飨畹姆椒ㄊ辜焖餍实玫很大提高,并且是基于语义的。对检索结果的评估方法根据K氐不同特点,进行分类打分。本文还提出了焖鞯燃际踉赪服务中的应用。基于际母拍睿岢隽薠文档在关系数据库中的规范化存储,极大地减少了冗余存储。通过把际成湮9叵凳菘庵械暮赖,本文实现了对牡档母隆T诟耎文档时,不但保持了文档本身的键约束,还使关系数据库和牡当3至艘恢隆1曜⒓际跏迪至对牡蹈挛恢玫目焖俣ㄎ唬佣咝У厥迪至薠文档保持键约束的更新。更新技术使得晌U嬲硎居牍蚕淼耐骋桓袷健从关系数据库到莸淖;唬碭数据发布技术,完整实现了数据发布系统孟低惩üざㄒ宓腄,利用属性文法转换语言将存储在关系数据库中的数据发布成袷降奈牡怠4送猓颐腔箍7⒘关键字:牡蹈耎文档检索牡捣⒉阎鸾コ晌;チM畔⒌闹饕1硎竞徒本技术受到了广泛的关注。然而,在一个完整的芾硐低持猩婕暗降钠渌束的更新、基于层次缓冲的菁焖骷际跻约按庸叵凳菘庵蟹⒉糥了部分原型系统,譬如更新系统和发布中间件ü笛橹っ髁吮疚乃中,具有重要的理论和现实意义。本文内容具体包括:基于层次缓冲的焖骷际酢1疚奶岢隽艘恢中碌腦搜索引擎架
瓼,..甒瑂.—,.琿,瓾,瑄,甌,甀..,畃瑆瓸,’瑆猟
第一章绪论背景介绍标注语言——的性质缺陷引起的。数据库研究在对象一关系数据库、并行数据库、查询优化和数据挖掘等领域取得了突破性的进展。同时,技术和计算机硬件的发展使得我们有必要进一步拓展数据库理论,研究新的问题,开发新的技术。今天,任何人都可以在锨嵋椎胤⒉己突袢⌒畔ⅰ已经变成了信息制造、发布、加工和处理的主要平台。随着因特网难杆俜⒄梗竞途蔡琀人们却遇到了系牧酱笪侍猓阂皇荌速度极慢。二是信息泛滥,虽然可以在线获得各种信息,但是要找到所需要的信息常常极为困难。这主要由在今天的肪持校琀镅允荳信息表示的主要方式,由于页面缺乏结构信息,尽管许多高端服务器采用数据库来处理数据,但大的站点和搜索引擎却主要用文件系统来存储信息,利用信息检索虺艻技术纾汗丶炙阉来检索静态的页面,效率低下而且极不准确。随着趁媸康目焖僭龀ぃ碌腤应用要求图数据库技术与信息检索技术比较从数据库的角度来看,裌上的数据作为它管理的对象,全球的就是一个人类有史咀来最大的数据库,所以我们可以采用数据库技术管理,超文本标记语言趁嬉布本缗蛘停畔⒌氖量级从年代初的过渡到、现在已上升到。面对庞大的信息海洋,够管理动态的内容,没枰T诤迫缪毯5腤信息海洋中快速、准确地发数据库技术信息检索技术有结构模型有确定的模型基于概率、向量空间模型等查询语言部分匹配、模糊匹配完全支持数据无结构人工的鏢匹配精确匹配出错报告敏感的不敏感演绎归纳数据更新不支持事务支持使用面向应用自然的推理面向人
数据。除此以外,对于莨芾恚褂腥缧畔⒓焖鳌⑷斯ぶ悄堋⒊谋荆越来越膨胀的信息以及技术的发展要求我们有必要重新审视数了畔⒌幕久婷病S際啾龋琗具有许多优点:虻ィ晕颐枋龆子诮馕觥J沟肵具有机器可读性,适于电子数据交换痛怼M保琗/J郊ù蟮亟档土薊交换的费中的标记表示的是数据的显示格式,没有任何含义,而档中的标记则明确指出了数据的含义,使得细粒度的荽沓晌?赡堋方式显示全部或部分的文档内容。各种格式的数据都可以容易地转化为荩沟肵非常适于畔⒎⒉己图伞苑⒉家岳词艿搅烁鹘绲墓惴汗刈ⅰ8骷扑慊堂蔷合嗤瞥隽酥С学术和研究机构纷纷采用幢硎靖髦挚蒲荩⒄箍A硕訶的深入研究。各个行业如金融机构、海关、媒体产业正制订各自行业的科学院电子商务研究中心也联合国内软件厂商制定了Ⅺ皿。标准。发布和交换的事实上的标准。诘缱有畔⒎⒉肌⒌缱由涛换、数字图书馆、畔⑺阉骱图傻攘煊蚓哂泄憷ǖ挠τ们熬啊W苤訶的深入研究将有力促进企业的信息化和电子商务,具有巨大的应用前景和经济效在鸬膚曲变革中,数据库技术将扮演关键的角色。从数据处理的角度来说,传统的畔⒋碇饕2捎玫氖荌际酰阉饕娴闹饕7绞绞关键字搜索。关键字搜索有很大的局限性,搜索的结果将返回包含关键字的整个媒体等技术。其中,信息检索是目前大多数搜索引擎使用的技术,它从页面的内容来检索需要的页。图告诉我们数据库和信息检索的区别。新的τ靡求芄还