文档介绍:地方志数据库全文信息检索研究
王富强1,2  马德涛1    张立朝1  王建明1
Email:boxuan0807@
 (, 河南郑州 450052;,四川  成都  610036)
摘  要:本文深入分析了地方志的特点,提出了地方志数据库构建思路,给出了基于Lucene的数据库全文检索解决方案。最后,通过实验对数据库SQL查询和基于Lucene的全文检索作了比较。结论证明基于Lucene的地方志数据库全文检索,具有丰富的接口设计和良好的扩展性,适用于海量文本数据的检索和查询,对于基于地方志信息的数据挖掘提供一种技术实现方式。
关键字: Lucene  全文检索   数据库  地方志
中图分类号:P208       文献表示码:A
地方志是中华民族特有的文化瑰宝,其发展已有两千多年的历史。古人云:治天下者以史为鉴,治郡国者以志为鉴。一部方志在手,便知一地之历史兴衰、经济枯荣、社会变迁、政权隆替、民族分合等等,其对于总结历史经验,汲取历史教训,发挥区域优势,振兴一方经济,繁荣一方文化,都是宝贵的信息资源和知识财富。[1]随着改革开放的逐步深化,地方志更是政府展示自身形象和对外宣传的重要手段,为地区招商引资和旅游开发提供强有力的历史依据和智力支撑。自2001年12月20日全国地方志第三次工作会议明确提出“要开发利用方志资源,大力推进地方志工作的数字化、网络化建设”以来,全国有山东、黑龙江、上海、安徽、福建、北京等省市志办都建立了自己的网站。地方志数字化、网络化、信息化建设的蓬勃发展,使得网络上的地方志资源呈几何级数方式增长。如何整合地方志资源,引入计算机技术、信息检索领域的最新成果,实现“破解用户之意,切返用户所需”的全文信息检索,成为地方志信息系统建设中的热点问题。
全文检索是指计算机索引程序通过扫描文章中的每一个词,并建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户[2]。全文检索技术的迅猛发展,为广大方志用户从以网页、word文档、txt文本、pdf文件、地方志数据库等各种形式存在的海量文本数据中检索出有效信息,进而挖掘出潜在价值信息提供了借鉴。为地方志信息的数据挖掘提供技术支撑。有鉴于此,本文对地方志数据库全文信息检索作一初步探讨。
1、地方志的基本特点
地方志是重要的地方文献,是一个地区的史书,其资料取于当地的档案、访册、谱牒、传志、碑金碣、石、测绘、笔记、信札、诗文集等原始材料,蕴含着丰富翔实的地情资料,因而为中外古今人士所瞩目,并享有“地方百科全书”的美誉。[3]地方志是某一地区发展进程的最基础、最原始的真实记载,涉及领域广,历史跨越周期长。其主要特点有:
数据量巨大。地方志是一种经过调查、整理编篡的文献资料,是复杂的数据信息集合。地方志信息类型复杂、形式多样,是一种海量数据信息。
具有空间数据特征。地方志信息通常是与空间数据相关的,如某一个行政区划的工农业总产值、道路的等级、河流的冰封时间等。空间数据表达可以借助地理信息系统手段来实现。地方志各要素基于自然语言描述的相互关系,使得其空间数据特征表达更加复杂。
具有时态数据信息。因为要记录某一地方的历史情况,必须具有时间信息,记录某一地区在某一时