文档介绍:第卷第期测绘与空间地理信息.,.
年月& .,
地名搜索系统的关键技术设计与实现
陈德权
福建省基础地理信息中心,福建福州
摘要:针对地名搜索系统的关键技术,阐述了用于分词搜索的词典设计,设计了中文分词算法;选用全文检
索引擎实现了地址匹配组件;设计了地名搜索系统架构并实现了地名搜索功能。
关键词:;地名搜索;中文分词;地址匹配
中图分类号: 文献标识码: 文章编号:———
—
,,
: ,
,——
..
:;; ;
词典中获取,分词词典的查询速度直接影响到分词系统
引言
的准确率和速度。而词典结构的设计是关系到词典查询
地名搜索是系统中的核心搜索功能之一,其搜索速度的最重要因素。本文结合地名地址的构词特点设计
结果的准确程度直接关系到系统的实用性。因此地名搜了分级的词典结构,并针对此词典结构进行分词算法
索服务应能较为准确地识别用户搜索意图以达到结果的设计。
最优化目的。而中文分词和地址匹配则是地名搜索的核. 词典结构设计
心技术。所谓中文分词,即把中文汉字序列切分成若干传统的基于词典的中文分词方法都只有一个分词词
个有意义的词。中文分词技术在地名搜索功能中扮演着典,词典一般有十几万个词条甚至更多,规模都比较大。
非常重要的角色,通过中文分词,能将地名数据的相关信因此需要对词典结构进行重新设计,将以往单一的分词
息的文字描述以及用户输入的查询文本拆分成有意义的词典分解为由基本词词典、特征词典所组成的词典集。
词供系统进行检索匹配。匹配过程也包含了地址匹配技结构如图所示。
术,它是根据输入的包含地址信息的文字按照一定的地基本词词典由以往的单一分词词典中除去在特征词
址匹配策略与地理编码库中的地址信息进行比对,从而词典中包含的所有特征词后所剩余的法定常用词和短语
获得相应的空间位置。只有将中文分词技术和地址匹配构成,由于排除了特征词,在基本词词典中只包含两个字
技术解决之后,才能建立一个较为良好的地名搜索服务, 以上的词,这样就减小了词典规模并且使词典的查询方
才能充分发挥在地名地址查找的优势。式统一起来,不再考虑是否为单字词的问题,减少了查找
匹配过程中的判断次数,提高了算法查询的速度。
中文分词设计
特征词词典由一些在分词过程中具有标识意义的词
在中文分词系统中,词典至关重要,它是中文分词的组成,包括领域词典、数字词典、字母词典,每个词典中的
基础。中文自动分词所需要的各类信息知识都要从分词词按照一定的顺序排列。其中,数字词典用于解决在分
收稿日期:——
基金项目:年福建省测绘地理信息局科技项目闽测信科号资助
作者简介:陈德权一,男,福建福州人,工程师,硕士,年毕业于福州大学地图学与地理信息系统专业,主要从事地理信息
系统开发工作。
第期陈德权:地名搜索系统的关键技术设计与实现
常由专名和单字通名构成,如“鼓楼区”、“华林路”等,其
中“鼓楼”、“华林”为地名专名,“区”、“路”为地名通名。
别的地名地址词,当有单字存在于地名通名词典中时,将
其与前面未登录单字合并,形成二次分词结果。如对“华
林路”分词,