文档名称：

一种基于规则的模糊中文地址分词匹配方法.pdf.pdf

格式：pdf 页数：4页

下载后只包含 1 个 PDF 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

一种基于规则的模糊中文地址分词匹配方法.pdf.pdf

上传人:jiaxidong_02 2015/9/9 文件大小：0 KB

下载得到文件列表

一种基于规则的模糊中文地址分词匹配方法.pdf.pdf

相关文档

文档介绍

文档介绍：第 27 卷
第 3 期地理与地理信息科学 V o l. 27
No . 3
2011 年 5 月 G eog raphy and Geo - Info rmation Science M ay 2011
一种基于规则的模糊中文地址分词匹配方法
程昌秀, 于
滨
( 中国科学院地理科学与资源研究所, 北京 100101)
摘要: 在研究分析地址模型的基础上, 建立了存储标准地址数据集的标准地址库和自定义的地址匹配规则库, 提出
了一种基于规则的模糊中文地址编码方法。该方法在依据标准地址库分词的同时, 也沿着自定义的地址匹配规则
进行推理, 从而缩小了下次分词所用到的目标数据集, 提高了系统执行效率。另外, 通过借助构建的规则树与歧义
栈, 提高了文中定义的两类模糊地址匹配的成功率。最后, 基于该算法建立了一个地理编码原型系统, 并利用经济
普查项目中的相关数据对算法的可用性进行了验证。
关键词: 地理编码; 模糊地址; 规则库; 地址分词
中图分类号: T P391
文献标识码: A
文章编号: 1672- 0504( 2011) 03- 0026- 04
性实现了空间与非空间信息的相互转换[ 7] ; Go ld
0
引言
berg 等初步探讨了地理编码过程中存在的误差、不
随着电子地图的应用与普及, 许多行业都需要确定性以及评测标准等常见问题[ 8] ; 郭会提出了使
将大量自然语言描述的中文地址映射为地理坐标, 用自动机对中文地址进行描述的方法, 并研究提出
并定位到电子地图上, 从而使原有非空间数据获得了基于中文地址自动机的中文地址分词算法[ 9] 等。
空间坐标信息, 实现各部门和各地理范围的数据整但是, 这些研究仍然存在着许多需要改进的地方和
合与共享。地理( 地址) 编码就是一种把文本地址转问题:
换成地理坐标的技术[ 1] 。( 1) 地址标准化本身工作量非常繁重, 并且很难
地理编码一般包括地址标准化、地址分词、数据穷举和定义出所有错误模型, 故应设法提高对于非
库匹配、空间定位等步骤。其中, 地址标准化是指通标准的模糊地址的匹配成功率, 降低对地址标准化
过更改格式和纠正拼写等方法对地址进行规范化处步骤的要求。其中, 本文涉及的模糊地址主要包含两
理; 地址分词是指通过某种中文分词算法将地址分类: 一类是指在数据库匹配时可能产生语义歧义的地
解成多个最小地址要素[ 2] ; 数据库匹配是指在标准址, 本文将其定义为
第一类模糊地址
; 如
文慧园 2
地址数据库中找到与该地址最接近的标准地址; 空号
中
文慧园
一词, 匹配可能会出现
文慧园西路
、
间定位则是根据这个标准地址的地理位置推理该地
文慧园东路
、
文慧园小区
等多种情况。另一类
址的空间位置并定位。上述步骤是地理编码的核心是指信息残缺地址, 本文将其定义为
第二类模糊地
内容, 也是国内学者研究的重点。陈细谦等尝试在址
; 如
清河中街 69 号
相对于标准地址
清河中街
地址标准化阶段对数据进行数据清洗, 通过总结地力度家园 69 号
缺失了
力度家园
这一地址要素。
址错误模型和使用有穷自动机实现数据的规范( 2) 目前中文地址分词和数据库匹配主要基于
化