文档介绍:中国政法大学学报 2012年第3期(总第29期)
互联网环境中法律信息获取方法研究*
黄都培
[ 摘 要] 互联网的飞速发展,一方面为信息的获取提供了便捷的方式;另一方面,网络
中大量且多义性的信息又为准确、高效的知识获取提出了难题。本文就网络环境中法律信息的获
取问题,通过对国内外领域知识检索的研究,提出并设计了一套基于法律信息主题词表及元数据
的语义检索思路和模型,为法律领域的知识获取进而辅助司法判案决策提供了可借鉴的方法。
[ 关键词] 互联网 法律信息 知识获取 知识单元 元数据 语义检索
[ 作 者] 黄都培(1957 年—),女,北京人,中国政法大学科学技术教学部教授,计算
机科学与技术硕士,民法专业研究生。研究方向为计算机应用。
中图分类号:D90 文献标识码:A 文章编号:1674—0602(2012)03—0022-09
一、引 言
今天,计算机网络和信息技术的迅猛发展大大地推动了社会的发展,它的影响和溯及力已经遍
布整个社会的方方面面,并且在法律领域逐渐显示出强有力的优势,无论是对日常的司法业务处理,
还是法学研究与司法办案决策都赋予了新的方法和思路,越来越发挥着它的辅助支持作用。
然而面对着网络中越来越错综复杂、难以描述的模糊问题和海量非结构化的数据,如何满足对
其高效的查询请求,以更低的成本、更准确的数据和更迅捷的速度作出正确的决策,是当前信息获
取和利用所面临的关键问题。司法决策人员在查询目标不很明确的状况下选择决策依据时,注重的
是如何从浩如烟海的数据中快速地调出与案件相关的法律、法规及判例,而不是遍历庞大的互联网
或数据库资源漫无目标地搜寻。而目前大多数网络搜索引擎和信息获取工具是基于检索提问式关键
词匹配技术,在检索的过程中常常出现的两类主要问题是“信息过载”和“内容不匹配”。前者指在
检索过程中系统返回的信息量过多,与查找相关或不相关的内容都冒出来,使用户应接不暇,难于
接受;后者指因对同一个概念的表述出现多义、歧义,返回的信息并非用户真实的查询意图和内容,
查准率和查全率都得不到保证。
要解决网络环境中上述信息获取存在的问题,实现真正意义上的面向法律领域的知识检索,从
理论层面上,必须构建以法律领域知识为基础的用于语义检索的元数据标准,用来对网页中的相关
信息标引和知识抽取,以便将用户查询请求准确地与网页上查询的法律知识目标相匹配;这就要求
我们对来自网页或数据库的法律信息进行整理、组织和特征分析,依据法律领域专家所设计的法律
* 本文系教育部人文社会科学规划基金项目——“法律信息元数据及其语义检索研究”(项目编号:08JA820039)成果。
·22·
1
·互联网环境中法律信息获取方法研究·
信息规范标准,建立可利用和共享的法律知识单元和元数据,以达到智能和准确的语义检索,实现
面向法律领域的知识获取,为司法业务信息化和司法决策信息化提供更加有力的支撑。
二、法律信息资源的构成与语义特征分析
(一)法律信息知识单元的组织
一般来说,在法律文献中的知识内容是由若干个知识单元组成,知识单元之间的结构关系是相
对固化的。用户在网上查找其中的知识时,只能按照编者事先组定的线性方式读取,即使只想获取