文档介绍:词汇-语法理论在自然语言处理中的应用
靳光瑾
教育部语用所
guangjin_2000@ vip.
e.
自然语言处理学术研讨会复旦上海 2004-07-11-13
词汇-语法理论
(Lexique-Grammaire,Lexicon-Grammar )
法国计算语言学家 Maurice Gross(1934-2001)基于
美国语言学家Zellig Harris(1909-1992)的语言学理论而创建的。
1934年生于法国东北的色当市(Sedan)。
1955年进入法国理工大学(Ecole Polytechnique)。
1961年首次访问美国,对乔姆斯基的研究产生兴趣。
1964年接受哈里斯的邀请重返美国,在哈里斯的指导下取得美国宾夕法尼亚大学的博士学位。
从此奠定了他一生从事形式语言学研究的基础。他已敏锐地意识到语言的精密描写是语言形式化的前提。
1967年与法国数学家 A. Lentin合写了『形式语法概念』(Notions sur les grammaires formelles, Gauthier -Villars) 一书,受到学界的高度重视。乔姆斯基写了序言。
Maurice Gross 与“词汇-语法”
(Lexique-Grammaire,Lexicon-Grammar )
乔姆斯基在1965年发表的《句法理论面面观》(Aspects of the Theory of Syntax) 一书中已觉察到探寻语言运作规则时无法回避词项制约的问题。
他在书中写道:“词汇结构的大部分其实只是音位和句法规则系统所引致的分类。Postal曾经提出,对于每一条规则R都应该对词项进行分析,应该把词项分类为应该、能够和不能够使用于规则R (…) 我提出这种种情况,目的仅仅在于指出,当我们认真地思考词项结构时,存在着多种有助于解决问题而尚未探讨过的方法。(…) 就目前来说,我们还在对数据进行分类。至于哪些制约是属于语言内在的东西,哪些可以通过深入的分析加以消除还是悬而未决”。
1968年创建了法国科学院(CNRS)直属的计算语言学研究所(LADL : Laboratoire d’Automatique Documentaire et Linguistique)
该研究所是词汇-语法研究的核心基地,拥有30多名研究人员并培养大批博士生扩充梯队建设。在法国许多大学都建立了词汇-语法研究中心,如巴黎第八大学(R. Vives)、第十三大学(G..Gross),外省的里尔大学(A. Dister),弗朗什-孔泰大学(M. Silberztein),格勒诺布尔第三大学(M. Piot)等。海外学者把词汇-语法带到了国际语言学的舞台上去。
开展了一项对全部法语词项的句法个性进行系统的、穷尽的描写的雄伟工程。
1975年出版了开山之作《句法学入门》(Methodes en syntaxe, Hermann),这本原创性巨著详尽论述了词汇-语法的理论基础、研究框架及实践原则。
1976年出版《法语核心句- 不及物结构》(La structure des phrases simples en francais – constructions intransitives, Droz)
1992年出版《法语核心句- 带处所词的及物结构》(La structure des phrases simples en francais – constructions transitives locatives, Droz)
数十年期间,完成了大量的基础研究。一共描写了6000个法语形态动词,31000个句法动词,制作了81个矩阵图。
-25000个固定搭配,分成20个表;
-3400个以句子为补语的简单动词,分成18个表;
-10300个带名词性补语的简单动词,分成43个表。
这仅仅是就动词来说的。名词、形容词、副词等等也有相当可观的积累。
在拥有大规模的实证描写基础上,开始了两项具有深远意义的计算语言学工程:
一、构建法语电子词典。
简单词电子词典(DELAS)已登录90000词项,复合词电子词典(DELAC)已登录100000词项。
二、开发有限状态图,以表述复杂的微观系统;这种基于有限状态图的表述方式产生了容量可观的图库,当中每一幅图,显示着特定的句法或语义领域中种种词项的组合集。图库有助于把整个系统(电子词典和局部语法)的形式处理划一化,并且给出种种歧义现象的清晰图像。
INTEX系统以及后续的UNITEX系统应运而生。
系统提供了法语句法最全面、最完备、最系统的数据。
欧美越来越多的研究机构开始加以运用。大大提升了法语信息处理的能力。
建立 RELEX的网络,目的在于加强国际间研究机构的合作(第一阶段涉及法语、德语