1 / 24
文档名称:

从语料库中挖掘知识-北语.doc

格式:doc   大小:1,481KB   页数:24页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

从语料库中挖掘知识-北语.doc

上传人:cjrl214 2019/6/27 文件大小:1.45 MB

下载得到文件列表

从语料库中挖掘知识-北语.doc

相关文档

文档介绍

文档介绍:从语料库中挖掘知识MiningKnowledgefromCorpus冯志伟提要:本文主要介绍中国传媒大学依存树库研究团队从依存树库中获取语言学知识的一些工作,如,汉语名词语法功能的研究,20种语言中心词居前与中心词居后的分布研究,汉语复杂网络的研究。这些工作都是在汉语依存树库的基础上进行的。本文也简要地介绍了国外从语料库中获取非语言学知识的研究。20世纪90年代以前,从事计算语言学系统开发的绝大多数学者,都把自己的目的局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法-语义分析,尽管这些应用系统在某些受限的“子语言”(sub-language)中也曾经获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。因为从自然语言系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所远远不及的。而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表示和管理知识等基本问题上,不得不另辟蹊径。这样,就提出了大规模真实文本的自动处理问题。1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议(即COLING'90)为会前讲座确定的主题是:“处理大规模真实文本的理论、方法和工具”,这说明,实现大规模真实文本的处理将是计算语言学在今后一个相当长的时期内的战略目标。为了实现战略目标的转移,需要在理论、方法和工具等方面实行重大的革新。1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(TMI-92)上,宣布会议的主题是“机器翻译中的经验主义和理性主义的方法”。所谓“理性主义”,就是指以生成语言学为基础的方法,所谓“经验主义”,就是指以大规模语料库的分析为基础的方法。从中可以看出当前计算语言学关注的焦点。当前语料库的建设和语料库语言学的崛起,正是计算语言学战略目标转移的一个重要标志。随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法(即经验主义的方法)至少是对基于规则的分析方法(即理性主义的方法)的一个重要补充。因为从“大规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。但是,要想使语料库名符其实地成为自然语言的知识库,就有必要首先对语料库中的语料进行自动标注,使之由“生语料”变成“熟语料”,以便于人们从中提取丰富的语言知识。可以看出,计算语言学现在正在面临着一场战略转移。这场战略转移的关键是知识的获取方式和方法:从依靠“内省”方式转向依靠“语料”的方式,从基于“规则”的方法转向基于“统计”的方法。面对计算语言学的战略转移,我觉得,语言学在获取知识的方式方法也应当进行一场战略转移。与计算语言学相似,传统语言学家获取语言知识的方法基本上是通过“内省”进行,由于自然语言现象充满了例外,治学严谨的学者们提出了“例不过十不立,反例不过十不破”的原则,这样的原则貌似严格,实际上却是片面的。在成千上万的语言数据中,只是靠十个例子或十个反例就来决定规则的取舍,难道真的能够保证万无一失吗?显然是不能保证的。因此,“例不过十不立,反例不过十不破”的原则只是一个貌似严格的原则,实际上是一个很不严格的原则。现在,是抛弃这个原则的时候了。语料库是客观的、可靠的语言资源,语言学研究应当依靠这样的宝贵资源。语料库中包含着极为宝贵的语言知识,我们应当使用新的方法和工具来获取这些知识。当然,前辈语言学家数千年积累的语言知识(包括词典中的语言知识。语法书中的语言知识)也是宝贵的,但由于这些知识是通过这些语言学家们的“内省”或者“洞察力”发现的,难免带有之主观性和片面性,需要我们使用语料库来一一地加以审查。语言学的一切知识,都有必要放到语料库中来检验,决定其是正确的,还是片面的,还是错误的,甚至是荒谬的,从而决定其存在的必要性,决定其是继续存在,还是放弃其存在。我们可以预见,语言学研究战略转移的时代必将到来!一种新的基于语料库的研究方式必将代替传统的依靠“内省”的研究方式,“内省”的研究方式今后只能是基于语料库研究方式的补充,而决不能是语言学研究的主流。“从语料库挖掘知识”—这应当现代语言学的基本研究方法。自然语言处理中的战略转移,必将影响到传统的语言学,传统语言学战略转移的时刻或迟或早总会来临。从语料库可以挖掘的知识,可以是语言学的知识,也可以是非语言学的其他有用的知识。由于时间的限制,这里我们着重讲怎样从语料库挖掘语言学知识,最后,我们举一个例子说明怎样从语料库中挖掘非语言学知识。一、从语料库中获取语言学知识语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。计算机出现

最近更新

中班科学教学活动含 33页

企业班组上半年工作总结三篇 8页

2024年功能涂料项目资金申请报告代可行性研究.. 67页

2024年铬铁项目资金筹措计划书代可行性研究报.. 64页

2024年酊剂项目资金需求报告代可行性研究报告.. 69页

幼儿故事开心拔河 12页

九九重阳今又重阳的节日作文十篇 8页

《变化的星空导学案-2023-2024学年科学青岛版.. 5页

复合材料层合板的低速冲击损伤模拟的开题报告.. 2页

堆积体高陡边坡开挖稳定性分析与加固技术研究.. 2页

基于随机地震响应的隔震结构性态设计方法研究.. 2页

基于超声导波技术的复合材料板无损检测研究的.. 2页

基于综合效果评价的再生水消毒方法应用研究的.. 2页

基于移动终端的Web信息检索技术研究的开题报告.. 2页

基于用户行为和关系的内部风险分析中期报告 2页

基于生命周期理论的中国职业体育俱乐部融资方.. 2页

2024年年度先进个人总结(通用22篇) 58页

2024年年度个人工作总结7篇 23页

2024年平面设计专业求职信四篇 4页

基于无线信道特征的智能电网安全增强中期报告.. 2页

2024年师德行为心得体会(精选6篇) 13页

基于改进MC算法的脑图谱三维可视化应用研究中.. 2页

基于拉曼光谱的食用植物油定性鉴别与定量分析.. 2页

基于感知成本的低收入人群通勤交通方式选择研.. 2页

基于微流控芯片技术COPD向肺鳞癌恶性转化的机.. 2页

《无创呼吸机应用》课件 23页

学生家长对学校工作满意度调查表 3页

煤炭矿井防治水设计规范 43页

厂房消防合同 5页

2021年大金空调维修收费基础标准大金多联机维.. 13页