1 / 28
文档名称:

论语言科学与语言技术.docx

格式:docx   大小:41KB   页数:28
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

论语言科学与语言技术.docx

上传人:3099984911 2023/6/6 文件大小:41 KB

下载得到文件列表

论语言科学与语言技术.docx

相关文档

文档介绍

文档介绍:该【论语言科学与语言技术 】是由【3099984911】上传分享,文档一共【28】页,该文档可以免费在线阅读,需要了解更多关于【论语言科学与语言技术 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。尽快复活卡是否会卡萨发挥空间发挥空间安徽发厉害了福建客户说对方了金黄色的发货的空间
2
科技师范看到回复卡号的房间卡恢复我卡恢复了的说法刘德华发生了粉红色的开会方式
论语言科学与语言技术
一、“语言科技”新思维的提出
虽然计算机设计的初衷是缘于数值计算,但是英国数学家图灵()在《机器能思维吗?》(1950)一文中已经预见到计算机和自然语言将结下不解之缘,并且提出检验计算机智能的最好方法就是对语言信息的处理能力。1977年,费根鲍姆(feigenbaum)提出知识工程,计算机信息处理出现了从“数据世界”向“知识世界”的转移趋势。知识世界的载体是语言符号系统,语言信息处理的需求促使语言研究过程和语言研究成果的技术化趋势日益明显,当代语言学已凸显出“语言科学”与“语言技术”的二分互补格局,由此我在《南京师范大学语言科技系建设发展规划》(2001年2月)中提出“语言科技”的新思维。“语言科学”主要指基础性的描写语言学和理论语言学。“语言技术”主要指面向信息处理的应用语言学或计算语言学,其研究任务可划分为“文本处理技术”和“语言模拟技术”。简而言之,语言文本处理技术是通过编辑和编程,将印刷文本转化为可供计算机使用的电子文本的技术。语言系统模拟(simulation)或者语言能力仿真(emulation)技术是通过算法和编程,将自然语言的理解和生成能力输入计算机的技术。获得语言能力的计算机可以实现“人—机对话”而成为名实相符的“电脑”。为研制智能机服务的“语言系统模拟”,可比喻为“语言基因图谱分析工程”和“语言能力移植工程”。强调语言研究的技术化,并非忽视传统语言学研究存在技术性的一面,例如实验语音学和方言语音调查等。之所以以往未能突出语言研究的技术化,其原因在于——除语音研究可借助声学技术设备以外——语言研究的绝大多数领域还一直没有相应的实验性技术设备。
尽快复活卡是否会卡萨发挥空间发挥空间安徽发厉害了福建客户说对方了金黄色的发货的空间
3
科技师范看到回复卡号的房间卡恢复我卡恢复了的说法刘德华发生了粉红色的开会方式
虽然当代语言学家不可能也不必要都转向计算语言学研究,但具有一定的语言信息处理意识却非常必要。早在1964年11月,美国科学院语言自动处理咨询委员会就在《语言与机器》的报告中明确指出:机器翻译遇到了难以克服的semanticbarrier(义障)。然而这一警告,除了致使机器翻译研究热的暂时消退以外,并没有引起语言学界的足够重视。1982年,日本制订了一个为期10年面向ai(人工智能)的“第五代计算机”即智能机的研制计划,其中包括自然语言处理装置。1992年结束时,只部分达到了预定目标。随后又公布了另一个为期10年的“真实世界计算机(rwc)计划”即“新信息处理技术计划”。(许万增1996,-62)据说,90年代后期日本不得不宣布暂停研制,其根本原因就在于未能穿过语言研究的“瓶颈”。自然语言处理装置的任务无法实现,计算机谈何“真实世界”或“人工智能”。时至今日,这一“义障”仍然没有跨越。在《新世纪将对人类产生重大影响的十大科技趋势》(新华社北京2000年12月30日电)的报道中,列出21世纪的“认知神经科学领域”和“信息技术领域”,并分别提出来“探索意识、思维活动的本质”和“计算机向智能化方向发展”的任务,然而没有语言科技领域的合作——关键是认知语义结构网络研究的根本性突破——则不可能实现。
无论从手段还是就目标,对准自然语言处理的当代语言学研究,其性质都应界定为“语言科技”。“语言科技”的内涵是以理论研究为指导,以描写研究为基础,以应用研究为枢纽,促使语言研究向计算机应用、数学、认知科学和现代教育技术领域延伸,沟通文理工相关学科以实现语言研究过程及其成果的技术化;“语言科技”的外延表现为语言工程科技、语言教育科技和语言研究科技。语言学和计算机科学等学科相结合的“语言工程科技”,研究领域是“人—机对话”,其目标主要是自然语言能力的模拟。语言学与现代教育技术相结合的“语言教育科技”,研究领域是“人—人对话”,其主要目标是实现语言教育的多媒体和网络化。“语言研究科技”是将语言研究活动与计算机工具相结合,其主要目标是实现语言学自身的计算机化,包括语料库、词库和句库的研制,语言研究的分析性、统计性、比较性和实验性软件的开发等。这一新思维既突出了当代科技发展所要求的“语言学的技术化”,又体现了以语言学为本而沟通文理工相关学科的研究旨趣。
尽快复活卡是否会卡萨发挥空间发挥空间安徽发厉害了福建客户说对方了金黄色的发货的空间
4
科技师范看到回复卡号的房间卡恢复我卡恢复了的说法刘德华发生了粉红色的开会方式
二、计算语言学的界定要突出技术性
20世纪50年代以后,在理论方法交叉渗透而形成诸多边缘语言学的同时,语言学与计算机结合的趋势开始出现。1954年,在美国乔治敦大学所进行的世界上首次机器翻译试验,标志着计算机科学与语言学的结合已经起步。在这一研究领域,立足于不同的学科视角或知识结构,先后出现了一系列名称术语,如“语言工程”、“语言工程学”、“自然语言的计算机处理”(工科视角)、“语言信息处理”(信息学视角)、“数理语言学”(数学视角)等等。20世纪60年代以后,计算机和语言学的结合逐步深入到语言学的各个领域,形成了包括计算语音学、计算词汇学、计算语法学、计算语义学等分支学科在内的计算语言学(computationallinguistics)。其中“计算语音学”等名词,虽然计算语言学界没人提过,因为已经存在着“言语识别”、“言语合成”等计算机应用专业术语,但是从“语言工程学”到“计算语言学”的术语演变中,透露出“语言学立场”在这门交叉学科中的日益强化。虽然目前的计算机运算速度已经可以满足语言信息处理的技术要求,但是之所以“人—机对话”尚未实现,其“瓶颈”就在于现有的语言研究成果无法满足计算机处理的要求。归根结底,语言信息处理的最终目标就是“计算机模拟语言能力工程”或“语言能力移植计算机工程”。探索语言能力的性质和描写语言系统的结构,这些艰巨性工作还得由语言学家先来完成。语言信息处理或计算语言学务必以语言学为本而以计算机为用。语言学家必须具备“数字化”意识,了解计算机需要怎样的语言描写成果,然后才可能将研究目标对准语言工程。
尽快复活卡是否会卡萨发挥空间发挥空间安徽发厉害了福建客户说对方了金黄色的发货的空间
4
科技师范看到回复卡号的房间卡恢复我卡恢复了的说法刘德华发生了粉红色的开会方式
迄今为止,正如许多发展中学科一样,“计算语言学”的定义尚无一致认定,归纳起来盖有四种观点(侯敏1999,—):
第一种,计算语言学是以计算机为工具研究语言学。侯敏认为,任何一个学科在使用工具方面都是自由的,使用不同工具研究一个学科会带来不同特点,但不因为使用了新工具就产生了新学科。虽然并不排除新工具的使用没有导致新学科的产生,但同样不能否认工具的变革有可能带来学科体系的革命,以致于产生新的分支或交叉学科。现代自然科学之所以能够建立,无疑得益于望远镜和显微镜的应用,前者打开了人类认知的宏观世界之门,后者打开了人类认知的微观世界之门。望远镜和显微镜带来的不仅仅是“这一个工具”,而是人类认知方式的巨大变革,从而引起了天文学、生物学等自然科学的一系列革命,产生了一系列新学科。因此,问题在于如何使用新的工具或新认知方式。如果仅仅利用计算机做语言研究的统计工具,也许不会产生新的分支学科,但是利用计算机作为语音分析和合成的工具,则形成了计算语音学。
尽快复活卡是否会卡萨发挥空间发挥空间安徽发厉害了福建客户说对方了金黄色的发货的空间
5
科技师范看到回复卡号的房间卡恢复我卡恢复了的说法刘德华发生了粉红色的开会方式
第二种,计算语言学是把语言学成果应用于计算机。侯敏认为,计算机的应用领域几乎没有限度,什么学科的成果都可以在计算机上应用,因此在计算机上应用语言学的研究成果不足以建立新学科。问题不在于在什么学科的成果能在计算机上应用,而在于在计算机上所应用的成果的性质。与其他学科研究对象的性质迥然不同,语言学科的研究对象——语言——是人类最重要的认知符号系统和知识载体,因此面向信息处理的语言成果应用于计算机足以建立新的学科。以往的语言学研究是面向人际交流,而计算语言学研究是面向人机交流,两者具有截然不同的性质。版权所有
第三种,计算语言学是研究语言中的可计算问题。侯敏认为,虽然利用可计算理论研究语言符号是建立了一个新学科,但是这种说法偏于保守,没有把计算语言学推进语言学发展的作用充分体现出来。问题在于面向信息处理的计算语言学研究,其显著特点就是语言的可计算性。“推进语言学发展的作用”这不是计算语言学的定义,强调“研究语言中的可计算问题”未必保守,反而突出了计算语言学的显著特点。
尽快复活卡是否会卡萨发挥空间发挥空间安徽发厉害了福建客户说对方了金黄色的发货的空间
7
科技师范看到回复卡号的房间卡恢复我卡恢复了的说法刘德华发生了粉红色的开会方式
第四种,计算语言学是建立基于计算机科学理论的语言学理论。侯敏认为,把计算机科学的基本思想和方法引进语言学领域,不但可以产生许多应用性课题,而且能够促使研究者从新的角度观察语言学,建立与传统语言学不同的理论。因此计算语言学是一种基于计算机科学理论所建立的语言学理论。问题在于:一方面计算语言学需要理论但本质上不是一门理论科学,同时并非所有的计算语言学家都乐意或适合从事理论研究,另一方面计算语言学的应用性质决定了研究成果的技术性特征,而绝大多数人可能更适合于——实际上也更需要——语言信息处理的技术性研究。
第一种和第二种是欧洲流行的广义定义,主张计算语言学是计算机和语言学的交叉,第三种和第四种是盛行于美国的狭义定义,主张计算语言学是计算机科学和语言学的交叉。也就是说,前者仅仅把计算机当成语言学研究中的一种新工具应用,而后者强调计算机学科的要求和理论对语言学的影响。陈小荷(2001)认为,计算语言学就是以计算机为手段来研究自然语言,较严格的定义是“通过建立形式化的计算模型来处理自然语言的一门科学”。要建立形式化的计算模型来处理自然语言,首先要完成适合于计算机使用的自然语言系统的描写。这一面向“人—机对话”的机用语言系统,与以往面向“人—人对话”的日常语法系统不同。因此机用语言系统的描写应当纳入计算语言学的研究范围,即完成了“机用语言系统”以后,才能“建立形式化的计算模型”使计算机获得自然语言能力。综上所论,计算语言学可以定义为——利用计算机作为工具研究语言、研究机用自然语言系统、研究语言系统或语言能力的计算性,同时建构基于计算机应用、数学模型、认知科学等相关学科基础之上的语言理论的新学科。姑且图示如下:
尽快复活卡是否会卡萨发挥空间发挥空间安徽发厉害了福建客户说对方了金黄色的发货的空间
8
科技师范看到回复卡号的房间卡恢复我卡恢复了的说法刘德华发生了粉红色的开会方式
工具性:利用计算机研究语言
计算语言学描写性:研究机用自然语言系统
技术性:研究语言系统的计算性
理论性:建构新的语言学理论
虽然计算语言学的关键任务是研究人机之间的语言交际问题,即“如何教计算机学会说话”。但是从本质上来说,研究语言系统或语言能力的可计算性和利用计算机工具来研究语言是相通的,只是前者探索的是适合于人-机对话的语言能力,而后者讨论的是适合于人-人对话的语言规则。
依据目前的语言研究成果和信息处理技术路线,计算语言学包括应用基础研究、应用研究和理论研究三个方面。(陈小荷2001)应用基础研究指语言处理的基本技术研究。现阶段的主要进展是:1.自动分词技术:这是计算机理解自然语言的第一步。目前汉语书面语自动分词的正确率达到95%以上。2.词语特征标注技术:现阶段的词语特征包括词性和义项,这是句法结构理解的基础。两种标注可采用相似的计算模型但后者要复杂得多,目前尚无大规模的实验结果报道。3.语句分析技术:句法结构和语义结构是自然语言理解的关键技术,目前分析真实文本句子的正确率仅在40%左右。4.语料库建设技术:语料库是为特定目的而收集的言语作品集,包括语料处理和检索。研究语句分析需要存放句法分析树的“树库”,但目前的汉语语料库加工程度较低,所建立的树库很少且规模不大。5.语言知识库建设技术:语言知识包括词汇知识、语法知识和语义知识等,事实性和规则性知识分别放在机读词典和规则库中。语句分析技术之所以不能取得突破,主要原因就是目前尚无适合于中文信息处理的大规模语言知识库。
尽快复活卡是否会卡萨发挥空间发挥空间安徽发厉害了福建客户说对方了金黄色的发货的空间
8
科技师范看到回复卡号的房间卡恢复我卡恢复了的说法刘德华发生了粉红色的开会方式
应用研究指自然语言处理的应用工具的研制。现阶段的热点主要有:1.机器翻译工具:半个多世纪过去了,机器翻译的质量仍然令人失望。现在通行的是有限范围翻译和机器辅助翻译。2.自动文摘工具:微软公司的词处理器word有用于英语的文摘功能,哈工大研制的hit-863i型中文自动文摘系统可按用户设定的比例压缩原文。3.自动校对工具:现在存在的主要问题是误报率过高,并且深层错误难以发现。4.信息检索工具:有主题词检索、全文检索两种。前者需要预先有一个主题词表;后者任意字符串都可成为检索对象。另外从语料库中自动获取各种知识的“信息抽取”在线工具的研究刚刚兴起。5.言语识别和言语合成工具:言语识别(或语音识别)可分为词语识别(计算机口语命令)、有限词汇识别(电话订票)和无限词汇识别(将成段说话转为文字)。言语合成(或语音合成)指用计算机将书面语转换为口语即“文语转换”,存在的问题主要是断词不当且语调刻板,仿真度亟待提高。
尽快复活卡是否会卡萨发挥空间发挥空间安徽发厉害了福建客户说对方了金黄色的发货的空间
10
科技师范看到回复卡号的房间卡恢复我卡恢复了的说法刘德华发生了粉红色的开会方式
然而,如果以为应用性特征明显的计算语言学仅仅是技术,则未免失之于偏颇。计算语言学有着相应的理论研究,大致包括人工智能理论(含计算模型理论。目前的人工智能研究,主要还是集中在人工体能、人工技能。在语言能力移植电脑过程未取得实质性进展以前,还谈不上真正的人工智能)和语言学理论两个方面。例如计算机如何或是否可以模拟人脑和语言能力,如何寻找合适的语言计算模型等,就是计算语言学家特别关心的理论问题。除此之外,还有对自然语言本质属性的重新认定、面向信息处理的机用语法学理论、语言系统与数学模型的关系、语言结构和数理逻辑的关系、语言符号的数字化可能性及其局限性、语言的异质性和受限性或语域理论、元语言理论和研究方法等一系列问题。总体而言,一方面,由于牵涉的学科太多,计算语言学的理论研究还相当薄弱,另一方面,与科技发展息息相关的计算语言学不容过多地沉醉于理论探索。计算语言学的强大发展动力植根于鲜明的应用性,必须通过实践推动理论探索。
三、语言系统的计算机模式化要求
从语言学家的立场出发,语言系统的计算机模式化要求,就是要了解计算机需要怎样的语言描写成果,传统语言学(此处指非面向语言信息处理的语言学)的研究是经验描写解释型,而计算语言学的研究是实验操作技术型,自然语言系统要能进行操作技术化处理,首先必须实现语言的计算机模式化。冯志伟(1999,)认为自然语言处理一般应经过三个过程:,将所研究的自然语言问题以一定的数学形式表示出来;,把自然语言的数学形式转换为算法形式;,根据自然语言的算法形式编写计算机程序。侯敏(1999,)认为语言系统的形式化或计算机模式化必须满足三个要求:,即从语言现象中抽象出一般规则;,即采取形式逻辑、数学公式、程序语言等形式语言作为元语言;,即运用过程必须具有数学与逻辑的严密性。
尽快复活卡是否会卡萨发挥空间发挥空间安徽发厉害了福建客户说对方了金黄色的发货的空间
11
科技师范看到回复卡号的房间卡恢复我卡恢复了的说法刘德华发生了粉红色的开会方式
袁毓林(1993)认为形式语言至少具有三个特点:基本单元的明确性、基本运算和基本关系的明确性、运算优先级别的明确性,但是自然语言在这三方面皆不明确。具体而言,,例如语素、词和词组之间、词类之间的界限不明;,通常所说的结构关系,如主谓、动宾等往往很难明确界定;,人们通常根据语感和语境等来识别结构层次。侯敏(1999,—40)不赞同这种分析,针锋相对地提出:;;,在分析歧义结构中可加入语义限制,至于有些连人都解决不了的层次歧义结构也不必要求计算机解决。侯敏的观点是“理论追求的是完美,工程追求的是适用”,避开理论困难而采取工程方法,可以建立一个语言分析的近似模型。
所谓“语法范畴的边界不明”,主要是因为这些“范畴”的设置从某种程度上肢解了语言事实;所谓“结构关系难以定义”,主要是因为这些“结构”难以反映语言的本质结构;而所谓“层次关系不外显”,恰恰是语言结构的特点之一。这些探索和争论,实际上反映了三个根本性的问题:,不仅是套用西方语法学框架框范汉语事实所产生的龃龉,而且也是语形语法学自身无法克服的固有问题。几千年来的西方语形语法学研究之所以能够存在,就是因为人脑在发育过程中逐步自建构了与认知能力协同发展的语义结构网络,为语形语法规则提供了语义选择清单与路径。虽然这些语形语法规则在人际交流中可以使用,但是在语言能力的计算机移植中却顿时陷入困境,因为计算机不存在语义网络结构的自建构功能,缺少语义激活路径。根据语形语法规则,计算机造出来的符合自然语句标准的概率极低,多为与对象世界不存在一致性的随机词语串。,是基于计算机运算模式的语言研究成果。移植进计算机的“定域受限语言系统”和自然语言系统并不完全相等,严格说来,只是一种接近自然语言的计算机模式化符号系统。,必须建立在语言的本质共性语义性和和计算机数字化运算模式的基础之上。如果对人类语言的认知语义性没有足够的认识,依然安居于语形语法窠臼而迟迟未能建构语义结构网络,语言信息处理的目标则不可能实现。

最近更新

2026安徽中医药大学第一附属医院部分骨干人员.. 49页

2026年c语言上机期末考试题及答案(名师系列).. 13页

2026年c语言初学者编程题目word 13页

2026年c语言指针考试题库及答案(名校卷) 13页

2026年c语言期末考试题库(基础题) 13页

2026年c语言测考试题库(综合卷) 13页

2026年C语言程序设计基础单项选择题库及答案(.. 13页

2026年c语言编程练习题(培优) 13页

2022中国铁路乌鲁木齐局集团有限公司招聘普通.. 39页

2026年C语言试题题库(名师系列) 13页

2023年玉树州遴选公务员考试真题汇编附答案 67页

2024年东乡族自治县幼儿园教师招教考试备考题.. 34页

2026年中医住培带教师资理论考核题库100道附答.. 40页

2026年主管中药师考试备考题100道及参考答案【.. 37页

2026年云南三鑫职业技术学院单招职业适应性测.. 45页

2024年武汉警官职业学院辅导员招聘备考题库最.. 36页

2026年会计专业技术资格考试题库200道含完整答.. 89页

2024年湖南化工职业技术学院马克思主义基本原.. 22页

2026年党员廉政知识试题(典优) 14页

2026年全国二级计算机C语言程序设计题库有答案.. 13页

2026年兰州资源环境职业技术大学单招综合素质.. 44页

2026年刑事诉讼原理与实务模拟题100道【考点精.. 48页

2026年刑事诉讼原理与实务模拟题100道有答案 48页

2026年制冷与空调作业人员考试题库附答案【考.. 40页

2025四川宜宾市屏山县卫生健康局下属事业单位.. 48页

2025国考(地市)《行测》真题库一套 44页

2025宁夏民族职业技术学院自主招聘急需紧缺高.. 33页

2026年卧底笔试题库100道及完整答案【考点梳理.. 39页

2026年安徽城市管理职业学院单招职业适应性考.. 37页

2025年江西信息应用职业技术学院单招职业适应.. 127页