文档介绍:山东大学
硕士学位论文
基于语料库的现代汉语准口语计量研究
姓名:吕艳辉
申请学位级别:硕士
专业:语言学及应用语言学
指导教师:盛玉麒
20050427
巡/论文作者签名:曼垫叠论文作者签名:量整望导师签名:论文作者签名:亟丝际η┟原创性声明关于学位论文使用授权的声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。C苈畚脑诮饷芎笥ψ袷卮斯娑期:
行了系统区分的基础上,对本文的研究对象——准口语一进行了定义,即不同于中文摘要本文以现代汉语口语与书面语的“过渡状态”——准口语为研究对象,在大规模真实语料的支持下,在对准口语与书面语以及不同类型的准口语之间进行对比分析的基础上,对现代汉语准口语的用字、用词情况和特点作了尽量详尽的动态描写和计量分析,并试图在此基础上探索现代汉语书面语、口语的自动文体判断规则与本章首先概述了准口语的概念和性质、意义与研究方法。在对口语和书面语进完全自然口语的、带有人为加工痕迹的口语。准口语不同于书面语,也不同于完全自然状态下的口语,有独特的研究价值和意义。目前口语研究多为经验性的研究,本文主张在以往经验性研究的基础上,利用大规模语料库结合基于规则的方法,对准语进行定量与定性分析,从语料库中发现问题,用语料库所提供的数据分析问本章简述了建立现代汉语准口语语料库的目的、语料选取原则、语料类型与结构、语料库自动分词与标注的基本情况。本章在考察和借鉴了目前已有的现代汉语口语语科库的基础上,提出了“准口语语料库”的概念,并对服务于本研究的万字的现代汉语准口语语料库的建立、加工过程和情况做了介绍。第三章现代汉语准口语的字频分析使用情况。从这些高频字作为最常用的单音节词使用来看,其中代词的比例很大。从音节结构来看,高频字的音节总体上比较简单。最高频字。的”的频率随准口语类型逐渐接近日常自然口语而逐渐降低。准口语总用字数在左右,六种准口语类型中出现次的最低频字平均为郑甲茏种质慕ァ第四章现代汉语准口语的词频分析使用情况和特点。准语中后缀的使用较少,且切分错误较多。六种类型的准口语前位高频词的累积覆盖率平均为.%,高频词多为单音节词。只出现R次的低频词数占总词条数的比例平均高达.%。由高频词的高覆盖率及低频词的高词种数,我们得出了准口语用词比较简单的结论。第五章准口语特征与讨论重叠形式词语、。子”后缀词、“说”系列词等从形式、内容、功能等方面体现了口语特色。后缀“们”的不同使用情况体现了各种准语类型的语化程度的不同。口语词也是准口语用词特色之一,应依靠口语词词库来进行判断。结语部分对本研究加以总体概括,并指出了研究中存在的不足之处,同时提出了进一步研究的设想。方法。全文共分五章第一章概论题。第二章现代汉语准口语语料库的设计与建立由于汉字与汉语音节的对应性,考察汉字的情况,实际上反映了口语中音节的不同准口语类型的人名、地名,商标、机构名、数字、英文字符等具有不同的结语山东大学硕士学付论文
关键词:语料库准口语字频词频山东大学硬士学付论文
瑃:.仟莔琧,,甒辬甦,%,琤,,,琱,芬籷,瑆甌,篒.。。,甊畉“”篈。...山东大学硕士学付论文琩.,
痗,。。、、甌甌.%.—甌.%.瑆.:獁,“,甌’...:.
第一章概论一、准口语的概念和性质口语和书面语是语言学中经常使用的两个术语。然而,对两者进行严格的定义和划分却是非常困难的,不同的学者从不同的研究角度对其进行定义,我们尽量详尽地将其归纳为以下几个方面:⑹褂玫某『喜煌MǔG榭鱿拢谟锸侨嗣敲娑悦娴鼗蛘咄ü髦滞ㄑ豆具进行言语对话的语言形式。书面语是通过文字进行交际、沟通而形成的语言形式。⒉奔洳煌J奔渖侠此担嗣鞘褂每谟锝患实睦肥谴佑镅缘且⒃靥逍问讲煌R话闱榭鱿拢谟镆陨粑T靥澹槊嬗镆晕淖治T靥濉⑺咧罡芯醪煌?谟锸翘祷ザ墓蹋簿褪撬担谟锼咧钐酰奔空间上是同时同地的。书面语是读写互动的过程,书面语诉诸视觉,时间空间上基本是不同时同地的。⒊S眯圆煌?谟锝患适侨嗣亲罨尽⒆畛S玫慕涣魇侄巍J槊嬗锒辔H们获取知识和信息的手段。绺癫煌?谟镄问搅榛睢⒈泶锷槊嬗锕娣丁⒀辖鳎贰⒂么什煌?谟镏惺褂玫拇视锒喑S么世砺畚恼隆⒐牡仁槊嬗锸褂么书面语色彩的词语多一些。⑼6俦泶锓