文档介绍：维普资讯
中文信息学报
第卷第期..
汉语语料的自动分类
一;一
昊军王作英禹锋王侠;
清华大学电子工程系
【摘要】语料库语言学的发展要求语井库的规模越来越是。随着电子出版业的迅速发
展, 获取大量机读文本建主失规模语料库已成为可能。但是收集耒的粗语料是杂乱元章
的,在作加工整理前必须分类。若用手工分类剥工作量很太。本文介铝了一种语粹动分
类办法。它采用支中提出的话料相关系数的概禽,并利用不同类语料相关系数不同的特点
进行分类, 取得了蚰%的太类分类正确率。
关键词:塑堡茎坌叁塑墨墨垫怒涛
一介绍
近十几年来,语料库语言学得到了长足的发展,语科库的规模也越作越太。六、七十
年代的语料库和语料库各有一百万字,到八十年代,新的语
科库和/语料库规模已在二、三千万字, 而
用于枷练,语音识别系统的语言模型所建立的语料库规模更是太到上亿
字。在国内也有不少家研究单位,包括本课题组,研究了语辩库的建设问题,并建立了上
千万字的语料库【,,但是仍不能满足科研进一步的要求。目前,尽管由于电子出版业的
迅速发展,直接获取大量机读文本建立更太规模语料库以成为可能,但是语料处理的速度
相对落后于粗语料收集的速度, 因为目前对粗语料的很多处理过程依然以手工处理为主。
因此,只有尽可能摆脱手工处理方式,利用计算机进行自动处理才能适应建立大规模语料
库的要求.
由于从电子出版物中收集来的粗语料是杂乱无章的,首先必须对它们进行分类,然后
才能进行进~步的处理加工。以前分类的工作完全是手工完成的。它是一项非常枯燥而繁
重的工作,而且要求分类人的语言水平较高。因此如果能代之以自动分类,无疑将大大加
快语料处理的进程。
日前国内外均已开展了有关的研究。例姐: 国外的软件, 是一个在
,可以从
上找到使用者所关心的各种文献,并且使用者可以对检索出的文献是否感兴趣进
行打分,,该软件提供的文献会越
————

●
维普资讯
来越符合使用者口味。在国内,不少研究单位在此方面取得了可喜的成果,包括文献的全
文检索【,】、主题的自动标弓【】、字词频度比较的为主一
些成果已用于实用检索系统中嘲。由于上述方法主要是针对文献检索设计的,而语料的
分类不完全等同于检索,
先比较一二者的区别。
从目标上看,全文检索目的是找出和所关心的主题相关的所有文献要求选全率
高,如果所找的文献中有个别的不是所需的。也殳有太大关系只是增加阅读者的负
担。负作用不大。另外对同一篇文献可以属于多个不同的主题。而语料分类要求分出的
每类语料没有不相关的语料要求准确率高,否则负作用很大;同时,对每篇语料最好
不要兼类, 以避免统计时重复统计。从使用上看。全文检索对速度要求较高, 因为使用者
希望尽可能实时得到检索结果, 故难以采用太复杂的算法;而语料分类町以是批处理方
式,对实时性要求不高, 因此可以采用较复杂的算法. 因此语料分类关键是要把一篇语料
唯一正确地确定到一类