文档介绍：第卷第期中国海洋大学学报:~
年月.,
一种基于—的海洋文献分类方法
徐建良,姜亦宏,张巍,王秋红
中国海洋大学计算机科学与技术系,山东青岛
摘要使用有监督机器学习方法进行海洋文献的分类往往存在人工标注量太大的缺点,针对这个问题,提出利用半监
督机器学习中的协同训练—方法来实现减小人工标注量的目标。该方法从个分别训练不同的分类器,
在此基础上,根据少量有标注文档从大量无标注文档中获取有用信息,通过协同训练来提升个分类器的性能,并训练出
最终分类模型。实验结果表明,在人工标注仅篇文献的条件下,该方法最终的分类性能十分接近需人工标注多篇文
献的有监督分类器。这说明将方法应用于海洋文献分类可以大大减小人工标注量,并有着较为良好的分类性能。
关键词: 海洋文献;文本分类;机器学习;半监督学习;协同训练
中图法分类号: 文献标志码: 文章编号: ———
世纪是中国海洋经济快速发展的重要时期。以的分类问题可以归结为种基于机器学习的文本分类
年为例,全国主要海洋产业总产值达亿元, 问题。近年来,构建基于机器学习问题的自动文本分
海洋产业增加值为亿元,相当于同期国内生产总类系统已经成为许多领域研究人员的热门研究课题。
值的. ;预计到年海洋产业的产值将达到国其基本思想为:首先对文本进行预处理,将文本用模型
内生产总值的,将成为国民经济新的增长点。表示,进行特征提取;然后构造并训练分类器;最后用
随着因特网和信息技术的发展,信息资源浩如烟分类器对新文本进行分类。构建分类器所采用的算
海,从中获取海洋学科的信息犹如大海捞针。例如,国法主要有朴素贝叶斯方法,—
际著名的《》简称方法。,多层神经网络法,最大熵方法和
数据库数据统计结果表明,年,个方法等等。
国家和地区被收录的科学论文总数为传统的机器学习方式分为有监督和无监督种。
篇,其中海洋论文为篇,占总论文数量的有监督机器学习要求训练集所有样本必须带有标注好
.
。对于海洋学科研究人员来说,每年要从上百的类别,而无监督机器学习只要求给出训练集即可。
万篇的论文中挑选出所需要的海洋学科论文,是一项有监督机器学习方法的效果较为理想,但是要想得到
极为艰巨的任务。另外,对国内各海洋院校来说,其图分类效果较好的分类模型,往往需要几百甚至几千个
书馆文献库每年要收录相当数量的海洋文献,而对这有标注样本进行训练,人工标注量太大;另一方面,无
些文献进行人工分类是十分艰巨而缓慢的劳动,分类监督机器学习方法会浪费宝贵的有标注资源,而且也
效率的低下使得目前海洋文献利用率普遍不高。据统难以保证分类的正确性。而现实中的情况是,有标
计,中国图书馆界和各类情报所收录的中文文献注的样本资源非常稀少,获取的代价也相当高昂;无标
以上未被利用,外文文献以上长期未被利用,海洋注样本资源十分丰富,获取代价相对低廉,却被搁置一
学科研究人员在进行科学研究过程中至少要花~ 旁,没有加以利用。无标注样本中的数据虽然不能直
一的时间去筛选获取信息。因此,如何高效率的接用来训练传统的分类器,但是可以从中分析数据的
进行海洋文献的分类已经成为海洋学科研究工作的重结构和分布信息。如果能够充分利用这些信息将有效
要内容。地提高分