文档介绍:SEWM2006中文网页分类评测参赛系统说明
北京大学信息管理系
系统模块结构
分类模块
特征提取模块
中文分词模块
网页净化模块
训练集1
格式转换
CWT200G
建分类模型
特征优选
中文分词
网页净化
中文分词
网页净化
训练集2
进行分类
特征表示
中文分词
网页净化
评测结果
建分类模型
特征优选
分类结果1
分类结果2
评测结果
图1:分类系统模块结构
从功能上看,该分类系统实现了网页净化、中文分词、特征提取、分类、结果评测等功能。其中,系统的四个主要的功能模块是:
1、网页净化模块。该模块去除了网页中的“噪音”内容,保留了和网页主题相关的文本内容。
2、中文分词模块。该模块将网页净化后的文本转换成特征词项的集合。
3、特征提取模块。该模块从中文分词得到的词集中选取最能代表网页主题内容的一部分词语,形成网页的特征向量表示。
4、分类模块。该模块通过分类算法计算网页特征向量和类之间的相似度,最后确定网页所属的类别。
各模块主要算法
1、网页净化模块
对网页编码格式进行装换和统一
分析网页结构,去除超链,标签,Script代码,Style代码
保留正文中的英文、数字及汉字部分,其余部分全部去除
对于保留下来的标题和正文部分,按照4:1的比例分配权重
2、分词模块
在训练集的处理阶段,采用了中科院的切词系统进行分词
由于中科院切词系统非常的不稳定,在处理待分网页时,利用先前产生的特征项词表,自己开发了采用逆序最大最长匹配算法的切词系统
3、特征提取模块
前期试验了Df、信息增益、互信息等多种方法,根据试验比较,采用信息增益提取特征项
按信息增益值从大到小的顺序对所有词语进行了排序,然后从中取出了前20%的词语,并去除了其中的数字和英文,将剩下的词语作为提取的特征项
经过比较,最后选取tf*idf方法对每一个特征项进行了加权
4、分类模块
SVM分类器
KNN分类器
两种分类器的结合
SVM分类器
在实现SVM分类模型时,我们采用了台湾大学的LibSVM软件包,选取了Libsvm-errorcode工具。
我们选取了RBF核函数,选取了scale方法、调整了train参数、predict参数。然后,我们测试了模型中的两个参数c和g,首先用大步长分别进行测试,-validation,最后得到了最优的c和g的值。
KNN分类器
K=15:对10到20之间的K值进行了验证,发现15是出现峰值
相似度:余弦相似度
相似度加权:
计算文档与每个训练文档相似度是使用了相似度加权
设置特征项权重的阈值:
对于每篇文档,将权重低于某阈值特征项舍去。原因在于余弦相似度是全局相似度,权重极低的特征项对结果影响非常小,舍去可大大提高分类速度,但对分类效果影响极小。
建立倒排表
全局相似度;权重极大的项影响相似度,因此每篇训练文档按照其中权重大于一定阈值的特征建立倒排表;待分文档按照同样阈值选择所包含特征项,查找倒排表,生成候选项。然后从中确定K-NN。此举也大大提高了分类速度,但对分类效果影响极小。