1 / 5
文档名称:

改进的k-均值聚类邮件过滤算法.pdf

格式:pdf   大小:349KB   页数:5页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

改进的k-均值聚类邮件过滤算法.pdf

上传人:文库旗舰店 2022/5/14 文件大小:349 KB

下载得到文件列表

改进的k-均值聚类邮件过滤算法.pdf

文档介绍

文档介绍:文章编号: 1009- 2269( 2010) 02- 0005- 05
*
漂移导致 K 值很难确
征, 并及时捕捉垃圾邮件特征的变化, 是一种更为 定, 在一定程度上影响和限制了其应用的合理性;
精确的邮件过滤技术[ 2] . 然而 基于内容的过滤 仍 此外, 偏斜类分布现 象会导致非垃圾邮件召 回率
存在以下不足: 降低. 为解决上述问题, 本文在球形 K
均值聚类算
1) 概念漂移[ 3] . 用户的喜好随时间变化, 同一 法的基础上, 提出了一种改进的 K
均值聚类邮件
封邮件在一个阶段被用户认为是 垃圾邮件, 在 另 过滤算法.
* 收稿日期: 2009
12
08
基金项目: 甘肃省教育厅研究生导师科研计划项目( 0914
02, 0814
4) ; 甘肃省自然科学基金( 096RJZA084)
作者简介: 包理群( 1983
) , 女, 甘肃定西人, 讲师, 硕士.% 6 %













兰 州 工 业 高 等 专 科 学 校 学 报












第 17 卷
[ 6]
域 . 本文采用向量空间模型, 将邮件表示为( x 1 ,
2
改进的 K
均值聚类邮件过滤算法
x 2 , ! !, x n ) , 特征词表示为( t1 , t2 , !!, t n ) , 特征
2. 1
算法步骤 词 的 权 值 表 示 为 ( w 1 , w 2 , ! !, w n ) , 采 用
2. 1. 1
邮件预处理 TF
IDF [ 7] 公式计算特征项权重, 公式如下:
tf ( t, x) ∀ log( N/ nt + 0. 01)
1) 对于垃圾邮件中插入的一些噪声信息, 例 w( t, x ) =