文档介绍:中国人民解放军信息工程大学
硕士学位论文
基于数据挖掘技术的电子邮件地址聚类系统设计与实现
姓名:张丹
申请学位级别:硕士
专业:计算机软件与理论
指导教师:黄永忠
20070401
摘要目前流行的电子邮件信息处理方法大部分只是针对单个电子邮件内容进行分析筛选,但仅仅凭借电子邮件本身内容无法实现高精确度的分类。如何利用目前各种成熟的数据挖掘技术,从海量电子邮件信息中挖掘出有用的知识和信息,成为了亟待解决的热点问题。数据挖掘中的聚类分析技术是数据挖掘领域一个重要研究方向,其作用是将样本数据区分为若干个类或簇,在同一个类或簇中样本之间具有较高的相似度,而不同类或簇中样本差别较大。本文描述了一个基于数据挖掘技术的电子邮件地址聚类系统。系统根据电子邮件地址之间的收发关系,构建出电子邮件地址的相似度测量属性,利用基于密度聚类方法中的算法,对电子邮件地址关系紧密程度进行划分,找出较为活跃的电子邮件地址,从而缩小了电子邮件地址查阅范围,提高电子邮件信息分析处理的针对性和有效性。在电子邮件信息抽取过程中,系统实现了海量电子邮件信息解码和属性分类存储。在不影响数据原有特征的前提下,通过去重、填补、剪枝和遍历查找韵方法,对电子邮件信息进行预处理,最大限度的缩减了数据规模,解决了处理海量信息时的速度问题。另外,系统使用了特定地址邮件收发数量统计和特定地址联系状况统计的两种统计方法,为分析数据规律,了解数据概貌提供了一种直观的方法,同时也为验证电子邮件地址聚类结果有效性提供了参考。最后,本文还对开发的系统进行了验证分析。验证结果表明,系统在保证较快运行速度的前提下,达到了对电子邮件地址关系紧密程度的划分和电子邮件地址信息统计结果可视化表示的设计目标。验证了系统的有效性。关键词:,密度信息工程大学硕士学位论文第页
∞,緉№删ⅰ縧枷緇総鷇宙゛∞锄棚趎鷇嬲黟够篋鏜,珻珼信息工程大学硕士学位论文’轪【诅皿主鏼出鷂硒餿嬲瑃,嬲瓸“陀ⅲ琫痂惚ε尽総瓼,也痵瑃瑂∞’,玶琣綼
表目录表沙鱿衷贛甌得髦械钠咧只纠嘈图捌湟庖濉表始拘畔⒈怼表始郊有畔⒈韑⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。表始郊有畔⒈⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..表湫途劾嗨惴ū冉辖峁怼表馕鲇始讨惺褂玫氖粜粤斜怼表馕鲇始讨惺褂玫姆椒斜怼表始刂肥辗⒐叵当怼表莨娣痘蟮氖辗⒐叵当怼表基于算法的聚类模块数据接口说明⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表特定地址邮件收发数量统计子模块的数据接口说明⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表特定地址联系状况统计子模块的数据接口说明⋯⋯⋯⋯⋯一表基于非对称二元变量相似度测量的聚类结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表基于欧几里德距离相似度测量的聚类结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表算法执行时间比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯信息工程大学硕士学位论文第
膖图特定地址邮件收发数量统计模块啪己徒涌凇图目录表信息⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图劾喙淌纠图缱佑始低车闹饕W槌刹糠帧图缱佑始袷健图暾牡缱佑始磐贰图畔⒋砹鞒獭图低郴居美肌图低呈萘魍肌图始刂吠诰蛳低诚晗附峁雇肌图邮件信息表对应关系⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图基于算法的聚类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图系统开发环境⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图邮件抽取过程示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图邮件批处理肌图邮件抽取肌图邮件信息抽取流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图数据清理前的数据库表信息⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图数据清理之后的数据库表信息⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图非重复数据示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图邮件地址筛选流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图硇畔ⅰ图相似度计算流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图聚类模块接口⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图特定地址邮件收发情况统计界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图特定地址联系状况统计模块接口⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图特定地址联系关系统计界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图系统运行耗时实验⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.