1 / 55
文档名称:

面向智能信息检索技术的Web挖掘关键技术的研究.pdf

格式:pdf   页数:55
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

面向智能信息检索技术的Web挖掘关键技术的研究.pdf

上传人:你是我的全部 2014/5/31 文件大小:0 KB

下载得到文件列表

面向智能信息检索技术的Web挖掘关键技术的研究.pdf

文档介绍

文档介绍:分类号 学校代码 10129
U D C 004 学号 08211008


面向智能信息检索技术的 Web 挖掘关键技术的研究
Study on Key Techniques of Web Mining for Intelligent
Information Retrieval

申请人:周方
学科门类:工学
学科专业:计算机应用技术
研究方向:智能计算与数据挖掘
指导教师:周根宝教授



论文提交日期:二〇一一年五月
摘要

随着 发展和网络信息量的急剧增长,人们感觉查找到自己所需要的信息
已变得越来越困难,究其原因就是传统的信息检索方式越来越不能适应网上海量增长
的信息,促使人们寻求智能化的信息检索方法,以满足日益增长的信息检索需求。
本文对面向智能信息检索技术的 Web 挖掘的若干关键问题进行了研究,重点是
Web 日志挖掘数据预处理,改进了为 Web 用户聚类和 Web 页面聚类提供技术支持的聚
类算法。
本文提出了新的会话识别算法,该算法先通过统计方法得到页面访问时间,在根
据页面内容及站点结构确定的压面重要程度对该阈值进行调整。
本课题在对各类常见的聚类方法进行讨论的基础上,改进了 K-means 聚类方法和
DBSCAN 聚类方法,针对 K-means 聚类方法提出了一种基于数据样本的实际分布情
况确定初始化中心点的方法,另外 K-means 算法中 K 值是很难估计的,改进算法是
根据准则函数的最小值来自动的生成聚类数目,提高了 K-means 算法的聚类准确率;
对于 DBSCAN 算法实现了密度聚类的领域半径 Eps 和领域半径内数据对象的个数
Minpts 两个参数根据数据对象的分布特性自动确定,能够有效的提高 DBSCAN 算法
的聚类效果和准确率。

关键词:智能信息检索;Web 挖掘;数据预处理;聚类算法
Study on Key Techniques of Web Mining for Intelligent
Information Retrieval

Abstract
With the rapid development of information on , people find it es
increasingly difficult to achieve the information that they need, the reason is that more and
more traditional information retrieval methods can not meet the massive growth of
information online, people even more look forward to the emergence of intelligent
information retrieval to satisfy the growing information retrieval request.
This dissertation researches some key techniques on Web mining for intelligent
information mainly focuses on data preprocessing ,clustering of Web Pages or
Web improve some Web mining algorithms for intelligent information retrieval.
An access intervals-based improvement was carried out of Session identification in
web usage statistical result shows the page, access time accord with normal
distribution .The access time threshold was adjusted by the web contents and site, structure
on this condition.
In the research on clustering of Web Pages and Web users,this dissertation analyze the