1 / 48
文档名称:

基于K-medoids聚类算法Web信息集成方法的研究与实现.pdf

格式:pdf   页数:48
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于K-medoids聚类算法Web信息集成方法的研究与实现.pdf

上传人:minzo 2014/2/24 文件大小:0 KB

下载得到文件列表

基于K-medoids聚类算法Web信息集成方法的研究与实现.pdf

文档介绍

文档介绍:沈阳建筑大学
硕士学位论文
基于K-medoids聚类算法Web信息集成方法的研究与实现
姓名:王忠强
申请学位级别:硕士
专业:计算机应用技术
指导教师:李贵
2011-03
硕士研究生学位论文摘要 I
摘要
随着信息社会的不断发展,人们对信息的需求量逐渐增多,Web 上拥有大量的信息资
源,它逐渐成人们获取信息的重要途径。然而,由于不同的网站使用的数据往往具有不同
的数据格式,所以构建一个 Web 信息集成系统是很有必要的。聚类算法改进的研究是 Web
信息集成系统实现过程中的热点问题,可以更方便用户对分布在不同网站上的信息查询,
为了实现这一目标,我们首先要把来自不同网站的数据进行聚类,通过聚类可以把海量的
数据聚集成几个分类,在各个分类中选择出各个聚类的中心点,以各个中心点来代表各个
聚类,新的数据只需与聚类的中心点作比较,不用再与聚类的每个数据点一一作对比,这
样可以有效的降低数据集成的复杂程度。这就是聚类方法,具有重大的现实意义。
本文通过对近几年国内外研究成果的分析和研究,针对现有的聚类方法准确度低,效
率低等缺点。对传统的聚类方法进行改进,使其达到在准确度相对较高的情况下,效率有
所提升。
论文主要的研究内容有以下几个方面:
()对传统的 K-medoids 聚类算法进行改进。在改进的过程中,主要是针对初始的聚
类中心点的选择方法进行优化,在实行新的选择方法的过程中有效的降低了相邻数据对象
同时作为初始的聚类中心点的可能性,缩减了在寻找最终的聚类结果过程中的迭代计算的
次数,在一定程度上降低了聚类过程的复杂度,从而有效地提高了聚类的效率,同时在聚
类的过程中设定聚类的半径,这样做的目的是可以将一些与聚类本身不相关的数据剔除
掉。
()将改进后的 K-medoids 聚类算法与 Web 集成技术相结合。并且按照 Web 信息集
成的基本步骤,实现对 Web 页面的解析器、数据抽取器和数据集成模块的设计,有效的将
聚类算法运用到 Web 信息集成技术中。
()根据以上的两个研究结论,并且结合信息集成技术,HTML的相关知识、JAVA
程序设计方法、XML 技术和相似性计算等相关技术对传统的 Web 数据集成的方法进行相
关的改进,为用户提供了一个快速的、便捷的、准确的、高效的数据集成方法,并使其具
有良好的实用性。

关键词:Web数据集成;聚类算法;解析;抽取
硕士研究生学位论文 Abstract III
Abstract
Along with the continuous development of information society, people has increasingly
demand for information. Web site has a wealth of information resources, which has gradually
e an important way for people to obtain information. However, build a web information
integration system is necessary due to different sites use different data formats, the research of
the improved clustering algorithm is the hot issues in the process of the implementation of the
Web information integration system, it can be more convenient for users inquire information on
different website. In order to achieve this goal, we first cluster data which from different sites.
Clustering method means cluster immense amounts of data into several categories. Through
clustering, we can select central point of each clustering from each categories, and each central
point represents each clus

最近更新

2025年桑日县招教考试备考题库带答案解析(夺.. 31页

2025年永善县幼儿园教师招教考试备考题库及答.. 31页

2025年江西司法警官职业学院单招职业适应性测.. 45页

2025年河北北方学院马克思主义基本原理概论期.. 12页

2025年浙江警官职业学院单招职业技能考试题库.. 44页

2025年湖北科技职业学院单招职业倾向性考试题.. 44页

2026年中医住培带教师资理论考核题库100道附答.. 39页

2026年医学微生物学习题集【研优卷】 41页

2025年肃宁县幼儿园教师招教考试备考题库及答.. 31页

小学历史与文化知识竞赛题库100道附参考答案【.. 36页

2025年辽宁民族师范高等专科学校单招职业技能.. 43页

最新煤气操作证考试题100道【历年真题】 39页

2026年主管中药师考试备考题100道及答案【夺冠.. 37页

2026年中医住培带教师资理论考核题库100道含答.. 39页

2026年宪法知识竞赛试题库100道【有一套】 41页

2026年医学微生物学习题集附完整答案【精选题.. 40页

2026年宪法知识竞赛试题库100道附答案(能力提.. 40页

小学历史与文化知识竞赛题库100道【突破训练】.. 37页

最新煤气操作证考试题100道附参考答案【巩固】.. 39页

2025年助悬剂项目合作计划书 72页

2025年利尿药合作协议书 59页

2025年皖北卫生职业学院单招职业技能测试题库.. 43页

2025年辽宁广告职业学院单招职业适应性考试题.. 44页

2025年长春信息技术职业学院单招职业技能测试.. 45页

2025广西玉林北流市人民医院赴广西医科大学双.. 44页

胖东来售后服务标准化培训手册 60页

2026年C语言考试题完美版 13页

2026年任前廉政知识测试题及答案参考 14页

2026年包头职业技术学院单招职业适应性测试题.. 43页

2026年周口职业技术学院单招职业适应性考试题.. 44页