文档介绍:西安理工大学学报’..
文章编号:
算法中参数自适应确定方法的研究
周红芳,王鹏
西安理工大学计算机科学与工程学院,陕西西安
摘要:在算法中需要人工输入和两个参数,因而聚类过程需要用户的干预才
能进行,导致聚类结果的准确度直接取决于用户对参数的选择。鉴于此,本研究提出了一种新的
和参数的确定方法,避免了聚类过程中的人工干预,实现了聚类过程的全自动化。理论
分析和实验结果表明,该方法能够选择合理的和参数并得到较高准确度的聚类结果。
关键词:密度聚类; 邻域;密度可达;簇;噪声
中图分类号: 文献标志码:
,
,’,’,
:,印’.
’,—
’.,
,
.
,
.
:—;印;;;
基于密度的聚类方法是以数据集在空间分布上方法,以实现聚类过程的全自动化。
的稀疏程度为依据进行聚类的,因而无需预先设定
算法的参数确定方法
簇的数量,特别适合于对未知内容的数据集进行聚
类。是一种经典的基于密度的聚类算法, 聚类的准确性与和个参
它以单位超球状区域内所包含数据对象的数量为标数的选择有关。。给定值选择过大的
准来衡量此区域的密度。算法能够发现任会导致核心点数量减少,使得一些包含对象数较少
意形状的簇并有效识别离群点,但聚类之前需要人的自然簇被丢弃;选择过小的会导致大量对
工选择和这个参数。已有文献提出了象被标记为核心点,从而将噪声归人簇。给定
若干方法用于判定参数,但不能适应不同统选择过小的会导致大量对象被错误地标
计特性的数据集,同时对于参数的使用也缺记为噪声,一个自然簇也被错误地拆分成多个簇;选
乏讨论,另外有些改进算法的时间复杂度接近于择过大的则可能有很多噪声被错误地归人簇,
凡。鉴于此,本研究提出了一种通过分析数而分离的若干个自然簇也被错误地合并为一个
据集的统计特性来自适应确定印和的新簇。因此,本研究在算法的基础上提出
收稿日期:
基金项目:国家自然科学基金资助项目;陕西省自然科学基础研究计划基金资助项目·;陕西省教
育厅科学研究计划基金资助项目、。
作者简介:周红芳.,女,陕西大荔人,博士,副教授,研究方向为数据仓库与数据挖掘,知识发现。
: ..。
西安理工大学学报第卷第期
了一种基于距离的自适应确定参数和所有点的第个距离值在数轴上服从泊松分布,
的方法,称之为。该方法的主要思想是笔者运用数学中的极大似然估计法来对整个第个
根据数据集本身的统计特性来选择值和距离值的泊松分布进行参数估计,为:
值。首先需要计算距离分布矩阵. 的一
.置
值,即:
. , 得到的期望值即为的取值。下面笔者选用
其中,,表示数据集中的对象个数。测试数据集对不同的进行评估。本研究选用
是行列的实对称矩阵,每个元素表示中第的数据集为的和
个对象到第个对象的距离。人工合成的数据集。为了对聚类结果进行评价,首
先假定,当值变化时可得到
. 参数的确定方法
,,用此时的值和值进行聚
类,得到的聚类结果和选取的值关系如图和图
每行的值从小到大进行排序,记为排序后
距数据点最近的第个距离值。由于中所示。.