文档介绍:统计自然语言处理基础
第14章聚类
王建华
2007-09-07
1
提纲
聚类概述
用途
种类
“软”聚类,”硬”聚类
层级聚类
单连通、全连通
平均连通
自顶向下聚类
非层级聚类
K平均算法
EM算法
2
提纲
聚类概述
用途
种类
“软”聚类,”硬”聚类
层级聚类
单连通、全连通
平均连通
自顶向下聚类
非层级聚类
K平均算法
EM算法
3
聚类概述
聚类算法的目标:
是将一组对象划分成若干组或类别,简单地说就是相似元素同组、相异元素不同组的划分过程。
定义:
聚类是一个无指导的学习过程,它是指根据样本之间的某种距离在无监督条件下的聚簇过程。
4
5
聚类概述
用途:
在统计自然语言处理中,聚类算法有两个重要的用途:
6
聚类概述
用途:
当我们面临一个新问题,并且希望建立一个概率模型或者仅仅是为了理解现象的基本特性时,这是一个首要步骤。
对于不懂英语的人也能通过下面的聚类树图对英文的词性有大致的了解。
7
8
聚类概述
用途:
以法英翻译为例,Friday前的介词未知,进行推断。
已有的英文数据:on Sunday, on Monday, on Thursday.
按照语法和语义聚类,Sunday, Monday, Thursday就会被聚到一类,因为它们有相同的上下文模式。
Until day-of-the-week, last day-of-the-week, day-of-the-week morning
同类中的元素具有互换性,因此可以推断on Friday的正确性。
9
聚类概述
聚类算法与分类算法的区别:
分类算法是一个有监督的学习过程,它需要对标注数据集合进行训练;
聚类算法则不需要”教师”的指导,不需要提供训练数据,倾向于数据的自然划分,因此被称为无监督的学习或者自动学习.
10