三种聚类方法

希赛网 2024-03-23 13:37:11

层次聚类聚类方法 K-means

聚类是数据挖掘中的重要任务之一，它的目的是将数据集划分为具有相似属性的组。这样的组称为“类”。本文将介绍三种常见的聚类方法：层次聚类、K-means和DBSCAN，并从多个角度对它们进行分析。

一、层次聚类

层次聚类是一种分阶段的聚类方法，它将数据集划分为一个层次结构。树状图或者等价的二叉树是通常用于可视化的结果形式。从树状图中可以看出哪些数据点分组在一起，每个组有多少数据点。

层次聚类的主要思路是通过计算每个数据点之间的距离，不断合并最相近的两个组，直到满足聚类的停止条件。停止条件可以是最终所需的类数或距离阈值。

层次聚类有两种主要类型：凝聚型和分裂型聚类。前者从下往上合并，后者从上往下分裂。

优缺点：

优点：层次聚类可以发现不同层次上的不同类别，还可以可视化各个类的相似性。同时，它也可以处理噪音数据，因为噪音数据可能会被归为单独的类别。

缺点：层次聚类的算法复杂度高，时间和空间开销都比较大。它容易陷入局部最优解，导致难以找到全局最优解。

二、K-means

K-means是一种迭代优化方法，它的目标是将数据集划分为K个离散的、非重叠的组。通过计算每个数据点与其最近的K个聚类中心之间的距离，将数据点划分为最近的组。

这个算法有两个重要的步骤：初始化和迭代。算法开始时，需要先确定K值和选择K个初始聚类中心。接着，它会重复迭代以下两个步骤，直到达到停止条件：一是将每个数据点划分到离它最近的聚类中心中；二是根据中心点被赋予的数据点重新计算聚类。

优缺点：

优点：K-means 算法的计算复杂性较低，适于处理大数据集。它实现简单，迭代次数较少，收敛速度较快。

缺点：它依赖于初始聚类中心的选择，而且结果存在收敛到局部最优解的风险。它还不能处理噪音数据。

三、DBSCAN

密度聚类是另一种常见的聚类方法，它的目标是将数据集划分为由数据点密度连接而成的组。DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种流行的密度聚类算法。与K-means类似，DBSCAN基于距离度量，但它将数据点划分为核心点、边界点和噪音点。

核心点的定义是在半径ε内至少有MinPts个数据点。边界点是在某个核心点的ε邻域内，不属于核心点的数据点。噪音点则既不属于核心点也不属于边界点。

DBSCAN的扫描算法分为两种步骤：第一步是对于每个核心点，找到所有密度可达的点形成一个聚类。第二步是进行当前聚类的扩展，直到所有位置都被全局分类为核心点、边界点或噪音点。

优缺点：

优点：DBSCAN不需要预先指定聚类数，且可以有效地处理任意形状的密度聚类。它可以较好地处理噪声和自然发生的聚类崩溃。

缺点：它对噪声点敏感，往往需要人工设置Hyper参数，如Eps和MinPts。

综上所述，层次聚类、K-means和DBSCAN都有自己的优点和缺点。选择聚类方法时，应根据数据集的特征和所需的聚类数进行选择。例如，当聚类数不确定时使用DBSCAN，当聚类数确定时使用K-means。

‍扫码咨询领取资料

软考.png