微课堂-北京出版社大中专教材中心

聚类

一、监督学习和无监督学习

无监督学习（unsupervised learning）:用于处理未被分类标记的样本集。输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，clustering）试图使类内差距最小化，类间差距最大化。通俗点将就是实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本对应的类别，因而只能从原先没有样本标签的样本集开始学习分类器设计。

监督学习（supervised learning）：用于处理已知类别的样本集。从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类（注意和聚类区分）问题，通过已有的训练样本（即已知数据及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优表示某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统（模型）。

二、K-Means聚类个数的确定

Elbow method就是“肘”方法，对于n个点的数据集，迭代计算k from 1 to n，每次聚类完成后计算每个点到其所属的簇中心的距离的平方和，可以想象到这个平方和是会逐渐变小的，直到k==n时平方和为0，因为每个点都是它所在的簇中心本身。但是在这个平方和变化过程中，会出现一个拐点也即“肘”点，下图可以看到下降率突然变缓时即认为是最佳的k值。

肘方法的核心思想：

随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小。并且，当k小于真实聚类数时，由于k的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大，而当k到达真实聚类数时，再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓，也就是说SSE和k的关系图是一个手肘的形状，而这个肘部对应的k值就是数据的真实聚类数。这也是该方法被称为肘方法的原因。

原文链接：https://blog.csdn.net/sinat_30353259/article/details/80887779

三、聚类效果指标评价标准

1.轮廓系数（Silhouette Coefficient）

轮廓系数是聚类效果好坏的一种评价方式。最早由 Peter J. Rousseeuw 在 1986 提出。它结合内聚度和分离度两种因素。可以用来在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。

轮廓系数取值范围为[-1,1]，越接近1表示样本聚类效果越好；越接近-1表示样本更应该分类到另外的簇；轮廓系数接近0，则表示样本在两个簇的边界上。

2.戴维森堡丁指数（DBI），又称为分类适确性指标，是由大卫L·戴维斯和唐纳德·Bouldin提出的一种评估聚类算法优劣的指标。DBI越小意味着类（簇）内距离越小，同时类（簇）间间距越大，即聚类效果越好。

关注我们

公司简介

联系我们

新闻资讯
会员专区

注册会员

找回/修改密码

会员中心
服务支持

在线投稿

样书申请

资源下载
公众号
在线客服

QQ:1017641350

工作日: 08:30-17:30

知识拓展-聚类