分类是把某个对象划分到某个具体的已经定义的类别当中，而聚类是把一些对象按照具体特征组织到若干个类别里。

相关视频

虽然都是把某个对象划分到某个类别中，但是分类的类别是已经预定义的，而聚类操作时，某个对象所属的类别却不是预定义的。所以，对象所属类别是否为事先，是二者的最基本区别。而这个区别，仅仅是从算法实现流程来看的。

本文帮助客户对数据进行聚类和分类，需要得到的结果是，聚类的二维效果图，聚类个数，聚类中心点值。用聚类得到的结果贝叶斯建模后去预测分类。需要得到贝叶斯的模型精度，分类预测结果。

K-Means聚类成3个类别

聚类算法(clustering analysis)是指将一堆没有标签的数据自动划分成几类的方法，属于无监督学习方法。K-means算法，也被称为K-平均或K-均值，是一种广泛使用的聚类算法，或者成为其他聚类算法的基础，它是基于点与点距离的相似度来计算最佳类别归属。几个相关概念：

K值：要得到的簇的个数；

质心：每个簇的均值向量，即向量各维取平均即可；

距离量度：常用欧几里得距离和余弦相似度(先标准化)；

kmeans(data, 3)

聚类中心

lusplot(data, fit$cluster

将数据使用kmean算法分成3个类别后可以看到每个类别之间分布呈不同的簇，交集较少，因此可以认为得到的聚类结果较好。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。