分类是把某个对象划分到某个具体的已经定义的类别当中,而聚类是把一些对象按照具体特征组织到若干个类别里。
相关视频
虽然都是把某个对象划分到某个类别中,但是分类的类别是已经预定义的,而聚类操作时,某个对象所属的类别却不是预定义的。所以,对象所属类别是否为事先,是二者的最基本区别。而这个区别,仅仅是从算法实现流程来看的。
本文帮助客户对数据进行聚类和分类,需要得到的结果是,聚类的二维效果图,聚类个数,聚类中心点值。用聚类得到的结果贝叶斯建模后去预测分类。需要得到贝叶斯的模型精度,分类预测结果。
聚类算法(clustering analysis)是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法。K-means算法,也被称为K-平均或K-均值,是一种广泛使用的聚类算法,或者成为其他聚类算法的基础,它是基于点与点距离的相似度来计算最佳类别归属。几个相关概念:
K值:要得到的簇的个数;
质心:每个簇的均值向量,即向量各维取平均即可;
距离量度:常用欧几里得距离和余弦相似度(先标准化);
kmeans(data, 3)
lusplot(data, fit$cluster
将数据使用kmean算法分成3个类别后可以看到 每个类别之间分布呈不同的簇,交集较少 ,因此 可以认为得到的聚类结果较好。
联系客服