聚类分析

§3.4 系统聚类分析方法
聚类分析是研究多要素事物分类问题的数量方法。基本原理是根据样本自身的属性，用数学方法按照某种相似性或差异性指标，定量地确定样本之间的亲疏关系，并按这种亲疏关系程度对样本进行聚类。
常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。
1. 聚类要素的数据处理
假设有m 个聚类的对象，每一个聚类对象都有个要素构成。它们所对应的要素数据可用表3.4.1给出。（点击显示该表）在聚类分析中，常用的聚类要素的数据处理方法有如下几种。

① 总和标准化

② 标准差标准化

③ 极大值标准化

经过这种标准化所得的新数据，各要素的极大值为1，其余各数值小于1。
④ 极差的标准化

经过这种标准化所得的新数据，各要素的极大值为1，极小值为0，其余的数值均在0与1之间。

2. 距离的计算
距离是事物之间差异性的测度，差异性越大，则相似性越小，所以距离是系统聚类分析的依据和基础。
① 绝对值距离

选择不同的距离，聚类结果会有所差异。在地理分区和分类研究中，往往采用几种距离进行计算、对比，选择一种较为合适的距离进行聚类。

[举例说明]（点击打开显示该例）

3. 直接聚类法
直接聚类法是根据距离矩阵的结构一次并类得到结果。
▲ 基本步骤：
① 把各个分类对象单独视为一类；② 根据距离最小的原则，依次选出一对分类对象，并成新类；③ 如果其中一个分类对象已归于一类，则把另一个也归入该类；如果一对分类对象正好属于已归的两类，则把这两类并为一类；每一次归并，都划去该对象所在的列与列序相同的行；④ 那么，经过m-1次就可以把全部分类对象归为一类，这样就可以根据归并的先后顺序作出聚类谱系图。
★ 直接聚类法虽然简便，但在归并过程中是划去行和列的，因而难免有信息损失。因此，直接聚类法并不是最好的系统聚类方法。
[举例说明]（点击打开新窗口，显示该内容）

4. 最短距离聚类法
最短距离聚类法是在原来的m×m距离矩阵的非对角元素中找出，把分类对象Gp和Gq归并为一新类Gr，然后按计算公式

计算原来各类与新类之间的距离，这样就得到一个新的（m－1）阶的距离矩阵；再从新的距离矩阵中选出最小者dij，把Gi和Gj归并成新类；再计算各类与新类的距离，这样一直下去，直至各分类对象被归为一类为止。
[举例说明]（点击打开新窗口，显示该例）

5. 最远距离聚类法
最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离采用的公式不同。
最远距离聚类法的计算公式：

[举例说明]（点击打开新窗口，显示该例）

6. 系统聚类法计算类之间距离的统一公式
▲ 最短距离聚类法具有空间压缩性，而最远距离聚类法具有空间扩张性（图3.4.4）。最短距离为 d_AB=d_a1b1，最远距离为 d_AB=d_ap2。

▲ 最短距离聚类法和最远距离聚类法关于类之间的距离计算可以用统一的式子表示：

当γ= -1/2时，就是最短距离聚类法计算类间距离的公式；当γ=1/2时，就是最远距离聚类法计算类间距离的公式。
▲ 系统聚类的方法还有：

表示了八种不同系统聚类方法计算类间距离的统一表达式（见表3.3.4）。

7. 系统聚类分析实例
作为系统聚类分析方法的应用实例，下面对中国大陆31个省级区域第三产业综合发展水平进行类型划分及差异性程度分析。
1) 聚类指标选择
选取如下7项指标作为对中国第三产业综合发展水平进行聚类分析的基础指标：
① y1——人均GDP，反映经济社会发展的总体状况和一般水平；
② y2——人均第三产业增加值，反映人均服务产品占有量或服务密度；
③ y3——第二产业增加值比重，反映工业化水平和产业结构现代化程度；
④ y4——第三产业增加值比重，反映第三产业的发展程度及其对国民经济的贡献；
⑤ y5——第三产业从业人员比重，反映第三产业对劳动力的吸纳能力；
⑥ y6——第三产业固定资产投资比重，反映第三产业的资金投入程度；
⑦ y7——城市化水平，反映农村人口转化为城市人口的程度及对服务的需求量。

2) 聚类计算
以 1999年国家统计局出版的《中国统计年鉴》（1998年度的数据）为数据来源，运用上述7项指标(表3.4.5) （点击显示该表），借助于统计分析软件包SPSS10.0进行聚类分析计算，计算过程如下：
① 用标准差标准化方法对7项指标的原始数据进行处理。
② 采用欧氏距离测度31个省（市、区）之间的样本间距离。
③ 选用组平均法计算类间的距离，并对样本进行归类。
经过上述聚类计算步骤，得到的聚类结果见图3.4.5。（点击在新窗口中显示该图）
3.http://gs.dhu.edu.cn/statistics_web/course/jlfx_word.htm

聚类分析

3.传统聚类分析

聚类分析是数据挖掘中的一个很活跃的研究领域，并提出了许多聚类算法。
这些算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和
基于模型方法。
1 划分方法(PAM:PArtitioning method) 首先创建k个划分，k为要创建的划分个数；然后利用一个循环
定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括：
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM,
EM(Expectation Maximization):不将对象明显地分到么个簇,而是根据表示隶书可能性的权来分配对象.

2 层次方法(hierarchical method) 创建一个层次以分解给定的数据集。该方法可以分为自上
而下（分解）和自下而上（合并）两种操作方式。为弥补分解与合并的不足，层次合
并经常要与其它聚类方法相结合，如循环定位。典型的这类方法包括：
第一个是;BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法，它首先利用树的结构对对象集进行

划分；然后再利
用其它聚类方法对这些聚类进行优化。
第二个是CURE(Clustering Using REprisentatives) 方法，它利用固定数目代表对象来表示相应聚类；然后对各聚类按照指定
量（向聚类中心）进行收缩。
第三个是ROCK方法，它利用聚类间的连接进行聚类合并。
最后一个CHEMALOEN，它则是在层次聚类时构造动态模型。

3 基于密度方法，根据密度完成对象的聚类。它根据对象周围的密度（如
DBSCAN）不断增长聚类。典型的基于密度方法包括：GDBSCAN,DBCLASD,DENCLUE(DENsity-based CLUstEring)
DBSCAN(Densit-based Spatial Clustering of Application with Noise):该算法通过不断生长足够高密
度区域来进行聚类；它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义
为一组“密度连接”的点集。
OPTICS(Ordering Points To Identify the Clustering Structure):并不明确产生一
个聚类，而是为自动交互的聚类分析计算出一个增强聚类顺序。。

4 基于网格方法，首先将对象空间划分为有限个单元以构成网格结构；然后利
用网格结构完成聚类。
STING(STatistical INformation Grid) 就是一个利用网格单元保存的统计信息进行基
于网格聚类的方法。
CLIQUE(Clustering In QUEst)和Wave-Cluster 则是一个将基于网格与基于密度相结合的方
法。

5 基于模型方法，它假设每个聚类的模型并发现适合相应模型的数据。典型的
基于模型方法包括：

统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采
用符号量（属性-值）对来加以描述的。采用分类树的形式来创建
一个层次聚类。
CLASSIT是COBWEB的另一个版本.。它可以对连续取值属性进行增量式聚
类。它为每个结点中的每个属性保存相应的连续正态分布（均值与方差）；并利
用一个改进的分类能力描述方法，即不象COBWEB那样计算离散属性（取值）
和而是对连续属性求积分。但是CLASSIT方法也存在与COBWEB类似的问题。
因此它们都不适合对大数据库进行聚类处理.
AutoClass:它采用贝叶斯统计分析来估算结果簇的数目.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。