您的当前位置:首页正文

聚类分析的方法

2022-02-27 来源:钮旅网
聚类分析的方法

一、系统聚类法

系统聚类分析法就是利用一定的数学方法将样品或变量(所分析的项目)归并为若干不同的类别(以分类树形图表示),使得每一类别内的所有个体之间具有较密切的关系,而各类别之间的相互关系相对地比较疏远。系统聚类分析最后得到一个反映个体间亲疏关系的自然谱系,它比较客观地描述了分类对象的各个体之间的差异和联系。根据分类目的不同,系统聚类分析可分为两类:一类是对变量分类,称为R型分析;另一类是对样品分类,称为Q型分析。系统聚类分析法基本步骤如下(许志友,1988)。 (一)数据的正规化和标准化

由于监测时所得到的数值各变量之间相差较大,或因各变量所取的度量单位不同,使数值差别增大,如果不对原始数据进行变换处理,势必会突出监测数据中数值较大的一些变量的作用,而消弱数值较小的另一些变量的作用,克服这种弊病的办法是对原始数据正规化或标准化,得到的数据均与监测时所取的度量单位无关。

设原始监测数据为Xij (i=1,2,…,n;j=1,2,…,m;n为样品个数,m为变量个数),正规化或标准化处理后的数据为Zij (i=1,2,…,n;j=1,2,…,m)。 1. 正规化计算公式如下:

(7-32)

(i=1,2,…,n;j=1,2,…,m)

2. 标准化计算公式如下:

(7-33)

(i=1,2,…,n;j=1,2,…,m)

其中:

(二)数据分类尺度计算

为了对数据Zij进行分类,须对该数据进一步处理,以便从中确定出分类的尺度,下列

出分类尺度计算的四种方法。 1.相关系数R

两两变量间简单相关系数定义为:

(7-34)

(i,j=1,2,…,m)

其中

一般用于变量的分类(R型)。有一1≤愈接近-1,则关系愈疏远。

≤1且愈接近1时,则此两变量愈亲近,

2.相似系数

相似系数的意义是,把每个样品看做m维空间中的一个向量,n个样品相当于m维空间中的n个向量。第i个样品与第j个样品之间的相似系数是用两个向量之间的夹角余弦来定义,即:

(7

-35)

(i,j=1,2,…,m)

常用于样品间的分类(Q型)。有一1≤愈亲近。

≤1,且的值愈大,愈接近l,两个样品关系

3.欧氏距离

欧氏距离含义为,对每个样品,把它的m个因素(变量)的值看做m维空间中的一

个点,则,2个样品就是7n维系空间中n个点,则第i个样品与第j个样品之间的距离

为: (7-36)

(i,j=1,2,…,m)

一般用做样品间的分类。显然有0≤疏远。

≤1,距离愈小,表示两个样品愈亲密,反之则

4.斜交空间距离

由于变量间往往存在程度不同的相关关系,以欧氏距离计算距离,会使结果发生偏差,因而对样品i,j之间的距离可用更广义的斜交空间距离作为分类尺度。

(7-37)

(i,j=1,2,…,n)

其中

(k,L=1,2,…,m)

一般用于样品的分类。有0≤ (三)分类树形图的绘制

≤1,且距离愈小表示两个样品愈亲密。

绘制分类树形图的法则是使相似程度高的样本或样本所代表的类优先集中在一起,用较短的线联结起来,而相似程度低的样本或类之间用较长的线联结。绘制分类树形图可采用两种方法。

1.一次形成分类法

首先选出相关系数最大的元素对(或距离矩阵中最小的元素对),然后选出次大的元素对(或距离矩阵中次小的元素对),依次类推。选出元素对后,将各元素对按下列准则连接成群:

若两个元素在已形成的群中没有出现过,则形成一个独立的新群; 若两个元素中有一个是在已经分好的群中出现过,则另一个加入该群; 若两个元素都在已分好的两群中,则把两群连一起; 若两个元素都在同一群中,则这对元素就不再作处理。

这样反复进行,直到所有的元素都分群完毕为止,形成一个树形图。 2.逐步形成分类法

假设分类是对样品进行的,且采用的分类尺度是距离。从距离矩阵中选出最小的元素,

这说明第k个样品与第L个样品距离最近(关系最亲密)应首先归入一组,然后按下面方法进行计算:

首先,把第五个样品与第L个样品的相应的各个变量取平均值,用它代替第k个样品,并取消第j个样品,形成新的样品数据,它比归并前的样品数目减少一个(当为组合变量时应取加权平均值)。

其次,根据新的样品数据,重新计算距离矩阵。

再从新的距离矩阵中选出最小的,说明新的样品数据中第个样品与第个样品距

离最近(关系最密切),应将它们归为一组,然后重复进行上述(1)、(2)、(3)步工

作。

以上各步重复进行n-1次则全部样品最后归并为一组,最后按归组的先后顺序及相应的距离大小作出分类树形图。 (四)类别的划分

对于已建立的相似性矩阵,即可根据不同的且置信水平进行分类。分类时应先求出R的λ截矩阵

(7-38)

其中:

显然=1时,i与j应归为同一类,否则为不同类。对于不同的又,可得到不同的分类

≤1,则

所分出的每一类必是

的某一类的子类。

方案,看0≤

图7-3分类树形图左边的每一个分支代表一个成员,而右边的“根”则代表全部成员的总体。

由分支向根移动时,成员聚合成点群的程度愈来愈高。

以图7-3为例,有5个原始成员,可能的点群有:五个点群,每个点群中成员之间的相似程度最高(只有一个成员);4个点群,即成员(1、2)合并为一个点群,再加上余3个成员;3个点群,即(1、2),(3、4),(5);两个点群,即(1、2),(3、4、5)最后为一个点群,包括所有5个成员。点群愈少,则点群中成员之间的相似程度愈差,这就可以根据所研究问题的需要而选取。

运用Q式分类树形图进行地下水化学污染综合分类时,还应结合地区的水文地质条件分析判断,才能达到较好的效果。

图7-3 分类树形图

二、灰色聚类法

灰色聚类是将聚类对象对于不同聚类指数所拥有的白化数,按n个灰类进行归纳,判断该聚类对象属于哪一类。灰色聚类可按下述步骤计算(邓聚龙,1987): (一)确定灰类白化系数

若记I、Ⅱ、Ⅲ,…为聚类对象(即样品),1﹡、2﹡、3﹡,…为聚类指示(即评价因子),1、2、3,…为聚类灰数(即等级划分),第i类聚类对象对第j个聚类指标所拥有的白化数为

(实测值),白化系数可按下式计

算: (7-39)

(k=1,2,…,n;j=1,2,…,m)

(二)求标定聚类权

j=1,2,…,m (7-40)

(三)求聚类系数

第j个聚类对象对于第j个灰类的聚类系数为:

(7-41)

同理可得是个取样点几种污染因子的k个聚类系数矩阵。 (四)灰色聚类

取最大值为所对应的水质级别为该评价水体的水质级数。

三、模糊数学法

在评价地下水污染时,通常是按照污染物质的单项污染值及综合污染值来区分水质属于轻度污染或严重污染。这样用一个污染指数值来判定污染程度,不能客观地反映出污染状况。按模糊数学的观点,地下水污染评价中“污染程度”的界线是模糊的,对于这样的模糊问题应用模糊数学方法把许多资料、判断及各种定性描述转化为模糊语言,对地下水污染进行综合识别和判断,将会得到更为合理的解决。 (一)模糊聚类分析法

模糊聚类分析法就是根据各项污染指数得到的模糊矩阵作复合运算,得到模糊等价关系矩阵,然后再进行模糊关系的分类。其基本步骤如下(蔡贻谟等,1987): 1.数据的标准化和正规化

设分项污染值为(i=1,2,…,n;j=1,2,…,m;n为样品数,m为监测的污染

。对原始数据的标准化和正

物个数),则聚类因子值构成了一组n×m的原始数据阵规化处理方法可采用式7-32和式7-33。 2.模糊相容系数的计算

根据规一化数据计算出模糊相容系数矩阵,其作用在于找到样品间的相容性或差异性,以便进行分类,相当于一般的聚类分析中确定分类尺度。计算的方法如第三节所述,可采用计算相关系数R、相似系数S或计算欧氏距离D,以及计算斜交空间距离D1等,亦可按下式计算距离关系补充定义的相容关系:

(7-42)

式中: —— 第i个样品的第k个因子的值;

—— 第j个样品的第k个因子的值;

—— 第i个样品与第j个样品的相容关系。

相容关系越大,表示i,j两个样品污染状况越相似,反之差异越大。当=1时,说明

i,j两个样品取样点的污染状况相同,属于同一类。

将计算得到的相容关系 3.模糊矩阵复合运算

作为矩阵元素,则得到相容系数矩阵。

由以上具有模糊关系得到相容系数矩阵R,一般是满足反身性和对称性,不满足传递性,不是模糊等价关系,直接由R不能有效地进行分类,需要对只作复合运算,得到模糊等价关系矩阵。

设R是一个模糊关系(矩阵)。其具有反身性是指对称性是指

=l(i、j=1,2,…,n);其具有

,当取

;其具有传递性是指对R进行复合运算,记

,则

…,若在某一步有便是一个模糊等价关系矩阵。

模糊矩阵复合运算是指:当取,则

(7-43)

(i,j=1,2,…,n)

式中:∨ —— 并运算,如即a,b两数中取大者;

∧ —— 交运算,如

4.绘制模糊聚类图及分类评价

即a,b两数中取小者。

对于已建立的模糊等价关系矩阵R﹡,可绘制模糊聚类图(方法同前),并选取不同的置信度进行分类。然后再结合定性研究资料,对所设环境问题进行评价。 (二)模糊综合评判法

模糊综合评判法是以隶属度来描述模糊的水质分级界线的。 1.隶属度的确定

假设地下水水质一般可分为m个等级:

Ⅰ级,Ⅱ级,…,m级)

设x表示某一样品一种污染因子的浓度,则x对于等级V的隶属关系可按下式计算: Ⅰ级

(7-44)

m-1级

(7-45)

m级

(7-46)

(i=1,2,…,n;j=1,2,…,m)

式中:n—— 污染因子数; m —— 水质级别数;

—— 某一样品第i种污染因子第j级国家标准浓度。

由此得到某一样品的几种污染因子的隶属度矩阵

(7-47)

同理可得k个取样点的几种污染因子的k个隶属度矩阵 2.权重的确定

根据这n种污染因子所产生的污染作用不同,可按下式计算,得到权重系数矩阵A:

(7-48)

其中:

3.模糊矩阵复合运算

综合评判结果是通过权重矩阵A和模糊关系矩阵R的复合运算得到的,因此有矩阵:

(7-49)

这里运算符号“。”可以有两种处理方法:一是模糊矩阵合成算法;二是普通矩阵的算法。按模糊矩阵合成法则,即按最大、最小运算法则进行,与普通矩阵算法相比较,运算过程一样,只不过是将实数加法改为逻辑加“V”,将实数乘法改为逻辑乘“”。由于最大“V”、最小“”运算法则只突出了隶属度很大和很小项的作用,所得运算结果B中的值有时相等,评价不出优劣,这在实际问题中是不合理的。 4.模糊综合评判

以上结果是对应于集合V上的各项隶属度,取其中最大者所对应的水质级数为该评价水体的水质级数。

四、 人工神经网络分析法

人工神经网络是对人脑或自然的神经网络若干基本特性的抽象和模拟,是一种非线性的动力学系统。其特点为:具有大规模的并行处理和分布式的信息存储能力;良好的自适应性、自组织性;很强的学习、联想、容错及抗干扰能力。

人工神经网络形式较多,其中前馈式BP网络属于多层状型的人工神经网络,由输入层、若干隐层和输出层组成。各层的作用为:输入层接受外界的信息,并向前传播;输出层对输人层传来的信息进行判别和决策;隐层用来处理信息或存储知识。其网络拓扑结构如图7-6所示。

图7-6 BP网络拓扑结构示意图

网络中每一层都包含若干个神经元(节点),同层的神经元之间没有联系,层与层之间通过连接权重互连,权重可通过学习调节。每层神经元的状态都将影响下一层的神经元状态,每层神经元状态都对应着一个作用函数f(x)和阈值。BP网络的各个处理单元量输入与输出之间为非线性关系,其激活函数为Sigmoid函数,即:

(7-50)

设神经网络共有m层,输入层s个节点,输出层n个节点。输入向量,

若有L个样本,则有L组输入向量。

设k层上第i个处理单元连接输入的总和为层第i个处理单元的连接权为

,阈值为

,其输出为;k-1层第j个处理单元与k

。各个处理单元的输入与输出之间传递函数为

,则下列关系成立:

(7-51)

(7-52)

当给定网络的一个输入模式时,它由输入层单元传递到隐层单元,逐层处理后再送到输出

层单元,由输出层单元处理后产生一个输出模式,这个过程称为前向传播。如果输出响应与期望输出模式有误差而不满足要求时,就转入误差后向传播,将误差值沿连接通路逐层传送并修正各层连续权值和阈值。这样不断重复前向传播和误差后向传播过程,直到各个训练模式都满足要求时,便结束BP网络的学习。这个完整过程称为训练式学习过程。BP网络训练学习框图见图7-7。

图7-7 BP网络训练学习程序框图

(一)BP网络算法 选取初始权值和闹值

取[0,1)之间的随机数作为初始权值和阈值。 重复学习过程直到网络收敛

首先,由输入层一隐层一输出层正向过程计算各隐层、输出层节点的输出值。 其次,计算输出节点输出值与期望输出值的误差。

设m层网络的实际输出为,希望输出为,定义误差函数:

1. 2.

(7-53)

当F不满足所给精度要求时,则进行到下一步。

再反向计算各级误差(即由输出层一隐层一输入层),修正各层权值、阈值。 ①利用梯度最下降求误差函数的极小值,则输出层(m层)的误差信号:

(此时i=n)

(7-54)

=

不是输出层(即k层)的误差信号:

(7-55)

=

②修正各层权值、阈值。

(7-56)

(7-57)

(7-58)

(7-59)

式中: —— 当前层(k层)第i个处理单元与前一层(k—1层)第j个处理单元

之间的连接权值、第i个处理单元阈值;

—— 更新后的权值、阈值;

—— 当前层(k层)第i个处理单元的误差;

—— 前一层(k—1层)第j个处理单元的输出值;

—— 学习步长,其值大于零,一般选=0.1~0.4。 最后求均方误差,并与所给定精度比较。

反复学习修正各层权值、阈值,当输出值与期望输出值误差正满足所给精度时,如果共有L个学习样本,则随机选取输入下一样本,直至样本全部输入学习,并计算全局误差函数。

(7-60)

3.当全局误差函数也满足所给精度时,网络收敛,学习结束 (二)评价步骤

运用BP人工神经网络方法对地下水水质进行评价,将筛选的水质评价指标(即评价参数)用网络的输入节点表达,水质等级则由网络输出节点表达。根据待判点的输出结与所给标准值(即期望输出)的贴近程度来判断其隶属等级。

1.建立模型时,先将水质评价标准中的水质因子作为该网络的输入参数,每个分级标准就是一个标准学习样本。在[0,1]区间上随机赋予隐层和输出层的初始权值和阈值,对每个学习样本进行反复学习,直到输出层输出值均方误差小于给定精度,学习结束,并输出调整后的权值和阈值。

2.用调整权值和阈值后的BP网络评价该区的地下水水质现状,即将各监测点的各个指标监测数据作为输入值输入模型,以输出值与所给标准值(即期望输出)的贴近程度来判断其隶属的等级。

因篇幅问题不能全部显示,请点此查看更多更全内容