您的当前位置:首页正文

聚类分析例子Word版

2020-08-30 来源:钮旅网


传播优秀Word版文档.希塑对您有帮助.可双击去除!

案例数据源:

有20种12盎司啤酒成分和价格的数据,变址包括啤酒名称、热虽、钠含虽、酒精含虽、价格c

beername calorie 144.00 181.00 157.00 170.00 152.00 14&00 175.00 sodium 19.00 19.00 15.00 7.00 11.00 23.00 24.00 alcohol 4 70 4.90 4.90 1 2 Budweiser Schlitz cost .43: :4S| 4 .48 3 lonenbrau Kronensourc Heineken Old-milnaukee Aucsberger 4 5.20 5.00 5 刀 .40 • 6 7 4.60 5.50

[-1问趣一:选择那些变虽进行聚类? 一一采用“R型聚类”

1、现在我们有4个变址用來对啤酒分类

2.先确定用相似性來测度.度量标准选用pearson系数.聚类方法选最远元素.将來的相似性矩阵里的数 字为相关系数。若果有

某两个变虽的相关系数接近1或-1.说明两个变虽可互相替代。

传播优秀Word版文档.希塑对您有帮助.可双击去除!

3、只输出“树状图”就可以「从proximity matrix表中可以看出热:&和酒精含址两个变虽相关系数0. 903. 最大.二者选其一即可.

没有必要都作为聚类变虽.导致成木增加。至于热址和酒精含量选择哪一个作为 典型指标來代替原來的两个变址,可以根据专业知识或测定的难易程度决定。(与伙I子分析不同.是完全 踢掉其中一个变虽以达到降维的目的。)这里选用酒精含电 至此•确定出用于聚类的变虽为:酒精含童 钠含邀,价格。

传播优秀Wed版文档.希塑对您冇帝助.可双击去除!

PvoxIrnRy Uhtilx UWvFil* Input C* • • ( 1 nwfto 1 000 429 903 291

.nM^o 42$ 90) .337 1000 33? 1000 -.444 315 291 从机 345 1.0GO Cluster Membership Case 3 Clusters 2 Clusters 咚2 (l<' 1 2 1 3 1 1 1 -> Wf^S 酒柚含m

■ *

【二】问題二20中啤酒能分为几类? 一一采用杠Q型聚类\"

K现在开始对20中啤酒进行聚类°开始不确定应该分为几类,暂时用一个3-5类范用來试探,这一回用 欧式距离平方进

行测度。

传播优秀Wed版文档.希塑对您冇帝助.可双击去除!

站 矣疑关分折:统计量 t^S5

匚合并52f2*(A) J 16似性矩吨) ◎无迥) ©单一方累①) @方索爼S1迟) 银小比类玫廻):卜 | 噩犬JK类数迖):同 | [址绶J丨聯肖邸肋,

2、主要通过树状图和冰柱图來理解类别。报终是分为4类还是3类.这是个复朵的过程,需要专业知识和 展初的目的

來识别。我这里试着确定分为4类。选择“保存\"•则在数据区域内会自动生成聚类结果。

□•ndrogrtm using Complete Linkage

17 - 13 12 18 io 19 16 」 - u

3— 【三】问題三^州于聚类的变量对聚类过程.结果又贡献么.有用么? ——采用“也因素方差分析”

1、 聚类分析除了对类别的确定需讨论外,还有一个比较关键的问题就是分类变虽到底对聚类有没有作用有 没有贡献.

如果有个别变址对分类没有作用的话,应该剔除。

2、 这个过程一般用单•因素方差分析來判断°注意此时.因子变址选择聚为4类的结果.而将三个聚类变址 作为因变虽

处理。方差分析结果显示.三个聚类变址sig值均极显音.我们川于分类的3个变址对分类有 作用.可以使用,作为聚类变虽是比佼合理的。

传播优秀Wed版文档.希塑对您冇帝助.可双击去除!

ANOVA

Sum of SQUM*S 6«M«n0f0u^s Tow 6C4 2OB M2 9W rw 1411 tom 37J 03) 407 ie w 3 ie 19 3 M«an8qiaf» ?O1 400 It IT? F 12 454 MO Z: • 0«e*Mn Otours ToW 2S1» 1181$ Hl 124 002 5»55> ow 6«te««n Groups WHO Orcvpt TOW

3 W li ox 【四】问题四:聚类结果的解释? 一一采用”均值比较描述统计“

1、 聚类分析最后一步,也是最为困难的就是对分岀的备类进行定义解释,描述各类的特征,即各类别特征 描述。这需要

专业知识作为基础并结合分析目的才能得出。

2、 我们可以采用spss的means均值比较过程,或者excel的透视表功能对幹类的各个指标进行描述。其 中.report报表用

于描述聚类结果。对各类指标的比较來初步定义类别.主婆根据专业知识來判定。这里 到此为止。

Report

Mean

Complete Linkaae 1 2 3 4 Total 136.7500 155.2500 153.2500 87.5000 133 9000 15 5000 10.7500 24 5000 85000 14 9500 4.5125 4.9750 49250 3.2750 4 4400 .4500 .7625 .3775 .4325 .4945

因篇幅问题不能全部显示,请点此查看更多更全内容