階層集群法是集群分析中常用的的方法之一,此方法的概念是將條件性質接近的資料先分別合成數群,
往後依性質將這些群再逐步合併,越合併群數會越少,直至所有個體合成一群。
分群模式-
方法簡介
本方法使用之R相關套件與參考文獻:
相關套件: stats、base、graphics
參考文獻(依套件名稱排序):
R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
範例F-6:
鳶尾花(iris)資料,最早由英國統計學家費雪(R. A. Fisher, 1890 – 1962)用於多變量分析(multivariate analysis)中的判別分析(discriminant analysis),故常稱為費雪鳶尾花資料。此資料是由美國植物學家安德生(E. S. Anderson, 1897 – 1969)所收集,故也稱為安德生鳶尾花資料。此資料記錄了鳶尾花三個亞種及其特徵,三亞種分別為山鳶尾(setosa)、變色鳶尾(versicolor)及維吉尼亞鳶尾(virginica),花的特徵則包含花萼(sepal)與花瓣(petal)的長度與寬度。
表:鳶尾花資料
變數名稱
花萼長度
花萼寬度
花瓣長度
花瓣寬度
品種
1
5.1
3.5
1.4
0.2
setosa
2
4.9
3.0
1.4
0.2
setosa
3
4.7
3.2
1.3
0.2
setosa
:
:
:
:
:
:
150
5.9
3.0
5.1
1.8
virginica
Q1:
資料中記錄有花萼與花瓣的長度與寬度以及花的亞種,植物學家想了解,若記錄的資料中僅有花的特徵(花萼與花瓣的長度與寬度),能否以此資料分辨出花的亞種數目?
統計方法 :問題中想利用花萼與花瓣的長度與寬度來了解該花種的亞種數目,而亞種個數為未知,故適合使用具有分群能力的分析方法。具有分群能力的方法歸類於集群分析(clustering analysis)中,以下列出適用於此鳶尾花資料的方法,使用者可比較在相同的目的下,不同分析方法所獲得結果的差異性。
階層集群法 - 分析結果
分析方法: 階層集群法
資料名稱: 範例F-6
變數名稱: Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
距離矩陣測量方式: 歐氏距離
計算時間: 0.381秒
樣本敘述統計量I :
變數名稱 Variable
樣本數 Count
平均數 Mean
中位數 Median
最小值 Minimum
最大值 Maximum
標準差 Std. dev.
Sepal.Length 150 5.8433 5.8 4.3 7.9 0.8281 Sepal.Width 150 3.0573 3 2 4.4 0.4359 Petal.Length 150 3.758 4.35 1 6.9 1.7653 Petal.Width 150 1.1993 1.3 0.1 2.5 0.7622
I:樣本敘述統計量皆不包含遺失值
距離(distance)矩陣I :II
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1 0 0.5385 0.5099 0.6481 0.1414 0.6164 0.5196 0.1732 0.922 0.469 0.3742 0.3742 0.5916 0.995 0.8832 1.1045 0.5477 0.1 0.7416 0.3317 0.4359 0.3 0.6481 0.469 0.5916 0.5477 0.3162 0.1414 0.1414 0.5385 2 0.5385 0 0.3 0.3317 0.6083 1.0909 0.5099 0.4243 0.5099 0.1732 0.866 0.4583 0.1414 0.6782 1.3601 1.6279 1.0536 0.5477 1.1747 0.8367 0.7071 0.7616 0.781 0.5568 0.6481 0.2236 0.5 0.5916 0.5 0.3464 3 0.5099 0.3 0 0.2449 0.5099 1.0863 0.2646 0.4123 0.4359 0.3162 0.8832 0.3742 0.2646 0.5 1.3638 1.5875 1.01 0.5196 1.2369 0.755 0.8307 0.7 0.5099 0.6481 0.6403 0.469 0.5099 0.6164 0.5477 0.3 4 0.6481 0.3317 0.2449 0 0.6481 1.1662 0.3317 0.5 0.3 0.3162 1 0.3742 0.2646 0.5196 1.5297 1.7146 1.1662 0.6557 1.3229 0.866 0.8775 0.8062 0.7071 0.6481 0.5385 0.4243 0.5477 0.7211 0.6782 0.1732 5 0.1414 0.6083 0.5099 0.6481 0 0.6164 0.4583 0.2236 0.922 0.5292 0.4243 0.3464 0.6403 0.9747 0.9165 1.0863 0.5477 0.1732 0.7937 0.2646 0.5385 0.2646 0.5657 0.5292 0.5745 0.6325 0.3464 0.2449 0.2828 0.5385 6 0.6164 1.0909 1.0863 1.1662 0.6164 0 0.995 0.7 1.4595 1.01 0.3464 0.8124 1.1619 1.5716 0.6782 0.6164 0.4 0.5916 0.3317 0.3873 0.5385 0.4123 1.1225 0.6782 0.8307 1.01 0.6481 0.5292 0.6481 1.0149 7 0.5196 0.5099 0.2646 0.3317 0.4583 0.995 0 0.4243 0.5477 0.4796 0.866 0.3 0.4899 0.6164 1.3601 1.4933 0.9539 0.5099 1.2083 0.6481 0.8602 0.6 0.4583 0.6245 0.5477 0.6083 0.4583 0.6245 0.6083 0.3162 8 0.1732 0.4243 0.4123 0.5 0.2236 0.7 0.4243 0 0.7874 0.3317 0.5 0.2236 0.469 0.9055 1.044 1.2369 0.7 0.2 0.8367 0.4243 0.4472 0.3742 0.6708 0.3873 0.4472 0.4123 0.2236 0.2236 0.2236 0.3742 9 0.922 0.5099 0.4359 0.3 0.922 1.4595 0.5477 0.7874 0 0.5568 1.2845 0.6708 0.4243 0.3464 1.7916 1.9975 1.4318 0.9274 1.6125 1.1489 1.1576 1.0863 0.8307 0.911 0.8124 0.6403 0.8307 1.005 0.9434 0.469 10 0.469 0.1732 0.3162 0.3162 0.5292 1.01 0.4796 0.3317 0.5568 0 0.7874 0.3464 0.1732 0.728 1.3115 1.5556 1.01 0.5 1.1 0.755 0.6245 0.7 0.7746 0.5292 0.5196 0.2 0.4472 0.5099 0.4472 0.2646 11 0.3742 0.866 0.8832 1 0.4243 0.3464 0.866 0.5 1.2845 0.7874 0 0.6782 0.9327 1.3675 0.5831 0.7874 0.3464 0.3873 0.3873 0.3317 0.3606 0.3606 0.9487 0.6164 0.781 0.8124 0.5477 0.2828 0.3742 0.866 12 0.3742 0.4583 0.3742 0.3742 0.3464 0.8124 0.3 0.2236 0.6708 0.3464 0.6782 0 0.4583 0.8185 1.2329 1.3638 0.8602 0.3873 0.995 0.5196 0.6083 0.4796 0.6633 0.4472 0.3 0.4472 0.2828 0.4243 0.4472 0.2236 13 0.5916 0.1414 0.2646 0.2646 0.6403 1.1619 0.4899 0.469 0.4243 0.1732 0.9327 0.4583 0 0.5831 1.4318 1.6941 1.1269 0.6164 1.257 0.8832 0.7874 0.8246 0.755 0.6557 0.6481 0.3 0.5745 0.6557 0.5745 0.3162 14 0.995 0.6782 0.5 0.5196 0.9747 1.5716 0.6164 0.9055 0.3464 0.728 1.3675 0.8185 0.5831 0 1.8083 2.0421 1.4663 1.01 1.7321 1.2166 1.3191 1.1747 0.6856 1.118 1.0296 0.866 0.995 1.1091 1.0344 0.6782 15 0.8832 1.3601 1.3638 1.5297 0.9165 0.6782 1.3601 1.044 1.7916 1.3115 0.5831 1.2329 1.4318 1.8083 0 0.5477 0.469 0.8888 0.5568 0.7937 0.8775 0.8426 1.2806 1.1489 1.3601 1.3416 1.0954 0.8367 0.8718 1.4177 16 1.1045 1.6279 1.5875 1.7146 1.0863 0.6164 1.4933 1.2369 1.9975 1.5556 0.7874 1.3638 1.6941 2.0421 0.5477 0 0.6164 1.0909 0.6403 0.8544 1.0817 0.922 1.4629 1.2728 1.4177 1.5811 1.2247 1.0488 1.1402 1.578 17 0.5477 1.0536 1.01 1.1662 0.5477 0.4 0.9539 0.7 1.4318 1.01 0.3464 0.8602 1.1269 1.4663 0.469 0.6164 0 0.5196 0.5196 0.3873 0.6708 0.4123 0.9274 0.7874 1.005 1.0488 0.7071 0.5292 0.5831 1.0536 18 0.1 0.5477 0.5196 0.6557 0.1732 0.5916 0.5099 0.2 0.9274 0.5 0.3873 0.3873 0.6164 1.01 0.8888 1.0909 0.5196 0 0.7348 0.3162 0.4472 0.2449 0.6557 0.4123 0.6 0.5568 0.2646 0.1732 0.1732 0.5477 19 0.7416 1.1747 1.2369 1.3229 0.7937 0.3317 1.2083 0.8367 1.6125 1.1 0.3873 0.995 1.257 1.7321 0.5568 0.6403 0.5196 0.7348 0 0.6325 0.5099 0.6481 1.3229 0.8062 1.01 1.0724 0.8185 0.6245 0.7141 1.1747 20 0.3317 0.8367 0.755 0.866 0.2646 0.3873 0.6481 0.4243 1.1489 0.755 0.3317 0.5196 0.8832 1.2166 0.7937 0.8544 0.3873 0.3162 0.6325 0 0.5477 0.1414 0.7416 0.5745 0.6481 0.8185 0.4359 0.3317 0.4359 0.7348 21 0.4359 0.7071 0.8307 0.8775 0.5385 0.5385 0.8602 0.4472 1.1576 0.6245 0.3606 0.6083 0.7874 1.3191 0.8775 1.0817 0.6708 0.4472 0.5099 0.5477 0 0.5099 1.0817 0.4359 0.6325 0.5745 0.4583 0.3 0.3606 0.7348 22 0.3 0.7616 0.7 0.8062 0.2646 0.4123 0.6 0.3742 1.0863 0.7 0.3606 0.4796 0.8246 1.1747 0.8426 0.922 0.4123 0.2449 0.6481 0.1414 0.5099 0 0.7416 0.4583 0.6164 0.7416 0.3317 0.3 0.3873 0.6782 23 0.6481 0.781 0.5099 0.7071 0.5657 1.1225 0.4583 0.6708 0.8307 0.7746 0.9487 0.6633 0.755 0.6856 1.2806 1.4629 0.9274 0.6557 1.3229 0.7416 1.0817 0.7416 0 0.9592 0.9434 0.9381 0.7746 0.7874 0.7483 0.728 24 0.469 0.5568 0.6481 0.6481 0.5292 0.6782 0.6245 0.3873 0.911 0.5292 0.6164 0.4472 0.6557 1.118 1.1489 1.2728 0.7874 0.4123 0.8062 0.5745 0.4359 0.4583 0.9592 0 0.4796 0.4472 0.2 0.4243 0.4472 0.5196 25 0.5916 0.6481 0.6403 0.5385 0.5745 0.8307 0.5477 0.4472 0.8124 0.5196 0.781 0.3 0.6481 1.0296 1.3601 1.4177 1.005 0.6 1.01 0.6481 0.6325 0.6164 0.9434 0.4796 0 0.5385 0.4123 0.5745 0.6403 0.3742 26 0.5477 0.2236 0.469 0.4243 0.6325 1.01 0.6083 0.4123 0.6403 0.2 0.8124 0.4472 0.3 0.866 1.3416 1.5811 1.0488 0.5568 1.0724 0.8185 0.5745 0.7416 0.9381 0.4472 0.5385 0 0.4472 0.5477 0.4899 0.3606 27 0.3162 0.5 0.5099 0.5477 0.3464 0.6481 0.4583 0.2236 0.8307 0.4472 0.5477 0.2828 0.5745 0.995 1.0954 1.2247 0.7071 0.2646 0.8185 0.4359 0.4583 0.3317 0.7746 0.2 0.4123 0.4472 0 0.3162 0.3464 0.4123 28 0.1414 0.5916 0.6164 0.7211 0.2449 0.5292 0.6245 0.2236 1.005 0.5099 0.2828 0.4243 0.6557 1.1091 0.8367 1.0488 0.5292 0.1732 0.6245 0.3317 0.3 0.3 0.7874 0.4243 0.5745 0.5477 0.3162 0 0.1414 0.5916 29 0.1414 0.5 0.5477 0.6782 0.2828 0.6481 0.6083 0.2236 0.9434 0.4472 0.3742 0.4472 0.5745 1.0344 0.8718 1.1402 0.5831 0.1732 0.7141 0.4359 0.3606 0.3873 0.7483 0.4472 0.6403 0.4899 0.3464 0.1414 0 0.5745 30 0.5385 0.3464 0.3 0.1732 0.5385 1.0149 0.3162 0.3742 0.469 0.2646 0.866 0.2236 0.3162 0.6782 1.4177 1.578 1.0536 0.5477 1.1747 0.7348 0.7348 0.6782 0.728 0.5196 0.3742 0.3606 0.4123 0.5916 0.5745 0
I:距離計算採歐氏距離 II:因資料筆數較多,網頁僅顯示部分矩陣。
集群分析過程(clustering process)I,II :(下載完整CSV檔)
群編號 分群距離 個體與集群 1 0 -102 -143 2 0.1 -8 -40 3 0.1 -1 -18 4 0.1 -10 -35 5 0.1 -129 -133 。 。 。 145 2.2361 135 143 146 2.429 138 139 147 3.2109 141 145 148 4.0249 144 146 149 7.0852 147 148
I:分層採最遠法(完全聯結法) II:表中負值表被選擇結合的樣本個體,正值表被選擇結合的群編號
分群後集群成員(members):(下載完整CSV檔)
觀察值編號 集群 1 1 2 1 3 1 4 1 5 1 。 。 。 146 2 147 2 148 2 149 2 150 2
集群分析樹狀圖(clustering tree)(分層採最遠法(完全聯結法)):
分群建議樹狀圖(clustering tree)(分層採最遠法(完全聯結法)):
[重新分析]