首頁  |   網站導覽  |   會員登入  |  
首頁 » 分析方法 » K組平均集群法

K組平均集群法
K-means clustering
此方法是資料探勘分群技術中最常使用的方法,為科學家Lloyd 於1957所提出,1967由統計學家MacQueen定名為k-means,陸陸續續有其他科學家發表了相似的方法或是修正版本使得此方法的效率大為提高。此方法係以計算資料中個體間的幾何平均數作為分群的依據,因此當資料有離群值(outlier)時會受到影響,而此方法不適合做為分群工具。

分群模式-方法簡介

本方法使用之R相關套件與參考文獻:
相關套件:stats、base、graphics
參考文獻(依套件名稱排序):
  1. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
範例F-6:

鳶尾花(iris)資料,最早由英國統計學家費雪(R. A. Fisher, 1890 – 1962)用於多變量分析(multivariate analysis)中的判別分析(discriminant analysis),故常稱為費雪鳶尾花資料。此資料是由美國植物學家安德生(E. S. Anderson, 1897 – 1969)所收集,故也稱為安德生鳶尾花資料。此資料記錄了鳶尾花三個亞種及其特徵,三亞種分別為山鳶尾(setosa)、變色鳶尾(versicolor)及維吉尼亞鳶尾(virginica),花的特徵則包含花萼(sepal)與花瓣(petal)的長度與寬度。

表:鳶尾花資料
變數名稱 花萼長度 花萼寬度 花瓣長度 花瓣寬度 品種
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
150 5.9 3.0 5.1 1.8 virginica

Q1:資料中記錄有花萼與花瓣的長度與寬度以及花的亞種,植物學家想了解,若記錄的資料中僅有花的特徵(花萼與花瓣的長度與寬度),能否以此資料分辨出花的亞種數目?
統計方法:問題中想利用花萼與花瓣的長度與寬度來了解該花種的亞種數目,而亞種個數為未知,故適合使用具有分群能力的分析方法。具有分群能力的方法歸類於集群分析(clustering analysis)中,以下列出適用於此鳶尾花資料的方法,使用者可比較在相同的目的下,不同分析方法所獲得結果的差異性。

分群模式 集群分析 K組平均集群法(K-Means Clustering)
模糊理論集群法(Fuzzy Clustering)[包含C-Means方法]
階層分群法(Hierarchical Clustering)
自組織映射圖(Kohonen SOM)
K組平均集群法 - 分析結果
  • 分析方法:K組平均集群法
  • 資料名稱:範例F-6
  • 變數名稱:Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
  • 分群演算法:Hartigan-Wong
  • 計算時間:0.27秒

  • 樣本敘述統計量I
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    Sepal.Length1505.84335.84.37.90.8281
    Sepal.Width1503.0573324.40.4359
    Petal.Length1503.7584.3516.91.7653
    Petal.Width1501.19931.30.12.50.7622
    I:樣本敘述統計量皆不包含遺失值

  • 分群後集群中的觀察值個數:
    集群編號 觀察值個數
    150
    238
    362

  • 分群後集群中心點(centroid):
    集群 Sepal.LengthSepal.WidthPetal.LengthPetal.Width
    15.0063.4281.4620.246
    26.853.07375.74212.0711
    35.90162.74844.39351.4339

  • 分群後集群中心點(centroid)的距離:
    集群 123
    105.01763.3569
    25.017601.7972
    33.35691.79720

  • 分群後集群成員(members):(下載完整CSV檔)
    觀察值編號集群
    11
    21
    31
    41
    51
    1462
    1473
    1482
    1492
    1503

  • 分群的變異數分析(ANOVA):
    集群
    between
    誤差
    within
    F統計量
    F-statistic
    P-值
    P-value
    平方和
    SS
    自由度
    d.f.
    平方和
    SS
    自由度
    d.f.
    Sepal.Length73.7753228.393147190.97940
    Sepal.Width12.7976215.509314760.6490
    Petal.Length438.2175226.10791471233.68980
    Petal.Width77.728728.8412147646.18390

  • 二維度分群圖(clustering plot):

[重新分析]
影音教學內容為本系統資料處理與分析方法之操作說明,
可供使用者即時參考及線上自學,
輕鬆上手「R資料分析暨導引系統」!

步驟一:資料匯入
選擇要進行分析的資料檔或上傳檔案
您所選擇的資料檔為: