首頁
» 分析方法 » Kohonen自組織映射圖
此方法為人工類神經網路(artificial neural network)的一種分群方法,
使用鄰近函數(neighborhood function)的概念來降低資料的維度(通常降至二維),
且透過視覺化的效果可藉由低維度的圖形來了解高維度的資料結構,是由芬蘭的Kohonen教授所提出,故又稱 Kohonen 映射。
分群模式-方法簡介
本方法使用之R相關套件與參考文獻:
相關套件:stats、base、SOMbrero、wordcloud、knitr、shiny
參考文獻(依套件名稱排序):
分群模式-方法簡介
本方法使用之R相關套件與參考文獻:
相關套件:stats、base、SOMbrero、wordcloud、knitr、shiny
參考文獻(依套件名稱排序):
- R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
- Villa-Vialaneix N., Bendhaiba L., Olteanu M. (2013) SOMbrero: SOM Bound to Realize Euclidean and Relational Outputs. R package version 0.4-1.
- Ian Fellows (2013). wordcloud: Word Clouds. R package version 2.4. URL: http://CRAN.R-project.org/package=wordcloud
- Yihui Xie (2013). knitr: A general-purpose package for dynamic report generation in R. R package version 1.5.
- Yihui Xie (2013) Dynamic Documents with R and knitr. Chapman and Hall/CRC. ISBN 978-1482203530
- RStudio and Inc. (2013). shiny: Web Application Framework for R. R package version 0.8.0. URL: http://CRAN.R-project.org/package=shiny
範例F-6:
鳶尾花(iris)資料,最早由英國統計學家費雪(R. A. Fisher, 1890 – 1962)用於多變量分析(multivariate analysis)中的判別分析(discriminant analysis),故常稱為費雪鳶尾花資料。此資料是由美國植物學家安德生(E. S. Anderson, 1897 – 1969)所收集,故也稱為安德生鳶尾花資料。此資料記錄了鳶尾花三個亞種及其特徵,三亞種分別為山鳶尾(setosa)、變色鳶尾(versicolor)及維吉尼亞鳶尾(virginica),花的特徵則包含花萼(sepal)與花瓣(petal)的長度與寬度。
表:鳶尾花資料
Q1:資料中記錄有花萼與花瓣的長度與寬度以及花的亞種,植物學家想了解,若記錄的資料中僅有花的特徵(花萼與花瓣的長度與寬度),能否以此資料分辨出花的亞種數目?
統計方法:問題中想利用花萼與花瓣的長度與寬度來了解該花種的亞種數目,而亞種個數為未知,故適合使用具有分群能力的分析方法。具有分群能力的方法歸類於集群分析(clustering analysis)中,以下列出適用於此鳶尾花資料的方法,使用者可比較在相同的目的下,不同分析方法所獲得結果的差異性。
[重新分析]
鳶尾花(iris)資料,最早由英國統計學家費雪(R. A. Fisher, 1890 – 1962)用於多變量分析(multivariate analysis)中的判別分析(discriminant analysis),故常稱為費雪鳶尾花資料。此資料是由美國植物學家安德生(E. S. Anderson, 1897 – 1969)所收集,故也稱為安德生鳶尾花資料。此資料記錄了鳶尾花三個亞種及其特徵,三亞種分別為山鳶尾(setosa)、變色鳶尾(versicolor)及維吉尼亞鳶尾(virginica),花的特徵則包含花萼(sepal)與花瓣(petal)的長度與寬度。
表:鳶尾花資料
變數名稱 | 花萼長度 | 花萼寬度 | 花瓣長度 | 花瓣寬度 | 品種 |
1 | 5.1 | 3.5 | 1.4 | 0.2 | setosa |
2 | 4.9 | 3.0 | 1.4 | 0.2 | setosa |
3 | 4.7 | 3.2 | 1.3 | 0.2 | setosa |
: | : | : | : | : | : |
150 | 5.9 | 3.0 | 5.1 | 1.8 | virginica |
Q1:資料中記錄有花萼與花瓣的長度與寬度以及花的亞種,植物學家想了解,若記錄的資料中僅有花的特徵(花萼與花瓣的長度與寬度),能否以此資料分辨出花的亞種數目?
統計方法:問題中想利用花萼與花瓣的長度與寬度來了解該花種的亞種數目,而亞種個數為未知,故適合使用具有分群能力的分析方法。具有分群能力的方法歸類於集群分析(clustering analysis)中,以下列出適用於此鳶尾花資料的方法,使用者可比較在相同的目的下,不同分析方法所獲得結果的差異性。
分群模式 | 集群分析 | K組平均集群法(K-Means Clustering) |
模糊理論集群法(Fuzzy Clustering)[包含C-Means方法] | ||
階層分群法(Hierarchical Clustering) | ||
自組織映射圖(Kohonen SOM) |