首頁
» 分析方法 » 卡方自動交互檢視法(CHAID)
CHAID是一個非常早期的分類方法,在1960年初期Sonquist與Morgan兩位學者所發展,經過許多的學者改進後
,在1980由南非學者Kass正式定名。此方法利用卡方檢定來決定自變數的分割點,
為一逐次搜索的程序,通常建議作為初步篩選變數的工具,而不是最後的結論,
方法中要求依變數與自變數皆必須為類別變數。
決策樹-方法簡介
本方法使用之R相關套件與參考文獻:
相關套件:stats、base、CHAID、RWeka、partykit
參考文獻(依套件名稱排序):
決策樹-方法簡介
本方法使用之R相關套件與參考文獻:
相關套件:stats、base、CHAID、RWeka、partykit
參考文獻(依套件名稱排序):
- R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
- The FoRt Student Project Team (2009). CHAID: CHi-squared Automated Interaction Detection R package version 0.1-1.
- Kurt Hornik, Christian Buchta, Achim Zeileis (2009) Open-Source Machine Learning: R Meets Weka. Computational Statistics, 24(2), 225-232. doi:10.1007/s00180-008-0119-7
- Torsten Hothorn and Achim Zeileis (2013). partykit: A Toolkit for Recursive Partytioning. R package version 0.1-6. URL:http://CRAN.R-project.org/package=partykit
範例F-6:
鳶尾花(iris)資料,最早由英國統計學家費雪(R. A. Fisher, 1890 – 1962)用於多變量分析(multivariate analysis)中的判別分析(discriminant analysis),故常稱為費雪鳶尾花資料。此資料是由美國植物學家安德生(E. S. Anderson, 1897 – 1969)所收集,故也稱為安德生鳶尾花資料。此資料記錄了鳶尾花三個亞種及其特徵,三亞種分別為山鳶尾(setosa)、變色鳶尾(versicolor)及維吉尼亞鳶尾(virginica),花的特徵則包含花萼(sepal)與花瓣(petal)的長度與寬度。
表:鳶尾花資料
Q2:資料中記錄有花萼與花瓣的長度與寬度以及花的亞種,且花的亞種個數已確知為3種,植物學家想了解,若未看到花的實體,僅由記錄的資料中(花萼與花瓣的長度與寬度)是否能分辨出花的亞種?當有新的紀錄資料時,能否分辨該朵花屬於何種亞種?
統計方法:問題中想利用花萼與花瓣的長度與寬度來了解該花屬於何種亞種,且亞種個數為已知,故適合使用具有分類能力的分析方法。具有分類能力的方法有許多種,如判別分析(discriminat analysis)、決策樹(decision tree)或是類神經網路(neural network),以下列出適用於此鳶尾花資料的方法,使用者可比較在相同的目的下,不同分析方法所獲得結果的差異性。[重新分析]
鳶尾花(iris)資料,最早由英國統計學家費雪(R. A. Fisher, 1890 – 1962)用於多變量分析(multivariate analysis)中的判別分析(discriminant analysis),故常稱為費雪鳶尾花資料。此資料是由美國植物學家安德生(E. S. Anderson, 1897 – 1969)所收集,故也稱為安德生鳶尾花資料。此資料記錄了鳶尾花三個亞種及其特徵,三亞種分別為山鳶尾(setosa)、變色鳶尾(versicolor)及維吉尼亞鳶尾(virginica),花的特徵則包含花萼(sepal)與花瓣(petal)的長度與寬度。
表:鳶尾花資料
變數名稱 | 花萼長度 | 花萼寬度 | 花瓣長度 | 花瓣寬度 | 品種 |
1 | 5.1 | 3.5 | 1.4 | 0.2 | setosa |
2 | 4.9 | 3.0 | 1.4 | 0.2 | setosa |
3 | 4.7 | 3.2 | 1.3 | 0.2 | setosa |
: | : | : | : | : | : |
150 | 5.9 | 3.0 | 5.1 | 1.8 | virginica |
Q2:資料中記錄有花萼與花瓣的長度與寬度以及花的亞種,且花的亞種個數已確知為3種,植物學家想了解,若未看到花的實體,僅由記錄的資料中(花萼與花瓣的長度與寬度)是否能分辨出花的亞種?當有新的紀錄資料時,能否分辨該朵花屬於何種亞種?
統計方法:問題中想利用花萼與花瓣的長度與寬度來了解該花屬於何種亞種,且亞種個數為已知,故適合使用具有分類能力的分析方法。具有分類能力的方法有許多種,如判別分析(discriminat analysis)、決策樹(decision tree)或是類神經網路(neural network),以下列出適用於此鳶尾花資料的方法,使用者可比較在相同的目的下,不同分析方法所獲得結果的差異性。