首頁  |   網站導覽  |   會員登入  |  
首頁 » 分析方法 » 卡方自動交互檢視法(CHAID)

卡方自動交互檢視法
Chi-square automatic interaction detector, CHAID
CHAID是一個非常早期的分類方法,在1960年初期Sonquist與Morgan兩位學者所發展,經過許多的學者改進後 ,在1980由南非學者Kass正式定名。此方法利用卡方檢定來決定自變數的分割點, 為一逐次搜索的程序,通常建議作為初步篩選變數的工具,而不是最後的結論, 方法中要求依變數與自變數皆必須為類別變數。

決策樹-方法簡介

本方法使用之R相關套件與參考文獻:
相關套件:stats、base、CHAID、RWeka、partykit
參考文獻(依套件名稱排序):
  1. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
  2. The FoRt Student Project Team (2009). CHAID: CHi-squared Automated Interaction Detection R package version 0.1-1.
  3. Kurt Hornik, Christian Buchta, Achim Zeileis (2009) Open-Source Machine Learning: R Meets Weka. Computational Statistics, 24(2), 225-232. doi:10.1007/s00180-008-0119-7
  4. Torsten Hothorn and Achim Zeileis (2013). partykit: A Toolkit for Recursive Partytioning. R package version 0.1-6. URL:http://CRAN.R-project.org/package=partykit
範例F-6:

鳶尾花(iris)資料,最早由英國統計學家費雪(R. A. Fisher, 1890 – 1962)用於多變量分析(multivariate analysis)中的判別分析(discriminant analysis),故常稱為費雪鳶尾花資料。此資料是由美國植物學家安德生(E. S. Anderson, 1897 – 1969)所收集,故也稱為安德生鳶尾花資料。此資料記錄了鳶尾花三個亞種及其特徵,三亞種分別為山鳶尾(setosa)、變色鳶尾(versicolor)及維吉尼亞鳶尾(virginica),花的特徵則包含花萼(sepal)與花瓣(petal)的長度與寬度。

表:鳶尾花資料
變數名稱 花萼長度 花萼寬度 花瓣長度 花瓣寬度 品種
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
150 5.9 3.0 5.1 1.8 virginica

Q2:資料中記錄有花萼與花瓣的長度與寬度以及花的亞種,且花的亞種個數已確知為3種,植物學家想了解,若未看到花的實體,僅由記錄的資料中(花萼與花瓣的長度與寬度)是否能分辨出花的亞種?當有新的紀錄資料時,能否分辨該朵花屬於何種亞種?
統計方法:問題中想利用花萼與花瓣的長度與寬度來了解該花屬於何種亞種,且亞種個數為已知,故適合使用具有分類能力的分析方法。具有分類能力的方法有許多種,如判別分析(discriminat analysis)、決策樹(decision tree)或是類神經網路(neural network),以下列出適用於此鳶尾花資料的方法,使用者可比較在相同的目的下,不同分析方法所獲得結果的差異性。
分類模式
決策樹 判別分析 類神經網路 其它分類方法
分類與迴歸樹(CART) 判別分析
(Discriminant Analysis)
單一隱藏層
Feed Forward網路(NNET)
支援向量機器
(Support Vector Machine)
快速不偏有效統計樹(QUEST) 多層感知機網路(MLP) K最近鄰演算法
(K-Nearest Neighbors Algorithm)
卡方自動交互檢視法(CHAID) 輻射基底類神經網路( RBF ) 單純貝式分類器
(Naïve Bayesian Classifier)
C5.0法 機率類神經網路(PNN) 適應型強化分類法
(Adaptive Boosting)
隨機森林法(Random Forest)
卡方自動交互檢視法(CHAID) - 分析結果
  • 分析方法:卡方自動交互檢視法(CHAID)
  • 資料名稱:範例F-6
  • 依變數名稱:Species
  • 自變數名稱:Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
  • 計算時間:0.692秒

  • 變數分組前訊息:
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    Sepal.Length1505.84335.84.37.90.8281
    Sepal.Width1503.0573324.40.4359
    Petal.Length1503.7584.3516.91.7653
    Petal.Width1501.19931.30.12.50.7622

  • 變數分組後訊息:
    分組的變數
    variable
    分割方法
    method
    分割組數
    groups
    分割點
    cut points
    重新分組後的資料代碼
    re-coded
    Sepal.Length等間距法2-0,1
    Sepal.Width等間距法2-0,1
    Petal.Length等間距法2-0,1
    Petal.Width等間距法2-0,1

  • 變數訊息I
    變數名稱
    Variable
    變數值
    Value
    編碼
    Coded
    個數
    Count
    Speciessetosa050
    versicolor150
    virginica250
    Sepal.Length0089
    1161
    Sepal.Width0094
    1156
    Petal.Length0061
    1189
    Petal.Width0065
    1185
    I:變數訊息皆不包含遺失值
  • 分類樹表:
    Model formula:
    
    Species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width
    
    Fitted party:
    
    [1] root
    
    |   [2] Petal.Length in 0
    
    |   |   [3] Sepal.Width in 0: setosa (n = 19, err = 42.1%)
    
    |   |   [4] Sepal.Width in 1: setosa (n = 35, err = 0.0%)
    
    |   [5] Petal.Length in 1
    
    |   |   [6] Sepal.Length in 0: versicolor (n = 22, err = 22.7%)
    
    |   |   [7] Sepal.Length in 1: virginica (n = 59, err = 33.9%)
    
    Number of inner nodes:    3
    
    Number of terminal nodes: 4
    

  • 分類樹圖:

  • 觀察值與配適值(訓練樣本)比較表:(下載完整CSV檔)
    樣本點編號觀察值配適值
    1setosasetosa
    2setosasetosa
    3setosasetosa
    4setosasetosa
    5setosasetosa
    146virginicavirginica
    147virginicavirginica
    148virginicavirginica
    149virginicavirginica
    150virginicaversicolor

  • 預測v.s.觀察分類表(訓練樣本):
    Species 預測值
    setosaversicolorvirginica
    觀察值setosa4600
    versicolor81720
    virginica0539
    正確預測比例(對角線元素總和/所有觀察值總和):75.56 %

  • 觀察值與預測值(測試樣本)比較表:(下載完整CSV檔)
    樣本點編號觀察值預測值
    15setosasetosa
    35setosasetosa
    38setosasetosa
    40setosasetosa
    58versicolorsetosa
    114virginicaversicolor
    115virginicaversicolor
    120virginicaversicolor
    122virginicaversicolor
    140virginicavirginica

  • 預測v.s.觀察分類表(測試樣本):
    Species 預測值
    setosaversicolorvirginica
    觀察值setosa400
    versicolor320
    virginica042
    正確預測比例(對角線元素總和/所有觀察值總和):53.33 %

[重新分析]
影音教學內容為本系統資料處理與分析方法之操作說明,
可供使用者即時參考及線上自學,
輕鬆上手「R資料分析暨導引系統」!

步驟一:資料匯入
選擇要進行分析的資料檔或上傳檔案
您所選擇的資料檔為:
  
使用已儲存模式I對資料進行分類預測
I:對樣本資料進行訓練後可儲存模式,並對新增資料進行分類預測