首頁  |   網站導覽  |   會員登入  |  
首頁 » 分析方法 » 分類與迴歸樹(CART)

分類與迴歸樹
Classification And Regression Tree, CART
分類與迴歸樹由兩部分組成,兼具分類與迴歸兩種功能,是由美國統計學家Brieman於1984年所提出,此方法的特色是分類時一次產生兩個節點(node),且應變數與自變數不限制類型,分析上較彈性,為常用的決策樹方法。

決策樹-方法簡介

本方法使用之R相關套件與參考文獻:
相關套件:stats、base、tree
參考文獻:(依套件名稱排序)
  1. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
  2. Brian Ripley. (2013). tree: Classification and regression trees. R package version 1.0-34. URL:http://CRAN.R-project.org/package=tree
範例F-6:

鳶尾花(iris)資料,最早由英國統計學家費雪(R. A. Fisher, 1890 – 1962)用於多變量分析(multivariate analysis)中的判別分析(discriminant analysis),故常稱為費雪鳶尾花資料。此資料是由美國植物學家安德生(E. S. Anderson, 1897 – 1969)所收集,故也稱為安德生鳶尾花資料。此資料記錄了鳶尾花三個亞種及其特徵,三亞種分別為山鳶尾(setosa)、變色鳶尾(versicolor)及維吉尼亞鳶尾(virginica),花的特徵則包含花萼(sepal)與花瓣(petal)的長度與寬度。

表:鳶尾花資料
變數名稱 花萼長度 花萼寬度 花瓣長度 花瓣寬度 品種
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
150 5.9 3.0 5.1 1.8 virginica

Q2:資料中記錄有花萼與花瓣的長度與寬度以及花的亞種,且花的亞種個數已確知為3種,植物學家想了解,若未看到花的實體,僅由記錄的資料中(花萼與花瓣的長度與寬度)是否能分辨出花的亞種?當有新的紀錄資料時,能否分辨該朵花屬於何種亞種?
統計方法:問題中想利用花萼與花瓣的長度與寬度來了解該花屬於何種亞種,且亞種個數為已知,故適合使用具有分類能力的分析方法。具有分類能力的方法有許多種,如判別分析(discriminat analysis)、決策樹(decision tree)或是類神經網路(neural network),以下列出適用於此鳶尾花資料的方法,使用者可比較在相同的目的下,不同分析方法所獲得結果的差異性。
分類模式
決策樹 判別分析 類神經網路 其它分類方法
分類與迴歸樹(CART) 判別分析
(Discriminant Analysis)
單一隱藏層
Feed Forward網路(NNET)
支援向量機器
(Support Vector Machine)
快速不偏有效統計樹(QUEST) 多層感知機網路(MLP) K最近鄰演算法
(K-Nearest Neighbors Algorithm)
卡方自動交互檢視法(CHAID) 輻射基底類神經網路( RBF ) 單純貝式分類器
(Naïve Bayesian Classifier)
C5.0法 機率類神經網路(PNN) 適應型強化分類法
(Adaptive Boosting)
隨機森林法(Random Forest)
分類與迴歸樹(CART) - 分析結果
  • 分析方法:分類與迴歸樹(CART)
  • 資料名稱:範例F-6
  • 依變數名稱:Species
  • 自變數名稱:Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
  • 計算時間:0.246秒

  • 變數訊息I
    數值變數(numerical)
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    Sepal.Length1505.84335.84.37.90.8281
    Sepal.Width1503.0573324.40.4359
    Petal.Length1503.7584.3516.91.7653
    Petal.Width1501.19931.30.12.50.7622

    類別變數(categorical)
    變數名稱
    Variable
    變數值
    Value
    編碼
    Coded
    個數
    Count
    Speciessetosa050
    versicolor150
    virginica250
    I:變數訊息皆不包含遺失值
  • 模式訊息:
    結點分裂方法 deviance
    使用結點數 6
    殘差平均離差 0.1421
    分類錯誤率 0.0370
    使用者指定的分類變數:Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
    實際使用的分類變數:Petal.Length, Petal.Width, Sepal.Length

  • 樹狀結構表:
    結點位置
    node
    變數
    variable
    個數
    count
    離差
    deviance
    切點
    split
    分類結果
    classification
    1Petal.Length135296.580870<2.45setosa
    2<leaf> 46 0.000000-setosa
    3Petal.Width 89123.368962<1.75versicolor
    6Petal.Length 48 27.536254<4.85versicolor
    12Sepal.Length 42 9.451338<5.45versicolor
    24<leaf> 5 5.004024-versicolor
    25<leaf> 37 0.000000-versicolor
    13<leaf> 6 8.317766-versicolor
    7Sepal.Length 41 9.402553<6.05virginica
    14<leaf> 5 5.004024-virginica
    15<leaf> 36 0.000000-virginica

  • 樹狀結構圖:

  • 結點分類機率表:
    結點編號
    id
    結點位置
    node
    分類機率
    setosaversicolorvirginica
    110.34070.33330.3259
    221.00000.00000.0000
    330.00000.50560.4944
    460.00000.91670.0833
    5120.00000.97620.0238
    6240.00000.80000.2000
    7250.00001.00000.0000
    8130.00000.50000.5000
    970.00000.02440.9756
    10140.00000.20000.8000
    11150.00000.00001.0000

  • 樣本資料於各結點分配表:(下載完整CSV檔)
    樣本點編號結點編號
    12
    22
    32
    42
    52
    14611
    14711
    14811
    14911
    15010

  • 訓練樣本分類機率表:(下載完整CSV檔)
    樣本點編號setosaversicolorvirginica
    1100
    2100
    3100
    4100
    5100
    146001
    147001
    148001
    149001
    15000.20.8

  • 觀察值與配適值(訓練樣本)比較表:(下載完整CSV檔)
    樣本點編號觀察值配適值
    1setosasetosa
    2setosasetosa
    3setosasetosa
    4setosasetosa
    5setosasetosa
    146virginicavirginica
    147virginicavirginica
    148virginicavirginica
    149virginicavirginica
    150virginicavirginica

  • 預測v.s.觀察分類表(訓練樣本):
    Species 預測值
    setosaversicolorvirginica
    觀察值setosa4600
    versicolor0432
    virginica0242
    正確預測比例(對角線元素總和/所有觀察值總和):97.04 %

  • 觀察值與預測值(測試樣本)比較表:(下載完整CSV檔)
    樣本點編號觀察值預測值
    15setosasetosa
    35setosasetosa
    38setosasetosa
    40setosasetosa
    58versicolorversicolor
    114virginicavirginica
    115virginicavirginica
    120virginicaversicolor
    122virginicavirginica
    140virginicavirginica

  • 預測v.s.觀察分類表(測試樣本):
    Species 預測值
    setosaversicolorvirginica
    觀察值setosa400
    versicolor041
    virginica015
    正確預測比例(對角線元素總和/所有觀察值總和):86.67 %

[重新分析]
影音教學內容為本系統資料處理與分析方法之操作說明,
可供使用者即時參考及線上自學,
輕鬆上手「R資料分析暨導引系統」!

步驟一:資料匯入
選擇要進行分析的資料檔或上傳檔案
您所選擇的資料檔為:
  
使用已儲存模式I對資料進行分類預測
I:對樣本資料進行訓練後可儲存模式,並對新增資料進行分類預測