R資料分析暨導引系統

首頁 » 分析方法 » 分類與迴歸樹(CART)

分類與迴歸樹
Classification And Regression Tree, CART

方法簡介
範例F-6(2)
影音教學
維基百科(英文)

分類與迴歸樹由兩部分組成，兼具分類與迴歸兩種功能，是由美國統計學家Brieman於1984年所提出，此方法的特色是分類時一次產生兩個節點(node)，且應變數與自變數不限制類型，分析上較彈性，為常用的決策樹方法。

決策樹-方法簡介

本方法使用之R相關套件與參考文獻：
相關套件：stats、base、tree
參考文獻：(依套件名稱排序)

R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL：http://www.R-project.org/.
Brian Ripley. (2013). tree: Classification and regression trees. R package version 1.0-34. URL：http://CRAN.R-project.org/package=tree

範例F-6：

鳶尾花(iris)資料，最早由英國統計學家費雪(R. A. Fisher, 1890 – 1962)用於多變量分析(multivariate analysis)中的判別分析(discriminant analysis)，故常稱為費雪鳶尾花資料。此資料是由美國植物學家安德生(E. S. Anderson, 1897 – 1969)所收集，故也稱為安德生鳶尾花資料。此資料記錄了鳶尾花三個亞種及其特徵，三亞種分別為山鳶尾(setosa)、變色鳶尾(versicolor)及維吉尼亞鳶尾(virginica)，花的特徵則包含花萼(sepal)與花瓣(petal)的長度與寬度。

表：鳶尾花資料

變數名稱	花萼長度	花萼寬度	花瓣長度	花瓣寬度	品種
1	5.1	3.5	1.4	0.2	setosa
2	4.9	3.0	1.4	0.2	setosa
3	4.7	3.2	1.3	0.2	setosa
：	：	：	：	：	：
150	5.9	3.0	5.1	1.8	virginica

Q2：資料中記錄有花萼與花瓣的長度與寬度以及花的亞種，且花的亞種個數已確知為3種，植物學家想了解，若未看到花的實體，僅由記錄的資料中(花萼與花瓣的長度與寬度)是否能分辨出花的亞種?當有新的紀錄資料時，能否分辨該朵花屬於何種亞種?
統計方法：問題中想利用花萼與花瓣的長度與寬度來了解該花屬於何種亞種，且亞種個數為已知，故適合使用具有分類能力的分析方法。具有分類能力的方法有許多種，如判別分析(discriminat analysis)、決策樹(decision tree)或是類神經網路(neural network)，以下列出適用於此鳶尾花資料的方法，使用者可比較在相同的目的下，不同分析方法所獲得結果的差異性。

分類模式
決策樹	判別分析	類神經網路	其它分類方法
分類與迴歸樹(CART)	判別分析 (Discriminant Analysis)	單一隱藏層 Feed Forward網路(NNET)	支援向量機器 (Support Vector Machine)
快速不偏有效統計樹(QUEST)		多層感知機網路(MLP)	K最近鄰演算法 (K-Nearest Neighbors Algorithm)
卡方自動交互檢視法(CHAID)		輻射基底類神經網路( RBF )	單純貝式分類器 (Naïve Bayesian Classifier)
C5.0法		機率類神經網路(PNN)	適應型強化分類法 (Adaptive Boosting)
隨機森林法(Random Forest)		機率類神經網路(PNN)	適應型強化分類法 (Adaptive Boosting)

分類與迴歸樹(CART) - 分析結果

分析方法：分類與迴歸樹(CART)
資料名稱：範例F-6
依變數名稱：Species
自變數名稱：Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
計算時間：0.246秒

變數訊息^I：

數值變數(numerical)

變數名稱
Variable 樣本數
Count 平均數
Mean 中位數
Median 最小值
Minimum 最大值
Maximum 標準差
Std. dev.
Sepal.Length 150 5.8433 5.8 4.3 7.9 0.8281
Sepal.Width 150 3.0573 3 2 4.4 0.4359
Petal.Length 150 3.758 4.35 1 6.9 1.7653
Petal.Width 150 1.1993 1.3 0.1 2.5 0.7622

類別變數(categorical)

變數名稱
Variable 變數值
Value 編碼
Coded 個數
Count
Species setosa 0 50
versicolor 1 50
virginica 2 50
I：變數訊息皆不包含遺失值

模式訊息：

結點分裂方法 deviance

使用結點數 6

殘差平均離差 0.1421

分類錯誤率 0.0370

使用者指定的分類變數：Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
實際使用的分類變數：Petal.Length, Petal.Width, Sepal.Length

樹狀結構表：

結點位置
node 變數
variable 個數
count 離差
deviance 切點
split 分類結果
classification
1 Petal.Length 135 296.580870 <2.45 setosa
2 <leaf> 46 0.000000 - setosa
3 Petal.Width 89 123.368962 <1.75 versicolor
6 Petal.Length 48 27.536254 <4.85 versicolor
12 Sepal.Length 42 9.451338 <5.45 versicolor
24 <leaf> 5 5.004024 - versicolor
25 <leaf> 37 0.000000 - versicolor
13 <leaf> 6 8.317766 - versicolor
7 Sepal.Length 41 9.402553 <6.05 virginica
14 <leaf> 5 5.004024 - virginica
15 <leaf> 36 0.000000 - virginica

樹狀結構圖：

結點分類機率表：

結點編號
id 結點位置
node 分類機率
setosa versicolor virginica
1 1 0.3407 0.3333 0.3259
2 2 1.0000 0.0000 0.0000
3 3 0.0000 0.5056 0.4944
4 6 0.0000 0.9167 0.0833
5 12 0.0000 0.9762 0.0238
6 24 0.0000 0.8000 0.2000
7 25 0.0000 1.0000 0.0000
8 13 0.0000 0.5000 0.5000
9 7 0.0000 0.0244 0.9756
10 14 0.0000 0.2000 0.8000
11 15 0.0000 0.0000 1.0000

樣本資料於各結點分配表：(下載完整CSV檔)
樣本點編號 結點編號
1 2
2 2
3 2
4 2
5 2
。
。
。
146 11
147 11
148 11
149 11
150 10
訓練樣本分類機率表：(下載完整CSV檔)
樣本點編號 setosa versicolor virginica
1 1 0 0
2 1 0 0
3 1 0 0
4 1 0 0
5 1 0 0
。
。
。
146 0 0 1
147 0 0 1
148 0 0 1
149 0 0 1
150 0 0.2 0.8

觀察值與配適值(訓練樣本)比較表：(下載完整CSV檔)

樣本點編號 觀察值 配適值
1 setosa setosa
2 setosa setosa
3 setosa setosa
4 setosa setosa
5 setosa setosa
。
。
。
146 virginica virginica
147 virginica virginica
148 virginica virginica
149 virginica virginica
150 virginica virginica

預測v.s.觀察分類表(訓練樣本)：

Species 預測值

setosa versicolor virginica
觀察值 setosa 46 0 0
versicolor 0 43 2
virginica 0 2 42
正確預測比例(對角線元素總和/所有觀察值總和)：97.04 %

觀察值與預測值(測試樣本)比較表：(下載完整CSV檔)

樣本點編號 觀察值 預測值
15 setosa setosa
35 setosa setosa
38 setosa setosa
40 setosa setosa
58 versicolor versicolor
。
。
。
114 virginica virginica
115 virginica virginica
120 virginica versicolor
122 virginica virginica
140 virginica virginica

預測v.s.觀察分類表(測試樣本)：

Species 預測值

setosa versicolor virginica
觀察值 setosa 4 0 0
versicolor 0 4 1
virginica 0 1 5
正確預測比例(對角線元素總和/所有觀察值總和)：86.67 %

[重新分析]

影音教學內容為本系統資料處理與分析方法之操作說明，
可供使用者即時參考及線上自學，
輕鬆上手「R資料分析暨導引系統」!

變數名稱 Variable	樣本數 Count	平均數 Mean	中位數 Median	最小值 Minimum	最大值 Maximum	標準差 Std. dev.
Sepal.Length	150	5.8433	5.8	4.3	7.9	0.8281
Sepal.Width	150	3.0573	3	2	4.4	0.4359
Petal.Length	150	3.758	4.35	1	6.9	1.7653
Petal.Width	150	1.1993	1.3	0.1	2.5	0.7622

變數名稱 Variable	變數值 Value	編碼 Coded	個數 Count
Species	setosa	0	50
	versicolor	1	50
	virginica	2	50

結點分裂方法	deviance
使用結點數	6
殘差平均離差	0.1421
分類錯誤率	0.0370

結點位置 node	變數 variable	個數 count	離差 deviance	切點 split	分類結果 classification
1	Petal.Length	135	296.580870	<2.45	setosa
2	<leaf>	46	0.000000	-	setosa
3	Petal.Width	89	123.368962	<1.75	versicolor
6	Petal.Length	48	27.536254	<4.85	versicolor
12	Sepal.Length	42	9.451338	<5.45	versicolor
24	<leaf>	5	5.004024	-	versicolor
25	<leaf>	37	0.000000	-	versicolor
13	<leaf>	6	8.317766	-	versicolor
7	Sepal.Length	41	9.402553	<6.05	virginica
14	<leaf>	5	5.004024	-	virginica
15	<leaf>	36	0.000000	-	virginica

結點編號 id	結點位置 node	分類機率
結點編號 id	結點位置 node	setosa	versicolor	virginica
1	1	0.3407	0.3333	0.3259
2	2	1.0000	0.0000	0.0000
3	3	0.0000	0.5056	0.4944
4	6	0.0000	0.9167	0.0833
5	12	0.0000	0.9762	0.0238
6	24	0.0000	0.8000	0.2000
7	25	0.0000	1.0000	0.0000
8	13	0.0000	0.5000	0.5000
9	7	0.0000	0.0244	0.9756
10	14	0.0000	0.2000	0.8000
11	15	0.0000	0.0000	1.0000

樣本點編號	結點編號
1	2
2	2
3	2
4	2
5	2
。
。
。
146	11
147	11
148	11
149	11
150	10

樣本點編號	觀察值	配適值
1	setosa	setosa
2	setosa	setosa
3	setosa	setosa
4	setosa	setosa
5	setosa	setosa
。
。
。
146	virginica	virginica
147	virginica	virginica
148	virginica	virginica
149	virginica	virginica
150	virginica	virginica

Species		預測值
Species		setosa	versicolor	virginica
觀察值	setosa	46	0	0
	versicolor	0	43	2
	virginica	0	2	42