R資料分析暨導引系統

首頁 » 分析方法 » 判別分析

判別分析
Discriminant Analysis

方法簡介
範例F-6(2)
影音教學
維基百科(英文)

判別分析主要用來區分資料中群體的差異，最早的概念由英國統計學家費雪(Ronald Aylmer Fisher, 1890-1962)於1936年所提出。當分析的資料中包含依變數與自變數，且依變數為類別(categorical)型態，而自變數為數值(numerical)型態時適用此方法，方法中選擇合適的自變數為判別變數並建立判別函數(discriminant function)，再使用此函數資料加以分類。此方法發展至今已經有許多的改良，自變數可允許為類別型態，且分析方法選擇眾多，系統提供數種實務上常用的方法供使用者選擇。

本方法使用之R相關套件與參考文獻：
相關套件：stats、base、DiscriMiner
參考文獻：(依套件名稱排序)

R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL： http://www.R-project.org/.
Gaston Sanchez (2013). DiscriMiner: Tools of the Trade for Discriminant Analysis. R package version 0.1-29. URL： http://CRAN.R-project.org/package=DiscriMiner

範例F-6：

鳶尾花(iris)資料，最早由英國統計學家費雪(R. A. Fisher, 1890 – 1962)用於多變量分析(multivariate analysis)中的判別分析(discriminant analysis)，故常稱為費雪鳶尾花資料。此資料是由美國植物學家安德生(E. S. Anderson, 1897 – 1969)所收集，故也稱為安德生鳶尾花資料。此資料記錄了鳶尾花三個亞種及其特徵，三亞種分別為山鳶尾(setosa)、變色鳶尾(versicolor)及維吉尼亞鳶尾(virginica)，花的特徵則包含花萼(sepal)與花瓣(petal)的長度與寬度。

表：鳶尾花資料

變數名稱	花萼長度	花萼寬度	花瓣長度	花瓣寬度	品種
1	5.1	3.5	1.4	0.2	setosa
2	4.9	3.0	1.4	0.2	setosa
3	4.7	3.2	1.3	0.2	setosa
：	：	：	：	：	：
150	5.9	3.0	5.1	1.8	virginica

Q2：資料中記錄有花萼與花瓣的長度與寬度以及花的亞種，且花的亞種個數已確知為3種，植物學家想了解，若未看到花的實體，僅由記錄的資料中(花萼與花瓣的長度與寬度)是否能分辨出花的亞種?當有新的紀錄資料時，能否分辨該朵花屬於何種亞種?
統計方法：問題中想利用花萼與花瓣的長度與寬度來了解該花屬於何種亞種，且亞種個數為已知，故適合使用具有分類能力的分析方法。具有分類能力的方法有許多種，如判別分析(discriminat analysis)、決策樹(decision tree)或是類神經網路(neural network)，以下列出適用於此鳶尾花資料的方法，使用者可比較在相同的目的下，不同分析方法所獲得結果的差異性。

分類模式
決策樹	判別分析	類神經網路	其它分類方法
分類與迴歸樹(CART)	判別分析 (Discriminant Analysis)	單一隱藏層 Feed Forward網路(NNET)	支援向量機器 (Support Vector Machine)
快速不偏有效統計樹(QUEST)		多層感知機網路(MLP)	K最近鄰演算法 (K-Nearest Neighbors Algorithm)
卡方自動交互檢視法(CHAID)		輻射基底類神經網路( RBF )	單純貝式分類器 (Naïve Bayesian Classifier)
C5.0法		機率類神經網路(PNN)	適應型強化分類法 (Adaptive Boosting)
隨機森林法(Random Forest)		機率類神經網路(PNN)	適應型強化分類法 (Adaptive Boosting)

判別分析 - 分析結果

分析方法：判別分析
資料名稱：範例F-6
依變數名稱：Species
自變數名稱：Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
計算時間：0.413秒

變數訊息^I：

數值變數(numerical)

變數名稱
Variable 樣本數
Count 平均數
Mean 中位數
Median 最小值
Minimum 最大值
Maximum 標準差
Std. dev.
Sepal.Length 150 5.8433 5.8 4.3 7.9 0.8281
Sepal.Width 150 3.0573 3 2 4.4 0.4359
Petal.Length 150 3.758 4.35 1 6.9 1.7653
Petal.Width 150 1.1993 1.3 0.1 2.5 0.7622

類別變數(categorical)

變數名稱
Variable 變數值
Value 編碼
Coded 個數
Count
Species setosa 0 50
versicolor 1 50
virginica 2 50
I：變數訊息皆不包含遺失值

模式訊息：

判別分析使用方法 線性函數

訓練樣本數 135

自變數個數 4

依變數類別 setosa、versicolor、virginica

各類別樣本數 46、45、44

判別函數係數：

自變數\依變數類別 setosa versicolor virginica
(截距項) -93.0185 -80.0199 -114.0817
Sepal.Length 25.5708 16.3802 12.4192
Sepal.Width 25.3068 9.5796 6.7203
Petal.Length -17.4876 5.7262 14.2641
Petal.Width -18.3403 6.2713 21.2101

判別函數分類分數表：(下載完整CSV檔)

樣本編號\依變數類別 setosa versicolor virginica
1 97.8156 46.3184 -3.0110
2 80.0481 38.2526 -8.8550
3 81.7440 36.3199 -11.4212
4 73.1588 34.8691 -10.4823
5 97.7893 45.6384 -3.5809
。
。
。
146 21.1081 102.6661 112.2444
147 9.0600 87.6704 92.5797
148 21.4960 97.5086 103.3975
149 14.9479 99.4531 111.5757
150 11.5703 85.8537 90.2776

觀察值與配適值(訓練樣本)比較表：(下載完整CSV檔)

樣本點編號 觀察值 配適值
1 setosa setosa
2 setosa setosa
3 setosa setosa
4 setosa setosa
5 setosa setosa
。
。
。
146 virginica virginica
147 virginica virginica
148 virginica virginica
149 virginica virginica
150 virginica virginica

預測v.s.觀察分類表(訓練樣本)：

Species 預測值

setosa versicolor virginica
觀察值 setosa 46 0 0
versicolor 0 44 1
virginica 0 1 43
正確預測比例(對角線元素總和/所有觀察值總和)：98.52 %

觀察值與預測值(測試樣本)比較表：(下載完整CSV檔)

樣本點編號 觀察值 預測值
15 setosa setosa
35 setosa setosa
38 setosa setosa
40 setosa setosa
58 versicolor versicolor
。
。
。
114 virginica virginica
115 virginica virginica
120 virginica virginica
122 virginica virginica
140 virginica virginica

預測v.s.觀察分類表(測試樣本)：

Species 預測值

setosa versicolor virginica
觀察值 setosa 4 0 0
versicolor 0 4 1
virginica 0 0 6
正確預測比例(對角線元素總和/所有觀察值總和)：93.33 %

[重新分析]

影音教學內容為本系統資料處理與分析方法之操作說明，
可供使用者即時參考及線上自學，
輕鬆上手「R資料分析暨導引系統」!

變數名稱 Variable	樣本數 Count	平均數 Mean	中位數 Median	最小值 Minimum	最大值 Maximum	標準差 Std. dev.
Sepal.Length	150	5.8433	5.8	4.3	7.9	0.8281
Sepal.Width	150	3.0573	3	2	4.4	0.4359
Petal.Length	150	3.758	4.35	1	6.9	1.7653
Petal.Width	150	1.1993	1.3	0.1	2.5	0.7622

變數名稱 Variable	變數值 Value	編碼 Coded	個數 Count
Species	setosa	0	50
	versicolor	1	50
	virginica	2	50

判別分析使用方法	線性函數
訓練樣本數	135
自變數個數	4
依變數類別	setosa、versicolor、virginica
各類別樣本數	46、45、44

自變數\依變數類別	setosa	versicolor	virginica
(截距項)	-93.0185	-80.0199	-114.0817
Sepal.Length	25.5708	16.3802	12.4192
Sepal.Width	25.3068	9.5796	6.7203
Petal.Length	-17.4876	5.7262	14.2641
Petal.Width	-18.3403	6.2713	21.2101

樣本編號\依變數類別	setosa	versicolor	virginica
1	97.8156	46.3184	-3.0110
2	80.0481	38.2526	-8.8550
3	81.7440	36.3199	-11.4212
4	73.1588	34.8691	-10.4823
5	97.7893	45.6384	-3.5809
。
。
。
146	21.1081	102.6661	112.2444
147	9.0600	87.6704	92.5797
148	21.4960	97.5086	103.3975
149	14.9479	99.4531	111.5757
150	11.5703	85.8537	90.2776

樣本點編號	觀察值	配適值
1	setosa	setosa
2	setosa	setosa
3	setosa	setosa
4	setosa	setosa
5	setosa	setosa
。
。
。
146	virginica	virginica
147	virginica	virginica
148	virginica	virginica
149	virginica	virginica
150	virginica	virginica

Species		預測值
Species		setosa	versicolor	virginica
觀察值	setosa	46	0	0
	versicolor	0	44	1
	virginica	0	1	43