R資料分析暨導引系統

首頁 » 分析方法 » 支援向量機器

支援向量機器
Support Vector Machine, SVM

方法簡介
範例F-6(2)
影音教學
維基百科(英文)

支援向量機器(SVM)是由俄羅斯統計暨控制科學家V. N. Vapnik 所提出的，現今使用的則是1995年與丹麥電腦科學家C. Cortes共同修改的版本。此方法用來處理類別型資料的分類，現今已發展成可處理類別型及數值型資料。

其他分類方法-方法簡介

本方法使用之R相關套件與參考文獻：
相關套件：stats、base、klaR
參考文獻：(依套件名稱排序)

R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL： http://www.R-project.org/.
David Meyer, Evgenia Dimitriadou, Kurt Hornik, Andreas Weingessel and Friedrich Leisch (2014). e1071: Misc Functions of the Department of Statistics (e1071), TU Wien. R package version 1.6-2. URL： http://CRAN.R-project.org/package=e1071

範例F-6：

鳶尾花(iris)資料，最早由英國統計學家費雪(R. A. Fisher, 1890 – 1962)用於多變量分析(multivariate analysis)中的判別分析(discriminant analysis)，故常稱為費雪鳶尾花資料。此資料是由美國植物學家安德生(E. S. Anderson, 1897 – 1969)所收集，故也稱為安德生鳶尾花資料。此資料記錄了鳶尾花三個亞種及其特徵，三亞種分別為山鳶尾(setosa)、變色鳶尾(versicolor)及維吉尼亞鳶尾(virginica)，花的特徵則包含花萼(sepal)與花瓣(petal)的長度與寬度。

表：鳶尾花資料

變數名稱	花萼長度	花萼寬度	花瓣長度	花瓣寬度	品種
1	5.1	3.5	1.4	0.2	setosa
2	4.9	3.0	1.4	0.2	setosa
3	4.7	3.2	1.3	0.2	setosa
：	：	：	：	：	：
150	5.9	3.0	5.1	1.8	virginica

Q2：資料中記錄有花萼與花瓣的長度與寬度以及花的亞種，且花的亞種個數已確知為3種，植物學家想了解，若未看到花的實體，僅由記錄的資料中(花萼與花瓣的長度與寬度)是否能分辨出花的亞種?當有新的紀錄資料時，能否分辨該朵花屬於何種亞種?
統計方法：問題中想利用花萼與花瓣的長度與寬度來了解該花屬於何種亞種，且亞種個數為已知，故適合使用具有分類能力的分析方法。具有分類能力的方法有許多種，如判別分析(discriminat analysis)、決策樹(decision tree)或是類神經網路(neural network)，以下列出適用於此鳶尾花資料的方法，使用者可比較在相同的目的下，不同分析方法所獲得結果的差異性。

分類模式
決策樹	判別分析	類神經網路	其它分類方法
分類與迴歸樹(CART)	判別分析 (Discriminant Analysis)	單一隱藏層 Feed Forward網路(NNET)	支援向量機器 (Support Vector Machine)
快速不偏有效統計樹(QUEST)		多層感知機網路(MLP)	K最近鄰演算法 (K-Nearest Neighbors Algorithm)
卡方自動交互檢視法(CHAID)		輻射基底類神經網路( RBF )	單純貝式分類器 (Naïve Bayesian Classifier)
C5.0法		機率類神經網路(PNN)	適應型強化分類法 (Adaptive Boosting)
隨機森林法(Random Forest)		機率類神經網路(PNN)	適應型強化分類法 (Adaptive Boosting)

支援向量機器 - 分析結果

分析方法：支援向量機器
資料名稱：範例F-6
依變數名稱：Species
自變數名稱：Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
計算時間：0.281秒

變數訊息^I：

數值變數(numerical)

變數名稱
Variable 樣本數
Count 平均數
Mean 中位數
Median 最小值
Minimum 最大值
Maximum 標準差
Std. dev.
Sepal.Length 150 5.8433 5.8 4.3 7.9 0.8281
Sepal.Width 150 3.0573 3 2 4.4 0.4359
Petal.Length 150 3.758 4.35 1 6.9 1.7653
Petal.Width 150 1.1993 1.3 0.1 2.5 0.7622

類別變數(categorical)

變數名稱
Variable 變數值
Value 編碼
Coded 個數
Count
Species setosa 0 50
versicolor 1 50
virginica 2 50
I：變數訊息皆不包含遺失值

模式訊息：

分類方法 C-classification

核種類 radial

參數值 - 斜率項 0.25

臨界值終止容忍度(tolerance) 0.001

遲鈍損失(insensitive-loss)函數ε值 0.1

變數是否已標準化 是

標準化後變數資訊：
自變數 Sepal.Length Sepal.Width Petal.Length Petal.Width
平均數 5.8644 3.083 3.7541 1.1948
標準差 0.8466 0.4169 1.7837 0.763

支援向量^I表(support vectors)：

顯示前組支援向量(下載完整CSV檔)
樣本編號 Sepal.Length Sepal.Width Petal.Length Petal.Width
9 -1.7297 -0.4389 -1.3198 -1.3039
14 -1.8478 -0.199 -1.488 -1.4349
16 -0.1942 3.1591 -1.2637 -1.0417
19 -0.1942 1.7199 -1.1516 -1.1728
21 -0.5486 0.7604 -1.1516 -1.3039
I：支援向量總數47；各分組支援向量個數為9、20、18

支援向量分類圖^I,II(classification plot by SVM)：

I：圖形中符號'o'表樣本資料點，符號'x'表支援向量分界，並以顏色區分類別。
II：自變數超過兩個以上時，其他自變數將固定為平均數(數值)或第一分類(類別)。

觀察值與配適值(訓練樣本)比較表：(下載完整CSV檔)

樣本點編號 觀察值 配適值
1 setosa setosa
2 setosa setosa
3 setosa setosa
4 setosa setosa
5 setosa setosa
。
。
。
146 virginica virginica
147 virginica virginica
148 virginica virginica
149 virginica virginica
150 virginica virginica

預測v.s.觀察分類表(訓練樣本)：

Species 預測值

setosa versicolor virginica
觀察值 setosa 46 0 0
versicolor 0 44 1
virginica 0 2 42
正確預測比例(對角線元素總和/所有觀察值總和)：97.78 %

觀察值與預測值(測試樣本)比較表：(下載完整CSV檔)

樣本點編號 觀察值 預測值
15 setosa setosa
35 setosa setosa
38 setosa setosa
40 setosa setosa
58 versicolor versicolor
。
。
。
114 virginica virginica
115 virginica virginica
120 virginica versicolor
122 virginica virginica
140 virginica virginica

預測v.s.觀察分類表(測試樣本)：

Species 預測值

setosa versicolor virginica
觀察值 setosa 4 0 0
versicolor 0 4 1
virginica 0 1 5
正確預測比例(對角線元素總和/所有觀察值總和)：86.67 %

[重新分析]

影音教學內容為本系統資料處理與分析方法之操作說明，
可供使用者即時參考及線上自學，
輕鬆上手「R資料分析暨導引系統」!

變數名稱 Variable	樣本數 Count	平均數 Mean	中位數 Median	最小值 Minimum	最大值 Maximum	標準差 Std. dev.
Sepal.Length	150	5.8433	5.8	4.3	7.9	0.8281
Sepal.Width	150	3.0573	3	2	4.4	0.4359
Petal.Length	150	3.758	4.35	1	6.9	1.7653
Petal.Width	150	1.1993	1.3	0.1	2.5	0.7622

變數名稱 Variable	變數值 Value	編碼 Coded	個數 Count
Species	setosa	0	50
	versicolor	1	50
	virginica	2	50

分類方法	C-classification
核種類	radial
參數值 - 斜率項	0.25
臨界值終止容忍度(tolerance)	0.001
遲鈍損失(insensitive-loss)函數ε值	0.1
變數是否已標準化	是

自變數	Sepal.Length	Sepal.Width	Petal.Length	Petal.Width
平均數	5.8644	3.083	3.7541	1.1948
標準差	0.8466	0.4169	1.7837	0.763

樣本編號	Sepal.Length	Sepal.Width	Petal.Length	Petal.Width
9	-1.7297	-0.4389	-1.3198	-1.3039
14	-1.8478	-0.199	-1.488	-1.4349
16	-0.1942	3.1591	-1.2637	-1.0417
19	-0.1942	1.7199	-1.1516	-1.1728
21	-0.5486	0.7604	-1.1516	-1.3039

樣本點編號	觀察值	配適值
1	setosa	setosa
2	setosa	setosa
3	setosa	setosa
4	setosa	setosa
5	setosa	setosa
。
。
。
146	virginica	virginica
147	virginica	virginica
148	virginica	virginica
149	virginica	virginica
150	virginica	virginica

Species		預測值
Species		setosa	versicolor	virginica
觀察值	setosa	46	0	0
	versicolor	0	44	1
	virginica	0	2	42