R資料分析暨導引系統

首頁 » 分析方法 » K最近鄰演算法

K最近鄰演算法
K-Nearest Neighbors algorithm, K-NN

方法簡介
範例F-6(2)
影音教學
維基百科(英文)

K最近鄰演算法是一個較具直覺性的演算法，他的分類概念是將空間中距離較接近的樣本點劃分為同一類，在機器學習的分類方法中常作為其他較複雜分類方法的比較基礎。方法名稱中的K指的是當給定一個新樣本點時，尋找最近距離的K個樣本點來作為分類的依據。

其他分類方法-方法簡介

本方法使用之R相關套件與參考文獻：
相關套件：stats、base、kknn
參考文獻：(依套件名稱排序)

R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL： http://www.R-project.org/.
Mark Culp, Kjell Johnson and George Michailidis (2012). ada: ada: an R package for stochastic boosting. R package version 2.0-3. URL： http://CRAN.R-project.org/package=kknn

範例F-6：

鳶尾花(iris)資料，最早由英國統計學家費雪(R. A. Fisher, 1890 – 1962)用於多變量分析(multivariate analysis)中的判別分析(discriminant analysis)，故常稱為費雪鳶尾花資料。此資料是由美國植物學家安德生(E. S. Anderson, 1897 – 1969)所收集，故也稱為安德生鳶尾花資料。此資料記錄了鳶尾花三個亞種及其特徵，三亞種分別為山鳶尾(setosa)、變色鳶尾(versicolor)及維吉尼亞鳶尾(virginica)，花的特徵則包含花萼(sepal)與花瓣(petal)的長度與寬度。

表：鳶尾花資料

變數名稱	花萼長度	花萼寬度	花瓣長度	花瓣寬度	品種
1	5.1	3.5	1.4	0.2	setosa
2	4.9	3.0	1.4	0.2	setosa
3	4.7	3.2	1.3	0.2	setosa
：	：	：	：	：	：
150	5.9	3.0	5.1	1.8	virginica

Q2：資料中記錄有花萼與花瓣的長度與寬度以及花的亞種，且花的亞種個數已確知為3種，植物學家想了解，若未看到花的實體，僅由記錄的資料中(花萼與花瓣的長度與寬度)是否能分辨出花的亞種?當有新的紀錄資料時，能否分辨該朵花屬於何種亞種?
統計方法：問題中想利用花萼與花瓣的長度與寬度來了解該花屬於何種亞種，且亞種個數為已知，故適合使用具有分類能力的分析方法。具有分類能力的方法有許多種，如判別分析(discriminat analysis)、決策樹(decision tree)或是類神經網路(neural network)，以下列出適用於此鳶尾花資料的方法，使用者可比較在相同的目的下，不同分析方法所獲得結果的差異性。

分類模式
決策樹	判別分析	類神經網路	其它分類方法
分類與迴歸樹(CART)	判別分析 (Discriminant Analysis)	單一隱藏層 Feed Forward網路(NNET)	支援向量機器 (Support Vector Machine)
快速不偏有效統計樹(QUEST)		多層感知機網路(MLP)	K最近鄰演算法 (K-Nearest Neighbors Algorithm)
卡方自動交互檢視法(CHAID)		輻射基底類神經網路( RBF )	單純貝式分類器 (Naïve Bayesian Classifier)
C5.0法		機率類神經網路(PNN)	適應型強化分類法 (Adaptive Boosting)
隨機森林法(Random Forest)		機率類神經網路(PNN)	適應型強化分類法 (Adaptive Boosting)

K最近鄰演算法 - 分析結果

分析方法：K最近鄰演算法
資料名稱：範例F-6
依變數名稱：Species
自變數名稱：Sepal.Length, Sepal.Width, Petal.Length, Petal.Width
計算時間：0.552秒

變數訊息^I：

數值變數(numerical)

變數名稱
Variable 樣本數
Count 平均數
Mean 中位數
Median 最小值
Minimum 最大值
Maximum 標準差
Std. dev.
Sepal.Length 150 5.8433 5.8 4.3 7.9 0.8281
Sepal.Width 150 3.0573 3 2 4.4 0.4359
Petal.Length 150 3.758 4.35 1 6.9 1.7653
Petal.Width 150 1.1993 1.3 0.1 2.5 0.7622

類別變數(categorical)

變數名稱
Variable 變數值
Value 編碼
Coded 個數
Count
Species setosa 0 50
versicolor 1 50
virginica 2 50
I：變數訊息皆不包含遺失值

模式訊息：

依變數類型 類別

距離計算方式 歐基里德

最小分類錯誤機率 0.0222

最佳核函數 gaussian

最佳鄰居個數 8

錯誤分類機率表：

k值\核函數 rectangular epanechnikov gaussian optimal
1 0.0519 0.0519 0.0519 0.0519
2 0.037 0.0519 0.0519 0.0519
3 0.037 0.037 0.037 0.0519
4 0.0444 0.037 0.037 0.0444
5 0.037 0.037 0.037 0.0444
6 0.0296 0.037 0.0296 0.037
7 0.0296 0.037 0.0296 0.037
8 0.037 0.0296 0.0222 0.037
9 0.037 0.0296 0.0296 0.037
10 0.037 0.0296 0.0222 0.0296
11 0.0296 0.0296 0.0296 0.0296

錯誤分類機率圖：

最佳核模式配適訊息：

各鄰近點位置距離：(下載完整CSV檔)
樣本點編號 k = 1 k = 2 k = 3 k = 4 k = 5 k = 6 k = 7 k = 8
1 0 0.1307 0.1311 0.1851 0.2674 0.2674 0.2732 0.3909
2 0 0.1629 0.1764 0.1764 0.279 0.2899 0.4316 0.5066
3 0 0.1307 0.1682 0.2899 0.3159 0.3543 0.3588 0.3783
4 0 0.2428 0.2463 0.2732 0.2899 0.3548 0.3548 0.3656
5 0 0.2674 0.279 0.2978 0.3413 0.3786 0.4316 0.483
。
。
。
146 0 0.3331 0.3413 0.3536 0.4314 0.4587 0.599 0.6038
147 0 0.5005 0.5219 0.5272 0.7493 0.7629 0.7629 0.8099
148 0 0.3114 0.4105 0.4136 0.4265 0.4587 0.4722 0.482
149 0 0.209 0.5033 0.5377 0.7094 0.7094 0.7339 0.9005
150 0 0.2055 0.2615 0.5084 0.5994 0.6197 0.6271 0.6397

各鄰近點位置權數：(下載完整CSV檔)
樣本點編號 k = 1 k = 2 k = 3 k = 4 k = 5 k = 6 k = 7 k = 8
1 0.3989 0.3571 0.3569 0.3194 0.2509 0.2509 0.2459 0.1481
2 0.3989 0.3551 0.348 0.348 0.2834 0.2758 0.1761 0.1293
3 0.3989 0.3551 0.329 0.225 0.2021 0.1695 0.166 0.1505
4 0.3989 0.2279 0.2242 0.1964 0.1796 0.1207 0.1207 0.1121
5 0.3989 0.2801 0.2715 0.2573 0.2243 0.1964 0.1588 0.1259
。
。
。
146 0.3989 0.2801 0.2752 0.2678 0.2204 0.204 0.1271 0.1248
147 0.3989 0.2555 0.2458 0.2433 0.147 0.1417 0.1417 0.1242
148 0.3989 0.2354 0.1595 0.1573 0.1483 0.127 0.1186 0.1127
149 0.3989 0.375 0.2787 0.2649 0.1956 0.1956 0.1861 0.1265
150 0.3989 0.35 0.3227 0.179 0.1309 0.1213 0.1178 0.1121

各鄰近點配適值：(下載完整CSV檔)
樣本點編號 k = 1 k = 2 k = 3 k = 4 k = 5 k = 6 k = 7 k = 8
1 setosa setosa setosa setosa setosa setosa setosa setosa
2 setosa setosa setosa setosa setosa setosa setosa setosa
3 setosa setosa setosa setosa setosa setosa setosa setosa
4 setosa setosa setosa setosa setosa setosa setosa setosa
5 setosa setosa setosa setosa setosa setosa setosa setosa
。
。
。
146 virginica virginica virginica virginica virginica virginica virginica virginica
147 virginica virginica virginica versicolor virginica virginica virginica virginica
148 virginica virginica virginica virginica virginica virginica versicolor virginica
149 virginica virginica virginica virginica virginica virginica virginica virginica
150 virginica virginica virginica versicolor virginica virginica versicolor versicolor

最近臨近點選擇機率：(下載完整CSV檔)
樣本點編號 setosa versicolor virginica
1 1 0 0
2 1 0 0
3 1 0 0
4 1 0 0
5 1 0 0
。
。
。
146 0 0 1
147 0 0.1433 0.8567
148 0 0.0814 0.9186
149 0 0 1
150 0 0.236 0.764

觀察值與配適值(訓練樣本)比較表：(下載完整CSV檔)

樣本點編號 觀察值 配適值
1 setosa setosa
2 setosa setosa
3 setosa setosa
4 setosa setosa
5 setosa setosa
。
。
。
146 virginica virginica
147 virginica virginica
148 virginica virginica
149 virginica virginica
150 virginica virginica

預測v.s.觀察分類表(訓練樣本)：

Species 預測值

setosa versicolor virginica
觀察值 setosa 46 0 0
versicolor 0 44 1
virginica 0 1 43
正確預測比例(對角線元素總和/所有觀察值總和)：98.52 %

觀察值與預測值(測試樣本)比較表：(下載完整CSV檔)

樣本點編號 觀察值 預測值
15 setosa setosa
35 setosa setosa
38 setosa setosa
40 setosa setosa
58 versicolor versicolor
。
。
。
114 virginica virginica
115 virginica virginica
120 virginica versicolor
122 virginica virginica
140 virginica virginica

預測v.s.觀察分類表(測試樣本)：

Species 預測值

setosa versicolor virginica
觀察值 setosa 4 0 0
versicolor 0 4 1
virginica 0 1 5
正確預測比例(對角線元素總和/所有觀察值總和)：86.67 %
最佳核模式下測試樣本分類圖：

[重新分析]

影音教學內容為本系統資料處理與分析方法之操作說明，
可供使用者即時參考及線上自學，
輕鬆上手「R資料分析暨導引系統」!

變數名稱 Variable	樣本數 Count	平均數 Mean	中位數 Median	最小值 Minimum	最大值 Maximum	標準差 Std. dev.
Sepal.Length	150	5.8433	5.8	4.3	7.9	0.8281
Sepal.Width	150	3.0573	3	2	4.4	0.4359
Petal.Length	150	3.758	4.35	1	6.9	1.7653
Petal.Width	150	1.1993	1.3	0.1	2.5	0.7622

變數名稱 Variable	變數值 Value	編碼 Coded	個數 Count
Species	setosa	0	50
	versicolor	1	50
	virginica	2	50

依變數類型	類別
距離計算方式	歐基里德
最小分類錯誤機率	0.0222
最佳核函數	gaussian
最佳鄰居個數	8

k值\核函數	rectangular	epanechnikov	gaussian	optimal
1	0.0519	0.0519	0.0519	0.0519
2	0.037	0.0519	0.0519	0.0519
3	0.037	0.037	0.037	0.0519
4	0.0444	0.037	0.037	0.0444
5	0.037	0.037	0.037	0.0444
6	0.0296	0.037	0.0296	0.037
7	0.0296	0.037	0.0296	0.037
8	0.037	0.0296	0.0222	0.037
9	0.037	0.0296	0.0296	0.037
10	0.037	0.0296	0.0222	0.0296
11	0.0296	0.0296	0.0296	0.0296

樣本點編號	k = 1	k = 2	k = 3	k = 4	k = 5	k = 6	k = 7	k = 8
1	0	0.1307	0.1311	0.1851	0.2674	0.2674	0.2732	0.3909
2	0	0.1629	0.1764	0.1764	0.279	0.2899	0.4316	0.5066
3	0	0.1307	0.1682	0.2899	0.3159	0.3543	0.3588	0.3783
4	0	0.2428	0.2463	0.2732	0.2899	0.3548	0.3548	0.3656
5	0	0.2674	0.279	0.2978	0.3413	0.3786	0.4316	0.483
。
。
。
146	0	0.3331	0.3413	0.3536	0.4314	0.4587	0.599	0.6038
147	0	0.5005	0.5219	0.5272	0.7493	0.7629	0.7629	0.8099
148	0	0.3114	0.4105	0.4136	0.4265	0.4587	0.4722	0.482
149	0	0.209	0.5033	0.5377	0.7094	0.7094	0.7339	0.9005
150	0	0.2055	0.2615	0.5084	0.5994	0.6197	0.6271	0.6397

樣本點編號	setosa	versicolor	virginica
1	1	0	0
2	1	0	0
3	1	0	0
4	1	0	0
5	1	0	0
。
。
。
146	0	0	1
147	0	0.1433	0.8567
148	0	0.0814	0.9186
149	0	0	1
150	0	0.236	0.764

樣本點編號	觀察值	配適值
1	setosa	setosa
2	setosa	setosa
3	setosa	setosa
4	setosa	setosa
5	setosa	setosa
。
。
。
146	virginica	virginica
147	virginica	virginica
148	virginica	virginica
149	virginica	virginica
150	virginica	virginica

Species		預測值
Species		setosa	versicolor	virginica
觀察值	setosa	46	0	0
	versicolor	0	44	1
	virginica	0	1	43