首頁
» 分析方法 » 分類與迴歸樹(CART)
分類與迴歸樹由兩部分組成,兼具分類與迴歸兩種功能,是由美國統計學家Brieman於1984年所提出,此方法的特色是分類時一次產生兩個節點(node),且應變數與自變數不限制類型,分析上較彈性,為常用的決策樹方法。
決策樹-方法簡介
本方法使用之R相關套件與參考文獻:
相關套件:stats、base、tree
參考文獻:(依套件名稱排序)
決策樹-方法簡介
本方法使用之R相關套件與參考文獻:
相關套件:stats、base、tree
參考文獻:(依套件名稱排序)
- R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
- Brian Ripley. (2013). tree: Classification and regression trees. R package version 1.0-34. URL:http://CRAN.R-project.org/package=tree
範例F-6:
鳶尾花(iris)資料,最早由英國統計學家費雪(R. A. Fisher, 1890 – 1962)用於多變量分析(multivariate analysis)中的判別分析(discriminant analysis),故常稱為費雪鳶尾花資料。此資料是由美國植物學家安德生(E. S. Anderson, 1897 – 1969)所收集,故也稱為安德生鳶尾花資料。此資料記錄了鳶尾花三個亞種及其特徵,三亞種分別為山鳶尾(setosa)、變色鳶尾(versicolor)及維吉尼亞鳶尾(virginica),花的特徵則包含花萼(sepal)與花瓣(petal)的長度與寬度。
表:鳶尾花資料
Q2:資料中記錄有花萼與花瓣的長度與寬度以及花的亞種,且花的亞種個數已確知為3種,植物學家想了解,若未看到花的實體,僅由記錄的資料中(花萼與花瓣的長度與寬度)是否能分辨出花的亞種?當有新的紀錄資料時,能否分辨該朵花屬於何種亞種?
統計方法:問題中想利用花萼與花瓣的長度與寬度來了解該花屬於何種亞種,且亞種個數為已知,故適合使用具有分類能力的分析方法。具有分類能力的方法有許多種,如判別分析(discriminat analysis)、決策樹(decision tree)或是類神經網路(neural network),以下列出適用於此鳶尾花資料的方法,使用者可比較在相同的目的下,不同分析方法所獲得結果的差異性。[重新分析]
鳶尾花(iris)資料,最早由英國統計學家費雪(R. A. Fisher, 1890 – 1962)用於多變量分析(multivariate analysis)中的判別分析(discriminant analysis),故常稱為費雪鳶尾花資料。此資料是由美國植物學家安德生(E. S. Anderson, 1897 – 1969)所收集,故也稱為安德生鳶尾花資料。此資料記錄了鳶尾花三個亞種及其特徵,三亞種分別為山鳶尾(setosa)、變色鳶尾(versicolor)及維吉尼亞鳶尾(virginica),花的特徵則包含花萼(sepal)與花瓣(petal)的長度與寬度。
表:鳶尾花資料
變數名稱 | 花萼長度 | 花萼寬度 | 花瓣長度 | 花瓣寬度 | 品種 |
1 | 5.1 | 3.5 | 1.4 | 0.2 | setosa |
2 | 4.9 | 3.0 | 1.4 | 0.2 | setosa |
3 | 4.7 | 3.2 | 1.3 | 0.2 | setosa |
: | : | : | : | : | : |
150 | 5.9 | 3.0 | 5.1 | 1.8 | virginica |
Q2:資料中記錄有花萼與花瓣的長度與寬度以及花的亞種,且花的亞種個數已確知為3種,植物學家想了解,若未看到花的實體,僅由記錄的資料中(花萼與花瓣的長度與寬度)是否能分辨出花的亞種?當有新的紀錄資料時,能否分辨該朵花屬於何種亞種?
統計方法:問題中想利用花萼與花瓣的長度與寬度來了解該花屬於何種亞種,且亞種個數為已知,故適合使用具有分類能力的分析方法。具有分類能力的方法有許多種,如判別分析(discriminat analysis)、決策樹(decision tree)或是類神經網路(neural network),以下列出適用於此鳶尾花資料的方法,使用者可比較在相同的目的下,不同分析方法所獲得結果的差異性。