首頁
» 分析方法 » 使用自然對數(ln)連結函數的廣義線性模式
本方法係GLM的一種特例;係當連結函數用自然對數(ln)I連結函數時經常用的分析方法。假設依變數的期望值為μ,則ln連結函數為g(μ)=ln(μ),使用此種連結函數的GLM有卜瓦松迴歸模式(Poisson regression model)與對數線性模式(log-linear model)。這兩種模式的依變數限制使用記數(count)資料II,兩者的差異主要在資料服從的分配與解釋變數上。依變數主要假設服從卜瓦松分配或是多項式分配(依據資料抽樣的方法而定),當解釋變數為類別變數時,或是分析一個列聯表(contingency table)資料時,經常使用的方法為對數線性模式。當依變數服從卜瓦松分配,但解釋變數為任意類型時,經常使用的模式則是卜瓦松迴歸模式。
(使用本方法前請先行參考資料型態說明)
I:自然對數ln係指log以指數(exponential)為底數的情況,故有人會簡稱為log轉換。
II:記數資料係指在不同的條件(變數值)下計算發生次數的資料型態,常以列聯表形態表現,表的左邊及上面為不同的條件(變數值),表內則是在各條件下的發生次數。
廣義線性模式-方法簡介
本方法使用之R相關套件與參考文獻:
相關套件:stats、base、MASS、speedglm
參考文獻:(依套件名稱排序)
I:自然對數ln係指log以指數(exponential)為底數的情況,故有人會簡稱為log轉換。
II:記數資料係指在不同的條件(變數值)下計算發生次數的資料型態,常以列聯表形態表現,表的左邊及上面為不同的條件(變數值),表內則是在各條件下的發生次數。
廣義線性模式-方法簡介
本方法使用之R相關套件與參考文獻:
相關套件:stats、base、MASS、speedglm
參考文獻:(依套件名稱排序)
- R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
- Venables, W. N. & Ripley, B. D. (2002) Modern Applied Statistics with S. Fourth Edition. Springer, New York. ISBN 0-387-95457-0
- Marco ENEA (2013). speedglm: Fitting Linear and Generalized Linear Models to large data sets.. R package version 0.2. URL:http://CRAN.R-project.org/package=speedglm
範例F-4:
根據警政署統計,近十年的交通事故中死亡人數達二千人以上,其中酒駕肇事致死人數達三百人以上,為所有肇事原因中的首位。某交通研究部門想了解影響道安的重要因素,第一個考慮的就是酒駕,此外仍有其他影響因素,例如乘客是否繫上安全帶。研究員收集了去年12個月某大城市發生的交通事故傷亡人數資料,共有278人,整理後的資料列於下表
表:交通事故肇事因素與傷亡資料
Q1:研究員想了解交通事故發生時傷亡狀況與是否酒駕及繫安全帶的關聯性,哪些因素有較大的影響?
問題解析:此份資料可使用的分析方法不僅一種,其一種看法為將傷亡情形視為依變數,酒駕及繫安全帶視為解釋變數,以邏輯斯迴歸分析。另一種則視所有變數皆為類別變數,故資料呈現方式為列聯表型態,此類資料分析方式適合對數線性模式,此處以廣義線性模式(使用自然對數(ln)連結函數)中的對數線性模式分析。
統計方法:此問題中的資料為列聯表型態,假設列聯表中在不同條件(變數值)下的記數(count)資料服從卜瓦松分配並使用自然對數(ln)連結函數。可採用的分析方法:使用自然對數(ln)連結函數的廣義線性模式。[重新分析]
根據警政署統計,近十年的交通事故中死亡人數達二千人以上,其中酒駕肇事致死人數達三百人以上,為所有肇事原因中的首位。某交通研究部門想了解影響道安的重要因素,第一個考慮的就是酒駕,此外仍有其他影響因素,例如乘客是否繫上安全帶。研究員收集了去年12個月某大城市發生的交通事故傷亡人數資料,共有278人,整理後的資料列於下表
表:交通事故肇事因素與傷亡資料
傷亡狀況 | |||
是否酒駕 | 是否繫安全帶 | 死亡 | 受傷 |
是 | 是 | 15 | 40 |
否 | 43 | 66 | |
否 | 是 | 3 | 37 |
否 | 22 | 52 |
Q1:研究員想了解交通事故發生時傷亡狀況與是否酒駕及繫安全帶的關聯性,哪些因素有較大的影響?
問題解析:此份資料可使用的分析方法不僅一種,其一種看法為將傷亡情形視為依變數,酒駕及繫安全帶視為解釋變數,以邏輯斯迴歸分析。另一種則視所有變數皆為類別變數,故資料呈現方式為列聯表型態,此類資料分析方式適合對數線性模式,此處以廣義線性模式(使用自然對數(ln)連結函數)中的對數線性模式分析。
統計方法:此問題中的資料為列聯表型態,假設列聯表中在不同條件(變數值)下的記數(count)資料服從卜瓦松分配並使用自然對數(ln)連結函數。可採用的分析方法:使用自然對數(ln)連結函數的廣義線性模式。
範例F-8:
紅豆是一種具有高營養價值的豆類食品富含鐵質、蛋白質、膳食纖維及多樣維生素,為了培育出更好的紅豆,某一農業機構委託植物學家研究不同的土壤、肥料、 氣候及地區下對於紅豆發芽的影響。植物學家設計了一個實驗,考量了六種不同性質的土壤(編號1至6),使用兩家市面上大廠牌肥料或是不使用肥料(編號1、2,不使用肥料編號為0),氣候則紀錄當地當月所測得月均溫度(攝氏),並選擇於宜蘭及屏東兩地栽種來了解氣候差異的影響。兩地各選了50處符合六種土壤條件的農地栽種,每塊農地播種數目依農地大小不一會有差異,研究執行後資料記錄於下表中。
表:交通事故肇事因素與傷亡資料
Q1:想了解紅豆發芽比率的高低是否受土壤、肥料、溫度及氣候的影響,哪些因素有較大的影響呢?
統計方法:此問題中的資料為想了解土壤、肥料、溫度及氣候對於紅豆發芽比率的影響,依變數可用發芽數(為記數資料I)或是發芽比例(發芽數/播種數),此類型依變數適合使用自然對數(ln)連結函數的卜瓦松迴歸。可採用分析方法:使用自然對數(ln)連結函數的廣義線性模式。
I:以此形態資料為依變數,因資料可能取出的樣本數不同,須考慮補償值(offset),此處補償值變數即為播種數。[重新分析]
紅豆是一種具有高營養價值的豆類食品富含鐵質、蛋白質、膳食纖維及多樣維生素,為了培育出更好的紅豆,某一農業機構委託植物學家研究不同的土壤、肥料、 氣候及地區下對於紅豆發芽的影響。植物學家設計了一個實驗,考量了六種不同性質的土壤(編號1至6),使用兩家市面上大廠牌肥料或是不使用肥料(編號1、2,不使用肥料編號為0),氣候則紀錄當地當月所測得月均溫度(攝氏),並選擇於宜蘭及屏東兩地栽種來了解氣候差異的影響。兩地各選了50處符合六種土壤條件的農地栽種,每塊農地播種數目依農地大小不一會有差異,研究執行後資料記錄於下表中。
表:交通事故肇事因素與傷亡資料
編號 | 發芽數 | 土壤 | 肥料 | 溫度 | 氣候 | 播種數 |
1 | 1756 | 1 | 1 | 18 | 宜蘭 | 2300 |
2 | 1505 | 1 | 1 | 21.3 | 宜蘭 | 2150 |
3 | 1344 | 2 | 3 | 19.4 | 宜蘭 | 1820 |
. | . | . | . | . | . | . |
98 | 2847 | 1 | 3 | 28.1 | 屏東 | 3550 |
99 | 2666 | 6 | 2 | 26.7 | 屏東 | 3200 |
100 | 2467 | 6 | 2 | 30.9 | 屏東 | 2800 |
Q1:想了解紅豆發芽比率的高低是否受土壤、肥料、溫度及氣候的影響,哪些因素有較大的影響呢?
統計方法:此問題中的資料為想了解土壤、肥料、溫度及氣候對於紅豆發芽比率的影響,依變數可用發芽數(為記數資料I)或是發芽比例(發芽數/播種數),此類型依變數適合使用自然對數(ln)連結函數的卜瓦松迴歸。可採用分析方法:使用自然對數(ln)連結函數的廣義線性模式。
I:以此形態資料為依變數,因資料可能取出的樣本數不同,須考慮補償值(offset),此處補償值變數即為播種數。