首頁  |   網站導覽  |   會員登入  |  
首頁 » 分析方法 » 邏輯斯迴歸分析

邏輯斯迴歸分析
logistic regression analysis
此處的統計分析方法為邏輯斯迴歸分析(Logistic regression analysis),在迴歸分析的方法中,限制了依變數需為連續型變數,但若欲分析的變數非為連續型時則無法使用。針對此問題,邏輯斯迴歸提供了解決方法,當依變數為類別型變數時,可以此方法分析,一般主要是針對二項式(binomial)的依變數,但此方法亦可推廣至依變數為多項式時使用。當依變數為連續型變數時,請改使用迴歸分析(Regression analysis)

本方法使用之R相關套件與參考文獻:
相關套件:stats、base
參考文獻:(依套件名稱排序)
  1. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
範例D-1:疫苗的安全性

疾病對於幼兒而言是非常危險的,在幼兒出生以後都需要定時的接受許多的疫苗接種,疫苗接種的好處是可以使幼兒的體內產生抗體,當受到相同疾病的病毒侵襲時可以免於感染。幼兒出生後需要接種的有卡介苗、B型肝炎疫苗、五合一疫苗(註一)、水痘疫苗等非常多種的疾病疫苗,雖然疫苗可使幼兒體內產生抗體,但是卻可能引起幼兒發燒,導致其他的危險。因此因疫苗的接種而引起發燒症狀的機率一直為政府衛生單位所重視,某衛生單位為了解五合一疫苗的引發發燒症狀的機率以及,紀錄一批到衛生所接種疫苗後24小時內是否有發燒症狀及幼兒的性別與體重資料於表中,共有70位幼兒。

表:幼兒接種疫苗記錄
幼兒編號 1 2 3 4 ... 68 69 70
是否發燒(註二) 1 0 0 1 ... 0 0 1
性別(註三) 0 0 1 1 ... 1 0 1
體重 6.54 6.65 8.23 7.71 ... 8.36 8.59 6.91
註一:五合一疫苗包括白喉、破傷風、非細胞性百日咳、b型嗜血桿菌及小兒麻痺。
註二:0表未發燒、1表發燒。
註三:0表女性、1表男性。

Q1:衛生單位想了解幼兒發燒與否是否受到幼兒性別差異與體重高低的影響?是否男(或女)性比較可能發燒?是否體重較輕(或重)的嬰兒比較可能發燒?或是男性且體重較輕的嬰兒比較可能發燒?
問題解析:此時討論影響幼兒發燒的原因,影響的原因有性別及體重的差異,想了解此兩種因素的改變是否會增加發燒的可能,且影響的程度有多大,可探討問題"性別差異與體重差異是否會影響發燒的可能?"。
統計方法:此問題中有三個變數,分別是發燒情況、性別與體重(三個變數,探討因果關係,建議選擇多變數分析)。此範例中幼兒性別差異(因)與體重高低(因)是否會因為接受疫苗接種而產生幼兒發燒(果)的情況,故自變數有二個為幼兒性別差異與體重高低,依變數是發燒情況。依變數為類別變數,可採用分析方法:多元邏輯斯迴歸分析(multiple logistic regression analysis),分析"性別差異與體重差異是否會影響發燒的可能?"。

解析:
1. 此題可利用多元邏輯斯迴歸分析探討幼兒性別差異(自變數一)與體重高低(自變數二)是否會影響發燒情況(依變數)。
2. 建立資料檔上傳,檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果: logistic regression analysis
邏輯斯迴歸分析 - 分析結果
  • 分析方法:邏輯斯迴歸分析
  • 資料名稱:範例D-1
  • 依變數名稱:是否發燒
  • 自變數名稱:性別, 體重
  • 計算時間:0.101秒

  • 樣本敘述統計量I
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    體重707.4577.3556.019.550.9187
    I:樣本敘述統計量皆不包含遺失值

  • 依變數訊息:
    變數名稱
    Variable
    變數值
    Value
    編碼
    Coded
    個數
    Count
    是否發燒0050
    1120

  • 變數選取:
  • 變數選取方法:Stepwise AIC法
  • 變數選取準則:min AIC(Akaike Information Criterion)
  • 完整模式:是否發燒 = (截距項) + 性別(1) + 體重
  • 準則選取之最佳模式:是否發燒 = (截距項) + 體重
  • 模式的配適度I
    判斷準則 只有截距項 最佳模式
    AIC 85.7577 82.8089
    Deviance 83.7577 78.8089
    I:AIC與Deviance欄位中數值越小表示模式越佳
  • 模式係數估計I
    係數
    coefficient
    估計值
    estimation
    標準差
    std. err.
    華德檢定統計量
    Wald-statistic
    p值II
    p-value
    (截距項)4.2922.48992.97120.0848 .
    體重-0.71050.34334.28340.0385 *
    I:依變數為是否發燒
    II:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • 預測V.S.觀察分類表:
    是否發燒 預測次數
    0 1 總和
    觀察次數 0 49 1 50
    1 20 0 20
    總和 69 1 70
    敏感度(sensitivity): 98 %
    精確度(specificity): 0 %
    正確度(accuracy): 70 %
    偽陽性(false positive): 28.99 %
    偽陰性(false negative): 100 %
  • 分類表解釋:
    類別依變數 預測次數
    0 1 總和
    觀察次數 0 a b r0
    1 c d r1
    總和 c0 c1 n
    敏感度(sensitivity):a/r0
    精確度(specificity):d/r1
    正確度(accuracy):(a+d)/n
    偽陽性(false positive):c/c0
    偽陰性(false negative):b/c1

[重新分析]
範例D-2:適當的BMI指數

現代人的生活富裕,大眾的飲食習慣已經與以前差異很大,大魚大肉與暴飲暴食再加上外國高熱量食物的引進,在這麼多的不健康食物與不良的飲食習慣下,隨之而來的是造成許多肥胖的身材,不管是兒童或是年輕人或是中老年人,肥胖所占的人數的比例已經較以前大大的提升。肥胖從醫學的觀點出發涉及到健康的問題,許多的疾病已經證明與肥胖有很大的關係,在肥胖者體內過多的脂肪組織可能是導致疾病的危險因子,據研究肥胖與多種疾病有關,如糖尿病、心臟病、脂肪肝與中風等。在測量是否為肥胖的工具中,最常利用的方法是身體質量指數(BMI),此方法考慮每個人體型的差異,將身高與體重同時納入衡量,適當的BMI介於18.5至24之間,當BMI高於27則有輕度肥胖的可能,當BMI大於35則是重度肥胖了,國防部規定BMI大於33即可免役。由此可知BMI的正確性相當高。在與肥胖有關的疾病中,第二型糖尿病算是比較常見的,此種糖尿病的盛行率隨著地區的差異而有所不同,即是此種並可能受到環境或是種族等因素影響,但是隨著肥胖人口的增加,各地方的盛行率也同時增加,因此普遍認為肥胖是依個重要的因素。某醫院研究單位為了解該市的居民身體健康狀況並了解肥胖與糖尿病的關係,特別為該市天居民男女各40人進行健康檢查,其中男女各有部份人員患有第二型糖尿病,測得資料如表中,共有性別、年齡、BMI、收縮壓及是否患有糖尿病。

表:受測市民健康資料
市民編號 1 2 3 ... 79 80
性別(註一) 1 0 0 ... 1 0
年齡 45 52 50 ... 38 33
BMI 19.9 26.5 23.5 ... 24.6 20.1
糖尿病患病情況(註二) 0 1 1 ... 1 0
註一:0表女性、1表男性。
註二:0表未患病、1表患病。

Q1:BMI指數在某種程度上常常能代表身體健康的程度,過高的BMI指數代表過胖的身體,而肥胖的人往往有很高的機會患有糖尿病;年齡較大者由於身體的老化進而新陳代謝功能變差,往往也是容易換有疾病的高危險群,依據以往研究結果顯示,此兩因素與糖尿病有一定程度的關係,除了此兩因素外,研究單位想了解性別是否也會與糖尿病有關聯?
問題解析:此處欲討論影響糖尿病的因素,且討論因素共有三個,分別是BMI指數、年齡與性別,想了解此三個因素對於糖尿病的影響,是否會增加罹患糖尿病的可能,可探討問題"BMI指數、年齡及性別是否會影響糖尿病患病可能?"。
統計方法:此問題中有四個變數,分別是BMI指數、年齡、性別及糖尿病患病情況(四個變數,探討因果關係,建議選擇多變數分析)。此範例中想了解BMI指數、年齡與性別(因)等不同條件是否就有可能罹患糖尿病(果),故自變數有三個為BMI指數、年齡與性別,依變數是糖尿病患病情況。依變數為類別變數,可採用分析方法:多元邏輯斯迴歸分析(multiple logistic regression analysis),分析"BMI指數、年齡及性別是否會影響糖尿病患病可能?"。

解析:
1. 此題可利用多元邏輯斯迴歸分析探討BMI指數(自變數一)、年齡(自變數二)與性別(自變數三)是否會影響糖尿病的罹病機率(依變數)。
2. 建立資料檔上傳,檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果: logistic regression analysis
邏輯斯迴歸分析 - 分析結果
  • 分析方法:邏輯斯迴歸分析
  • 資料名稱:範例D-2
  • 依變數名稱:糖尿病患病情況
  • 自變數名稱:性別, 年齡, BMI
  • 計算時間:0.169秒

  • 樣本敘述統計量I
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    年齡8044.312544256810.6979
    BMI8023.38523.4517.630.12.5337
    I:樣本敘述統計量皆不包含遺失值

  • 依變數訊息:
    變數名稱
    Variable
    變數值
    Value
    編碼
    Coded
    個數
    Count
    糖尿病患病情況0052
    1128

  • 變數選取:
  • 變數選取方法:Stepwise AIC法
  • 變數選取準則:min AIC(Akaike Information Criterion)
  • 完整模式:糖尿病患病情況 = (截距項) + 性別(1) + 年齡 + BMI
  • 準則選取之最佳模式:糖尿病患病情況 = (截距項) + BMI
  • 模式的配適度I
    判斷準則 只有截距項 最佳模式
    AIC 105.5915 83.1292
    Deviance 103.5915 79.1292
    I:AIC與Deviance欄位中數值越小表示模式越佳
  • 模式係數估計I
    係數
    coefficient
    估計值
    estimation
    標準差
    std. err.
    華德檢定統計量
    Wald-statistic
    p值II
    p-value
    (截距項)-14.25533.463416.9412< 1e-04 ***
    BMI0.57370.143815.91321e-04 ***
    I:依變數為糖尿病患病情況
    II:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • 預測V.S.觀察分類表:
    糖尿病患病情況 預測次數
    0 1 總和
    觀察次數 0 47 5 52
    1 13 15 28
    總和 60 20 80
    敏感度(sensitivity): 90.38 %
    精確度(specificity): 53.57 %
    正確度(accuracy): 77.5 %
    偽陽性(false positive): 21.67 %
    偽陰性(false negative): 25 %
  • 分類表解釋:
    類別依變數 預測次數
    0 1 總和
    觀察次數 0 a b r0
    1 c d r1
    總和 c0 c1 n
    敏感度(sensitivity):a/r0
    精確度(specificity):d/r1
    正確度(accuracy):(a+d)/n
    偽陽性(false positive):c/c0
    偽陰性(false negative):b/c1

[重新分析]
影音教學內容為本系統資料處理與分析方法之操作說明,
可供使用者即時參考及線上自學,
輕鬆上手「R資料分析暨導引系統」!

步驟一:資料匯入
選擇要進行分析的資料檔或上傳檔案
您所選擇的資料檔為: