首頁  |   網站導覽  |   會員登入  |  
首頁 » 分析方法 » 迴歸分析

迴歸分析
Regression analysis
此處的統計分析方法為迴歸分析(Regression analysis),迴歸一詞最早由英國優生學家高騰(Sir Francis Galton, 1822-1911)所提出。此方法主要是用來幫助了解變數間的線性因果關係。我們可將變數區分為依變數(dependent variable)與自變數(independent variable),利用線性關係模式的建立,我們可以了解自變數的改變對於依變數的影響。因此迴歸模型也可以用來進行資料預測。在醫學研究上,依變數經常被稱為結果變數(outcome variable),自變數則被稱為風險因子(risk factor)。迴歸分析中限制依變數需為連續型變數,自變數則無限制。當依變數為類別型變數時,可改用邏輯斯迴歸分析(Logistic regression analysis)。 假使您是專家,可以使用邏輯特(logit)連結函數的廣義線性模式以增加進階選項

本方法使用之R相關套件與參考文獻:
相關套件:stats、base 、speedglm
參考文獻:(依套件名稱排序)
  1. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
  2. Marco ENEA (2013). speedglm: Fitting Linear and Generalized Linear Models to large data sets.. R package version 0.2. URL:http://CRAN.R-project.org/package=speedglm
範例D-2:適當的BMI指數

現代人的生活富裕,大眾的飲食習慣已經與以前差異很大,大魚大肉與暴飲暴食再加上外國高熱量食物的引進,在這麼多的不健康食物與不良的飲食習慣下,隨之而來的是造成許多肥胖的身材,不管是兒童或是年輕人或是中老年人,肥胖所占的人數的比例已經較以前大大的提升。肥胖從醫學的觀點出發涉及到健康的問題,許多的疾病已經證明與肥胖有很大的關係,在肥胖者體內過多的脂肪組織可能是導致疾病的危險因子,據研究肥胖與多種疾病有關,如糖尿病、心臟病、脂肪肝與中風等。在測量是否為肥胖的工具中,最常利用的方法是身體質量指數(BMI),此方法考慮每個人體型的差異,將身高與體重同時納入衡量,適當的BMI介於18.5至24之間,當BMI高於27則有輕度肥胖的可能,當BMI大於35則是重度肥胖了,國防部規定BMI大於33即可免役。由此可知BMI的正確性相當高。在與肥胖有關的疾病中,第二型糖尿病算是比較常見的,此種糖尿病的盛行率隨著地區的差異而有所不同,即是此種並可能受到環境或是種族等因素影響,但是隨著肥胖人口的增加,各地方的盛行率也同時增加,因此普遍認為肥胖是依個重要的因素。某醫院研究單位為了解該市的居民身體健康狀況並了解肥胖與糖尿病的關係,特別為該市天居民男女各40人進行健康檢查,其中男女各有部份人員患有第二型糖尿病,測得資料如表中,共有性別、年齡、BMI、收縮壓及是否患有糖尿病。

表:受測市民健康資料
市民編號 1 2 3 ... 79 80
性別(註一) 1 0 0 ... 1 0
年齡 45 52 50 ... 38 33
BMI 19.9 26.5 23.5 ... 24.6 20.1
糖尿病患病情況(註二) 0 1 1 ... 1 0
註一:0表女性、1表男性。
註二:0表未患病、1表患病。



Q2: 一個人的BMI指數是由身高與體重換算而來的,但是對於不同性別與年齡,是否會使得BMI指數有所不同呢?研究單位想了解性別與年齡對於BMI指數的影響?是否有關聯呢?
問題解析:此處欲討論影BMI指數的的因素,且討論因素共有兩個,分別是年齡與性別,想了解此兩個因素對於BMI指數的影響,可探討問題"年齡與性別會影響BMI指數嗎?"。
統計方法:此問題中有三個變數,分別是性別、年齡及BMI指數(三個變數,探討因果關係,建議選擇多變數分析)。此問題中想了解性別與年齡(因)等不同條件是否對BMI指數(果)有影響,故自變數有兩個為性別與年齡,依變數是BMI指數。依變數為連續變數,可採用分析方法:多元迴歸分析(multiple regression analysis),分析"年齡與性別影響BMI指數嗎?"。

解析:
1. 此題可利用多元迴歸分析探討幼兒性別差異(自變數一)與年齡(自變數二)是否會影響BMI指數(依變數)。
2. 建立資料檔上傳,檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果:
迴歸分析 - 分析結果
  • 分析方法:迴歸分析
  • 資料名稱:範例D-2
  • 依變數名稱:BMI
  • 自變數名稱:性別, 年齡, 糖尿病患病情況
  • 顯著水準:0.05
  • 計算時間:0.756秒

  • 樣本敘述統計量I
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    BMI8023.38523.4517.630.12.5337
    年齡8044.312544256810.6979
    I:樣本敘述統計量皆不包含遺失值

  • 數值變數交叉配對散佈圖:

  • 皮爾生相關係數矩陣I
    BMI年齡
    BMI 1.000
    0.000
    80
    0.042
    0.709
    80
    年齡0.042
    0.709
    80
    1.000
    0.000
    80
    I:表格內容為皮爾生相關係數 / P-值 / 樣本數

  • 變數選取過程:
  • 變數選取方法:向後選取法(Backward method)
  • 變數選取準則:排除值 α 為 0.1
  • 完整模式:BMI = (截距項) + 性別(1) + 年齡 + 糖尿病患病情況(1)
  • 最終模式:BMI = (截距項) + 糖尿病患病情況(1)

    步驟0:
    模式
    model
    變數
    variable
    係數
    coefficient
    標準差
    std. err.
    (截距項) 22.1746 1.0806
    性別(1) 0.1751 0.494
    年齡 0.0037 0.0233
    糖尿病患病情況(1) 2.7389 0.5174
    模式內的變數
    variables in the model
    變數
    variable
    判斷移除的準則
    criterion to remove
    F統計量
    F statistic
    P-值
    p-value
    性別 0.1256 0.724
    年齡 0.0254 0.8738
    糖尿病患病情況 28.0214 < 1e-04
    模式外的變數
    variables not in the model
    變數
    variable
    判斷進入的準則
    criterion to enter
    F統計量
    F statistic
    P-值
    p-value
    判定係數(R-square):27.15 %
    調整判定係數(adjusted R-square):24.27 %

    步驟1:
    模式
    model
    變數
    variable
    係數
    coefficient
    標準差
    std. err.
    (截距項) 22.335 0.3903
    性別(1) 0.18 0.4899
    糖尿病患病情況(1) 2.7429 0.5135
    模式內的變數
    variables in the model
    變數
    variable
    判斷移除的準則
    criterion to remove
    F統計量
    F statistic
    P-值
    p-value
    性別 0.135 0.7143
    糖尿病患病情況 28.5264 < 1e-04
    模式外的變數
    variables not in the model
    變數
    variable
    判斷進入的準則
    criterion to enter
    F統計量
    F statistic
    P-值
    p-value
    年齡 0.0254 0.8738
    判定係數(R-square):27.13 %
    調整判定係數(adjusted R-square):25.23 %

    步驟2:
    模式
    model
    變數
    variable
    係數
    coefficient
    標準差
    std. err.
    (截距項) 22.425 0.3021
    糖尿病患病情況(1) 2.7429 0.5107
    模式內的變數
    variables in the model
    變數
    variable
    判斷移除的準則
    criterion to remove
    F統計量
    F statistic
    P-值
    p-value
    糖尿病患病情況 28.8463 < 1e-04
    模式外的變數
    variables not in the model
    變數
    variable
    判斷進入的準則
    criterion to enter
    F統計量
    F statistic
    P-值
    p-value
    年齡 0.0334 0.8554
    性別 0.135 0.7143
    判定係數(R-square):27 %
    調整判定係數(adjusted R-square):26.06 %
  • 迴歸模式的變異數分析:
    虛無假設:迴歸模式不顯著
    來源
    source
    平方和
    sum of squares
    自由度
    d.f.
    均方和
    mean square
    F檢定統計量
    F-statistic
    臨界值
    F(d.f.1,d.f.2,1-α)
    p-值I
    p-value
    迴歸
    regression
    136.9234 1 136.9234 28.8463 3.9635 < 1e-04 ***
    誤差
    error
    370.2386 78 4.7466
    總和
    total
    507.162 79
    I:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • 迴歸係數估計I
    係數
    coefficient
    估計值
    estimation
    標準差
    std. err.
    t檢定統計量
    t-statistic
    p值II
    p-value
    參數的 95% 信賴區間
    95% C.I. for estimations
    下界
    lower
    上界
    upper
    (截距項)22.4250.302174.2234< 1e-04 ***21.823523.0265
    糖尿病患病情況(1)2.74290.51075.3709< 1e-04 ***1.72623.7596
    I:依變數為BMI
    II:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • 殘差分析:
    殘差常態分配假設檢定
    虛無假設:殘差服從常態分配
    W 檢定統計量I
    W-statistic
    p 值
    p-value
    0.9853 0.4919
    I:Shapiro-Wilk常態性檢定法

    殘差變異數齊一性假設檢定
    虛無假設:殘差變異數具齊一性
    卡方檢定統計量I
    Chi-square statistic
    自由度
    d.f.
    p 值
    p-value
    0.4351 1 0.5095
    I:Breusch-Pagan檢定法

    殘差獨立性假設檢定
    虛無假設:殘差之間互相獨立
    一階自我相關
    1st order autocorrelation
    D-W 檢定統計量I
    D-W statistic
    p 值
    p-value
    0.2261 1.5161 0.026
    I:Durbin-Watson檢定法

    殘差分析圖

  • Box-Cox 最佳轉換圖I

    I:最佳 lambda 值:0.4646、對應的最大 Log-Likelihood:15.3441

[重新分析]
影音教學內容為本系統資料處理與分析方法之操作說明,
可供使用者即時參考及線上自學,
輕鬆上手「R資料分析暨導引系統」!

步驟一:資料匯入
選擇要進行分析的資料檔或上傳檔案
您所選擇的資料檔為: