首頁  |   網站導覽  |   會員登入  |  
首頁 » 分析方法 » 使用邏輯特(logit)連結函數的廣義線性模式

使用邏輯特(logit)連結函數的廣義線性模式
Generalized Linear Model with logit link
本方法是GLM的一種特例;係當連結函數為”邏輯特”(logit)連結函數時經常用的分析方法。假設依變數的期望值為μ,則logit連結函數為g(μ)=ln(μ/(1-μ)),使用此種連結函數的GLM概稱邏輯斯迴歸(logistic regression)。邏輯斯迴歸中的依變數限制使用類別(categorical)資料,當依變數為二元(binary)資料時,稱為二項式邏輯斯迴歸I;當依變數資料滿足多項式分配時,稱為多項式邏輯斯迴歸;當依變數資料具有順序(order)的性質時,我們經常使用順序(ordered)邏輯斯迴歸(又稱比例勝算模式,proportional odds model)方法分析,此時所用的連結函數略有不同,稱為累積邏輯特(cumulative logit)。

I:二項式邏輯斯迴歸此方法於迴歸模式中提供,使用者可連結此處

廣義線性模式-方法簡介

本方法使用之R相關套件與參考文獻:
相關套件:stats、base、nnet、MASS、VGAM、epicalc
參考文獻:(依套件名稱排序)
  1. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
  2. Venables, W. N. & Ripley, B. D. (2002) Modern Applied Statistics with S. Fourth Edition. Springer, New York. ISBN 0-387-95457-0
  3. Thomas W. Yee (2013). VGAM: Vector Generalized Linear and Additive Models. R package version 0.9-3. URL:http://CRAN.R-project.org/package=VGAM
  4. Virasakdi Chongsuvivatwong (2012). epicalc: Epidemiological calculator. R package version 2.15.1.0. URL:http://CRAN.R-project.org/package=epicalc
範例F-3:

21世紀的電子業為眾多求職者理想的工作,電腦、PDA及智慧型手機等科技產品的高使用率,造就電子產業的榮景並創造許多高收入的職缺,然而朝九晚五之景也已消失在電子業。因此,如何在報酬與工時取得平衡是現階段求職者最關心的議題。某人力銀行為提供求職者此相關訊息,隨機從4家公司抽出共100名電子產業工作者,其調查資料包括薪資、職位、性別、學歷、工作年資與工作時數,記錄如下表,資料說明列於表後

表:電子公司員工調查資料
編號 薪資 職位 公司別 性別 學歷 工作年資 工作時數
1 24970 1 1 0 1 19 50
2 26270 1 1 1 1 29 50
100 43340 2 4 1 2 68 62

薪資:月薪(單位:元)
職位:現場作業人員(1)、工程師(2)、主管級(3)、經理級(4)
公司別:(1)、(2)、(3)、(4)
性別:女性(0)、男性(1)
學歷:高中職(1)、大學含專科(2)、研究所以上(3)
工作年資:以月為單位計算
工作時數:每週平均工作時間,以小時為單位計算

Q2:若將薪資依月收入4.5萬區分成高與低收入兩群,試問其影響高低收入的因素為何?
問題解析:此處依變數薪資被定義為類別變數(即高或低收入兩類),資料中可能影響的解釋變數有公司別、性別、學歷…等;適合廣義線性模式分析。
統計方法:由於依變數薪資為類別變數,可假設其資料服從二項分配並使用邏輯特(logit) 連結函數。可採用的分析方法:使用邏輯特(logit)連結函數的廣義線性模式。
廣義線性模式 - 分析結果
  • 分析方法:廣義線性模式
  • 資料名稱:範例F-3
  • 連結函數:邏輯特(logit)
  • 依變數名稱:薪資2類
  • 自變數名稱:公司別, 性別, 學歷, 工作年資, 工作時數
  • 計算時間:0.513秒

  • 變數訊息I
    連續變數(continuous)
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    工作年資9074.811173.51017433.9007
    工作時數9056.48895648827.622

    類別變數(categorical)
    變數名稱
    Variable
    變數值
    Value
    編碼
    Coded
    個數
    Count
    薪資2類1073
    2117
    公司別1021
    2125
    3224
    4320
    性別0023
    1167
    學歷1020
    2162
    328
    I:變數訊息皆不包含遺失值

  • 變數選取:
    變數選取方法:Stepwise AIC法
    變數選取準則:min AIC(Akaike Information Criterion)
    使用者指定模式:薪資2類 = (截距項) + 公司別 + 性別 + 學歷 + 工作年資 + 工作時數
    AIC準則選取之較佳模式:薪資2類 = (截距項) + 工作年資 + 工作時數
    模式選取I
    變數 Deviance AIC值
    僅含截距項模式 87.2294 89.2294
    系統選取較佳模式 17.8628 23.8628
    I:AIC與Deviance欄位中數值越小表示模式越佳

  • AIC準則選取之較佳模式係數估計I
    依變數
    係數
    coefficient
    估計值
    estimation
    標準差
    std. err.
    華德檢定統計量
    Wald-statistic
    p-值II
    p-value
    薪資2類(截距項)-69.967631.00435.09270.024
    工作年資0.11770.05624.38280.0363
    工作時數0.98610.45044.79250.0286
    I:依變數為薪資2類
    II:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • 預測 v.s. 觀察分類表(訓練樣本):
    薪資2類 預測次數
    12總和
    觀察次數171273
    231417
    總和741690
    正確預測比例(對角線元素總和/所有觀察值總和):94.44 %

  • 預測 v.s. 觀察分類表(測試樣本):
    薪資2類 預測次數
    12總和
    觀察次數110010
    2000
    總和10010
    正確預測比例(對角線元素總和/所有觀察值總和):100 %
[重新分析]
範例F-3:

21世紀的電子業為眾多求職者理想的工作,電腦、PDA及智慧型手機等科技產品的高使用率,造就電子產業的榮景並創造許多高收入的職缺,然而朝九晚五之景也已消失在電子業。因此,如何在報酬與工時取得平衡是現階段求職者最關心的議題。某人力銀行為提供求職者此相關訊息,隨機從4家公司抽出共100名電子產業工作者,其調查資料包括薪資、職位、性別、學歷、工作年資與工作時數,記錄如下表,資料說明列於表後

表:電子公司員工調查資料
編號 薪資 職位 公司別 性別 學歷 工作年資 工作時數
1 24970 1 1 0 1 19 50
2 26270 1 1 1 1 29 50
100 43340 2 4 1 2 68 62

薪資:月薪(單位:元)
職位:現場作業人員(1)、工程師(2)、主管級(3)、經理級(4)
公司別:(1)、(2)、(3)、(4)
性別:女性(0)、男性(1)
學歷:高中職(1)、大學含專科(2)、研究所以上(3)
工作年資:以月為單位計算
工作時數:每週平均工作時間,以小時為單位計算

Q3:若將薪資依月收入區分成4群,區間為3萬(含)以下、3萬以上4萬(含)以下、4萬以上5萬(含)以下及5萬以上,且此區間有順序關係(由小至大),試問影響此4類薪資水準的因素為何?
問題解析:資料中依變數薪資被定義為類別變數且資料型態屬於順序尺度;同時,可能影響的解釋變數有公司別、性別、學歷…等;故適合廣義線性模式分析。
統計方法:依變數薪資為類別變數其資料型態屬於順序尺度且種類多於兩種,可假設其資料服從多項分配並使用邏輯特(logit)連結函數。可採用的分析方法:使用邏輯特(logit)連結函數的廣義線性模式。
廣義線性模式 - 分析結果
  • 分析方法:廣義線性模式
  • 資料名稱:範例F-3
  • 連結函數:累積邏輯特(cumulative logit)
  • 依變數名稱:薪資4類
  • 自變數名稱:公司別, 性別, 學歷, 工作年資, 工作時數
  • 計算時間:0.78秒

  • 變數訊息I
    連續變數(continuous)
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    工作年資9073.566772.51017434.0079
    工作時數9056.13335648827.5776

    類別變數(categorical)
    變數名稱
    Variable
    變數值
    Value
    編碼
    Coded
    個數
    Count
    薪資4類1013
    2146
    3221
    4310
    公司別1022
    2123
    3223
    4322
    性別0024
    1166
    學歷1020
    2161
    329
    I:變數訊息皆不包含遺失值

  • 變數選取:
    變數選取方法:Stepwise AIC法
    變數選取準則:min AIC(Akaike Information Criterion)
    使用者指定模式:薪資4類 = (截距項) + 公司別 + 性別 + 學歷 + 工作年資 + 工作時數
    AIC準則選取之較佳模式:薪資4類 = (截距項) + 學歷 + 工作年資 + 工作時數
    模式選取I
    變數 Deviance AIC值
    僅含截距項模式 217.1204 223.1204
    系統選取較佳模式 96.2081 110.2081
    I:AIC與Deviance欄位中數值越小表示模式越佳

  • AIC準則選取之較佳模式係數估計I
    係數
    coefficient
    估計值
    estimation
    標準差
    std. err.
    t檢定統計量
    t-statistic
    p-值II
    p-value
    學歷(2)1.75530.70222.49970.014401 *
    學歷(3)3.51021.37392.55480.012450 *
    工作年資0.05960.01394.28134.9590e-05 ***
    工作時數0.38530.0854.53181.9448e-05 ***
    1|222.85844.53055.04552.6247e-06 ***
    2|328.23495.075.5693.0837e-07 ***
    3|433.6475.82675.77461.2987e-07 ***
    I:依變數為薪資4類
    II:顯著性代碼:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1

  • 預測 v.s. 觀察分類表(訓練樣本):
    薪資4類 預測次數
    1234總和
    觀察次數1940013
    20415046
    30714021
    40001010
    總和952191090
    正確預測比例(對角線元素總和/所有觀察值總和):82.22 %

  • 預測 v.s. 觀察分類表(測試樣本):
    薪資4類 預測次數
    1234總和
    觀察次數111002
    204004
    301203
    400101
    總和163010
    正確預測比例(對角線元素總和/所有觀察值總和):70 %
[重新分析]
影音教學內容為本系統資料處理與分析方法之操作說明,
可供使用者即時參考及線上自學,
輕鬆上手「R資料分析暨導引系統」!

步驟一:資料匯入
選擇要進行分析的資料檔或上傳檔案
您所選擇的資料檔為: