首頁  |   網站導覽  |   會員登入  |  
首頁 » 分析方法 » Cox比例風險模式

Cox比例風險模式
Cox proportional hazards model
使用本分析方法必須先定義個案的"時間變數值",其表示個案在存活研究中從進入研究開始觀察一直到死亡或研究結束的時間距離。另外也必須定義"事件變數值"用來表示觀察時間是否為存活時間的指標(即設限指標)。若"是"的話,事件變數值定義"1",否則為"0",通常事件變數值為"1"時,又稱為一個事件,"0"時稱為設限。例如,一個癌症病人的研究,某病人於2001年2月初進入癌症研究,此研究於2006年7月初結束時此病人仍然存活,則此人的時間變數值即為65個月,事件變數值為0。若此人不幸於2003年7月初死亡,此人的時間變數值為29個月,事件變數值為1。

Cox比例風險模式是由英國統計學家考克斯(David Cox)爵士於1972年所提出,為存活分析中最常用的一種迴歸分析模型,此方法常簡稱為Cox model或是proportional hazard model。當存活資料中另有共變數(covariates)(或稱為解釋變數(explanatory variables)、風險因子(risk factors)) 時,Cox model可用來推估這些共變數對存活時間的影響,也可用來預測特定時間的存活機會。

存活分析也可以用來分析一般"事件發生時間(time-to-event)" 的資料。例如,公司破產的時間,或同一疾病復發的時間,等。

本方法使用之R相關套件與參考文獻:
相關套件:stats、base、survival、MASS
參考文獻:(依套件名稱排序)
  1. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
  2. Therneau T (2013). _A Package for Survival Analysis in S_. R package version 2.37-4. URL: http://CRAN.R-project.org/package=survival
  3. Venables, W. N. & Ripley, B. D. (2002) Modern Applied Statistics with S. Fourth Edition. Springer, New York. ISBN 0-387-95457-0
範例E-1:抽煙有害健康

隨著醫療科技的進步,最威脅人類生命的疾病已經從幾十年前的傳染病改變成癌症,癌症可以說是現代人的文明病,許多的癌症發生都與現代人的生活習慣有關,如口腔癌的發生有很大的機率與嚼食檳榔有關;而肺癌則與吸菸的習關有很大的關聯。依行政院衛生署所公佈的統計數據顯示因癌症死亡佔所有死亡人數的28.1%,連續28年為台灣十大死因榜首,在這麼多的癌症中,肺癌則是死亡人數最高的。因此對於癌症的治療,可以說是醫學研究中最不遺餘力的事,某醫學機構針對肺癌做了一個長期性的追蹤研究,歷時5年,共收集了80個患有肺癌的病人的資料,資料中記錄病患的性別、年齡等基本資料,以及抽菸習慣,手術及治療方式,並記載進入與離開追蹤研究的時間,詳細說明見表及註。

表:受測市民健康資料
病患編號 1 2 3 ... 79 80
性別(註一) 0 1 0 ... 1 0
年齡 40 48 39 ... 55 46
是否吸菸(註二) 0 1 1 ... 0 1
是否接受手術治療(註三) 0 1 1 ... 1 1
後續治療方式(註四) 1 2 2 ... 2 3
追蹤研究時間(註五) 19 50 27 ... 38 42
最後追蹤的狀態(註六) 0 1 0 ... 0 1
註一: 0表女性、1表男性
註二: 0表未吸菸、1表吸菸
註三: 0表未接受手術治療、1表接受手術治療
註四: 1表化學治療、2表放射治療、3表兩者同時
註五: 以月份為單位,1代表進入研究1個月,60代表進入研究5年
註六: 0表存活、1表死亡

Q4:在討論影響疾病患者存活機率時,影響的因素通常不是唯一,且不是單獨的影響,若想同時了解不同性別、吸菸與否及年齡等因素對於肺癌病患存活率的影響,該如何分析較佳?
問題解析:此處想同時了解不同性別、吸菸與否及年齡等因素對於肺癌病患存活率的影響,可利用存活分析中的Cox比例風險模式來分析,將性別、吸菸與否及年齡等三個變數當作共變數,即可同時討論多個影響因素對於存活率的影響,分析"性別、吸菸與否及年齡是否會影響肺癌病患的存活函數?"。
統計方法:此問題中有五個變數,分別是追蹤研究時間(時間變數)、最後追蹤的狀態(事件變數)、性別(共變數)、吸菸(共變數)及年齡(共變數)。此範例中想同時了解不同性別、吸菸與否及年齡等三個因素對於肺癌存活率的影響,建議選擇存活分析,有三個共變數(類別與連續皆可),可採用分析方法:Cox比例風險模型(Cox proportional hazards model),分析"性別、吸菸與否及年齡是否會影響肺癌病患的存活函數?"。

解析:
1. 此題可利用Cox比例風險模型探討性別、吸菸及年齡等因素對於肺癌存活率的影響。
2. 建立資料檔上傳,檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果:
Cox比例風險模式 - 分析結果
  • 分析方法:Cox比例風險模式
  • 資料名稱:範例E-1
  • 時間變數:時間
  • 解釋變數:性別, 年齡, 是否抽菸
  • 事件變數:事件 (設限指標:0)
  • 顯著水準:0.05
  • 計算時間:1.064秒

  • 設限與事件的個數摘要I
    觀察值個數
    No. of subjects
    事件
    event
    設限
    censored
    801664
    I:設限與事件的個數摘要皆不包含遺失值

  • 連續型變數訊息I
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    年齡8054.055535708.6007
    I:連續型變數訊息皆不包含遺失值

  • 類別型變數訊息I
    變數名稱
    Variable
    變數值
    Value
    個數
    Count
    性別043
    137
    是否抽菸058
    122
    I:類別型變數訊息皆不包含遺失值

  • 變數選取:
  • 選取方法:Stepwise AIC法
  • 選取準則:min AIC(Akaike information criterion)
  • 最終模式:
    變數名稱
    variable
    係數估計值
    coef. esti.
    標準差
    std. err.
    z檢定統計量
    z statistic
    p值
    p-value
    估計值的指數
    (風險比例)
    Exp(coef.)
    (Hazard Ratio)
    Exp(coef.)的
    95% 信賴區間
    下界
    lower
    上界
    upper
    是否抽菸(1)1.29910.50492.57330.01013.66611.36299.8615

  • 模式訊息:
    模式適合度(model fitness)
    檢定方法
    method
    統計量
    statistic
    自由度
    d.f.
    p值
    p-value
    概似比檢定(Likelihood ratio test) 6.5294 1 0.0106
    華德檢定(Wald test) 7.5971 1 0.0058
    分數(對數-秩)檢定(Log-rank test) 6.62 1 0.0101
    模式一致性(Concordance):0.6835
    模式判定係數(R-square):7.84 %

  • 存活函數估計表(基準baseline):
    時間
    time
    涉險人數I
    no. at risk
    事件人數
    no. of event
    存活率估計
    survival
    標準差
    std. err
    95 % 信賴區間
    95 % C.I.
    下界
    lower
    上界
    upper
    257510.99240.00790.94270.999
    336710.98380.01230.92920.9964
    376010.97470.01630.91230.9929
    385920.95590.02320.87830.9844
    425310.94570.02680.85980.9795
    435210.93510.03030.84140.9743
    445110.92460.03360.82330.9689
    474810.91350.0370.80440.9631
    504120.88640.04520.75870.9487
    533710.8720.04930.73510.9409
    553330.82350.06250.65860.9136
    572810.8050.0670.63110.9028
    I:該時間點存活人數

  • 存活函數估計表(共變數值=平均數):
    時間
    time
    涉險人數I
    no. at risk
    事件人數
    no. of event
    存活率估計
    survival
    標準差
    std. err
    95 % 信賴區間
    95 % C.I.
    下界
    lower
    上界
    upper
    257510.98910.01090.92370.9985
    336710.97690.01650.90780.9944
    376010.96410.02120.8880.9888
    385920.93760.02880.84870.975
    425310.92330.03250.82750.9669
    435210.90860.03590.80660.9582
    445110.8940.0390.78630.9491
    474810.87870.04220.76520.9394
    504120.84170.04970.71360.9158
    533710.82220.05340.68730.9028
    553330.75760.06430.60340.8585
    572810.73340.06780.57320.8413
    I:該時間點存活人數

  • 存活函數圖(共變數值=平均數):

    • 存活函數圖(Log-log信賴區間):

    • 累積事件圖(Log-log信賴區間):

    • 累積風險圖(Log-log信賴區間):

    • 對數風險圖(Log-log信賴區間):

[重新分析]
範例E-2:飲食的重要

國人十大死因中有一些疾病是較不為人所熟知,但卻已經對於生命有一定的威脅性,其中第七名的腎臟病即是如此,腎臟病的種類繁多,而且容易因其他疾病而引起腎臟的病變,如糖尿病及高血壓患者皆易發生。腎臟是人體內非常重要的器官,主要的功能是調節身體內的水份,且會分泌紅血球生成素及一些重要物質,當腎臟一旦受損,對於身體的健康影響巨大,也會影響到正常生活。而現代人的飲食習慣造成了腎臟巨大的負荷,進而罹患了腎臟的疾病,因此良好的飲食習慣及飲食內容是分常重要的。大部份的長期腎臟病治療方法為透析治療或是腎臟移植,由於器官的取得不易且費用昂貴,大部份的病患會選擇透析治療,透析治療又分為兩種,一種是血液透析治療,另一種稱為腹膜透析治療。這兩種治療方法各有其優點與缺點,對於不同狀況的病人,醫生可能會採取不同的透析方法,因此哪一種方法的醫療效果較佳就成為研究人員非常關心的議題。有一組醫療研究人員觀察醫院近十年的腎臟病洗腎患者進行透析治療的結果,詳細的記錄了洗腎病患的資料,共有80位洗腎病患,詳細說明見表及註。

表:受測市民健康資料
病患編號 1 2 3 ... 79 80
性別(註一) 0 1 0 ... 1 0
年齡 40 48 39 ... 55 46
透析治療方式(註二) 2 1 2 ... 1 1
追蹤研究時間(註三) 32 15 65 ... 72 30
最後追蹤的狀態(註四) 0 0 1 ... 0 1
註一:0表女性、1表男性
註二: 1表血液透析治療、2表腹膜透析治療
註三: 該病患於研究中追蹤之時間長度(單位:月)
註四: 0表存活(或設限)、1表死亡

Q3:在討論影響疾病患者存活機率時,影響的因素通常不是唯一,且不是單獨的影響,若想同時了解性別、年齡及透析治療方法等因素對於洗腎病患存活率的影響,適合用何種方法?
問題解析:此處想同時了解性別、年齡及透析治療方法等因素對於洗腎病患存活率的影響,可利用存活分析中的Cox比例風險模式來分析,將性別、年齡及透析治療方法等三個變數當作共變數,即可同時討論多個影響因素對於存活率的影響,分析"性別、年齡即透析治療方法是否會影響洗腎病患的存活函數?"。
統計方法:此問題中有五個變數,分別是最追蹤研究時間(時間變數)、最後追蹤的狀態(事件變數)、性別(共變數)、年齡(共變數)及透析治療方法(共變數)。此範例中想同時了解不同性別、年齡以及透析治療方法等三個因素對於洗腎病患存活率的影響,建議選擇存活分析,有三個共變數(類別與連續皆可),可採用分析方法:Cox比例風險模型(Cox proportional hazards model),分析"性別、年齡即透析治療方法是否會影響洗腎病患的存活函數?"。

解析:
1. 此題可利用Cox比例風險模型探討性別、年齡及透析治療方法等因素對於洗腎病患存活率的影響。
2. 建立資料檔上傳,檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果:
Cox比例風險模式 - 分析結果
  • 分析方法:Cox比例風險模式
  • 資料名稱:範例E-2
  • 時間變數:時間
  • 解釋變數:性別, 年齡, 治療方式
  • 事件變數:事件 (設限指標:0)
  • 顯著水準:0.05
  • 計算時間:1.808秒

  • 設限與事件的個數摘要I
    觀察值個數
    No. of subjects
    事件
    event
    設限
    censored
    802852
    I:設限與事件的個數摘要皆不包含遺失值

  • 連續型變數訊息I
    變數名稱
    Variable
    樣本數
    Count
    平均數
    Mean
    中位數
    Median
    最小值
    Minimum
    最大值
    Maximum
    標準差
    Std. dev.
    年齡8051.6755135708.5902
    I:連續型變數訊息皆不包含遺失值

  • 類別型變數訊息I
    變數名稱
    Variable
    變數值
    Value
    個數
    Count
    性別045
    135
    治療方式141
    239
    I:類別型變數訊息皆不包含遺失值

  • 最終模式I
    變數名稱
    variable
    係數估計值
    coef. esti.
    估計值的指數
    Exp(coef.)
    標準差
    std. err.
    z檢定統計量
    z statistic
    p值
    p-value
    Exp(coef.)的
    95% 信賴區間
    下界
    lower
    上界
    upper
    性別(1)0.36620.39880.91820.35851.44220.663.1514
    年齡0.0020.02260.09010.92821.0020.95861.0474
    治療方式(2)0.21340.39050.54640.58481.23780.57582.6611
    I:經AIC變數選取結果最終模式為一虛無模型,故在此採用完整模型

  • 模式訊息:
    統計量 自由度 p值
    概似比檢定 1.0282 3 0.7944
    華德檢定 1.0427 3 0.7909
    分數(對數-秩)檢定 1.03 3 0.7928
    一致性(Concordance):0.541
    判定係數(R-square):1.28 %

  • 存活函數圖(Log-log信賴區間):

  • 累積事件圖(Log-log信賴區間):

  • 累積風險圖(Log-log信賴區間):

  • 對數風險圖(Log-log信賴區間):

[重新分析]
影音教學內容為本系統資料處理與分析方法之操作說明,
可供使用者即時參考及線上自學,
輕鬆上手「R資料分析暨導引系統」!

步驟一:資料匯入
選擇要進行分析的資料檔或上傳檔案
您所選擇的資料檔為: