首頁  |   網站導覽  |   會員登入  |  
首頁 » 分析方法 » Kaplan-Meier存活函數估計

Kaplan-Meier存活函數估計
Kaplan-Meier survial function estimation
此處使用的統計分析方法為Kaplan-Meier存活曲線估計法,又稱為Product-Limit估計法,是由美國統計學家Edward L. Kaplan與Paul Meier(1924–2011)於1958年共同提出的,是存活分析中最常使用的方法。存活資料的特質是觀察到的資料經常受限於研究時間的限制,以至於有時無法觀察到完整的存活時間。因此記錄到的資料除了觀察時間外並有表達觀察時間是否為存活時間的紀錄,通常以0與1來表示。

使用本分析方法必須先定義個案的"時間變數值",其表示個案在存活研究中從進入研究開始觀察一直到死亡或研究結束的時間距離。另外也必須定義"事件變數值"用來表示觀察時間是否為存活時間的指標(即設限指標)。若"是"的話,事件變數值定義"1",否則為"0",通常事件變數值為"1"時,又稱為一個事件,"0"時稱為設限。例如,一個癌症病人的研究,某病人於2001年2月初進入癌症研究,此研究於2006年7月初結束時此病人仍然存活,則此人的時間變數值即為65個月,事件變數值為0。若此人不幸於2003年7月初死亡,此人的時間變數值為29個月,事件變數值為1。

存活分析也可以用來分析一般"事件發生時間(time-to-event)"的資料。例如,公司破產的時間,或同一疾病復發的時間,等。
範例E-1:抽煙有害健康

隨著醫療科技的進步,最威脅人類生命的疾病已經從幾十年前的傳染病改變成癌症,癌症可以說是現代人的文明病,許多的癌症發生都與現代人的生活習慣有關,如口腔癌的發生有很大的機率與嚼食檳榔有關;而肺癌則與吸菸的習關有很大的關聯。依行政院衛生署所公佈的統計數據顯示因癌症死亡佔所有死亡人數的28.1%,連續28年為台灣十大死因榜首,在這麼多的癌症中,肺癌則是死亡人數最高的。因此對於癌症的治療,可以說是醫學研究中最不遺餘力的事,某醫學機構針對肺癌做了一個長期性的追蹤研究,歷時5年,共收集了80個患有肺癌的病人的資料,資料中記錄病患的性別、年齡等基本資料,以及抽菸習慣,手術及治療方式,並記載進入與離開追蹤研究的時間,詳細說明見表及註。

表:受測市民健康資料
病患編號 1 2 3 ... 79 80
性別(註一) 0 1 0 ... 1 0
年齡 40 48 39 ... 55 46
是否吸菸(註二) 0 1 1 ... 0 1
是否接受手術治療(註三) 0 1 1 ... 1 1
後續治療方式(註四) 1 2 2 ... 2 3
追蹤研究時間(註五) 19 50 27 ... 38 42
最後追蹤的狀態(註六) 0 1 0 ... 0 1
註一: 0表女性、1表男性
註二: 0表未吸菸、1表吸菸
註三: 0表未接受手術治療、1表接受手術治療
註四: 1表化學治療、2表放射治療、3表兩者同時
註五: 以月份為單位,1代表進入研究1個月,60代表進入研究5年
註六: 0表存活、1表死亡

Q1:在醫學研究中,對於各種疾病的存活機率是相當重要的研究,此種研究可提供醫生診斷時的依據,故醫學機構想了解此組肺癌病患資料的存活率為何?該如何分析呢?
問題解析:此處想了解病患的存活率,在資料中須先了解兩個重要變數,一為時間變數:病人在研究中的停留的時間,一為事件變數:病人在研究中的狀態(死亡或者發病),有了此資料即可使用存活分析討論"肺癌病患存活函數的估計"。
統計方法:此問題中有兩個變數,分別是追蹤研究時間(時間變數)與最後追蹤的狀態(事件變數)。 此範例中想了解肺癌病患的存活函數,建議選擇存活分析。可採用分析方法:Kaplan-Meier存活函數估計(Kaplan-Meier estimation for survival function),分析"肺癌病患存活函數的估計"。

解析:
1. 此題可利用Kaplan-Meier存活函數估計探討肺癌病患資料的存活率。
2. 建立資料檔上傳,檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果:
存活函數估計 - 分析結果
  • 分析方法:Kaplan-Meier 存活函數估計
  • 資料名稱:範例E-1
  • 時間變數:時間
  • 事件變數:事件 (設限指標:0)
  • 顯著水準:0.05
  • 信賴區間:Log
  • 計算時間:0.798秒

  • 設限與事件的個數摘要I
    觀察值個數
    No. of subjects
    事件
    Event
    設限
    Censored
    801664
    I:設限與事件的個數摘要皆不包含遺失值

  • 百分位數估計值摘要:
    參數
    parameters
    估計
    estimation
    95% 信賴區間
    95% C.I.
    下界
    lower
    上界
    upper
    25 百分位數NANANA
    50 百分位數NANANA
    75 百分位數5550NA

  • 存活函數估計表:
    時間
    time
    涉險人數
    no. at risk
    事件人數
    no. of event
    K-M 存活率估計
    K-M survival
    標準差
    std. err
    95 % 信賴區間
    95 % C.I.
    下界
    lower
    上界
    upper
    257510.98670.01320.9611
    336710.97190.01960.93431
    376010.95570.02510.90781
    385920.92330.03310.86070.9905
    425310.90590.03680.83670.9809
    435210.88850.040.81350.9704
    445110.87110.04280.79110.9592
    474810.85290.04560.76810.9472
    504120.81130.0520.71550.9199
    533710.78940.0550.68860.905
    553330.71760.06370.6030.8541
    572810.6920.06640.57330.8352

  • 存活函數圖:

  • 累積事件圖:

  • 累積風險圖:

  • 對數風險圖:

[重新分析]
範例E-2:飲食的重要

國人十大死因中有一些疾病是較不為人所熟知,但卻已經對於生命有一定的威脅性,其中第七名的腎臟病即是如此,腎臟病的種類繁多,而且容易因其他疾病而引起腎臟的病變,如糖尿病及高血壓患者皆易發生。腎臟是人體內非常重要的器官,主要的功能是調節身體內的水份,且會分泌紅血球生成素及一些重要物質,當腎臟一旦受損,對於身體的健康影響巨大,也會影響到正常生活。而現代人的飲食習慣造成了腎臟巨大的負荷,進而罹患了腎臟的疾病,因此良好的飲食習慣及飲食內容是分常重要的。大部份的長期腎臟病治療方法為透析治療或是腎臟移植,由於器官的取得不易且費用昂貴,大部份的病患會選擇透析治療,透析治療又分為兩種,一種是血液透析治療,另一種稱為腹膜透析治療。這兩種治療方法各有其優點與缺點,對於不同狀況的病人,醫生可能會採取不同的透析方法,因此哪一種方法的醫療效果較佳就成為研究人員非常關心的議題。有一組醫療研究人員觀察醫院近十年的腎臟病洗腎患者進行透析治療的結果,詳細的記錄了洗腎病患的資料,共有80位洗腎病患,詳細說明見表及註。

表:受測市民健康資料
病患編號 1 2 3 ... 79 80
性別(註一) 0 1 0 ... 1 0
年齡 40 48 39 ... 55 46
透析治療方式(註二) 2 1 2 ... 1 1
追蹤研究時間(註三) 32 15 65 ... 72 30
最後追蹤的狀態(註四) 0 0 1 ... 0 1
註一:0表女性、1表男性
註二: 1表血液透析治療、2表腹膜透析治療
註三: 該病患於研究中追蹤之時間長度(單位:月)
註四: 0表存活(或設限)、1表死亡

Q1:在醫學研究中,對於各種疾病的存活機率是相當重要的研究,此種研究可提供醫生診斷時的依據,研究人員想了解這組洗腎病患資料的存活函數為何?該如何分析呢?
問題解析:此處想了解病患的存活率,在資料中須先了解兩個重要變數,一為時間變數:病人在研究中的停留的時間,一為事件變數:病人在研究中的狀態(死亡或者發病),有了此資料即可使用存活分析討論"洗腎病患存活函數的估計"。
統計方法:此問題中有兩個變數,分別是追蹤研究時間(時間變數),最後追蹤的狀態(事件變數)。 此範例中想了解洗腎病患的存活函數,建議選擇存活分析。可採用分析方法:Kaplan-Meier存活函數估計(Kaplan-Meier estimation for survival function),分析"洗腎病患存活函數的估計"。

解析:
1. 此題可利用Kaplan-Meier存活函數估計探討洗腎病患資料的存活函數。
2. 建立資料檔上傳,檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果:
存活函數估計 - 分析結果
  • 分析方法:Kaplan-Meier 存活函數估計
  • 資料名稱:範例E-2
  • 時間變數:時間
  • 事件變數:事件 (設限指標:0)
  • 顯著水準:0.05
  • 信賴區間:Log
  • 計算時間:0.798秒

  • 設限與事件的個數摘要I
    觀察值個數
    No. of subjects
    事件
    Event
    設限
    Censored
    802852
    I:設限與事件的個數摘要皆不包含遺失值

  • 百分位數估計值摘要:
    參數
    parameters
    估計
    estimation
    95% 信賴區間
    95% C.I.
    下界
    lower
    上界
    upper
    25 百分位數113110NA
    50 百分位數9982NA
    75 百分位數655984

  • 存活函數估計表:
    時間
    time
    涉險人數
    no. at risk
    事件人數
    no. of event
    K-M 存活率估計
    K-M survival
    標準差
    std. err
    95 % 信賴區間
    95 % C.I.
    下界
    lower
    上界
    upper
    147910.98730.01260.9631
    237510.97420.0180.93951
    307310.96080.02220.91831
    366910.94690.02590.89760.999
    426520.91780.03220.85670.9832
    496010.90250.03510.83620.9741
    505920.87190.04010.79680.9541
    555510.8560.04240.77690.9432
    575310.83990.04450.7570.9319
    595010.82310.04670.73650.9199
    604710.80560.04890.71520.9073
    614520.76980.05290.67280.8807
    644210.75140.05470.65160.8666
    654010.73270.05650.630.8521
    663920.69510.05950.58780.822
    673710.67630.06080.56710.8065
    683510.6570.0620.5460.7905
    802310.62840.06560.51220.771
    822110.59850.06890.47750.7501
    841810.56520.07270.43930.7273
    861410.52490.07790.39240.7021
    99610.43740.10290.27580.6937
    110310.29160.13740.11580.7343
    113210.14580.12390.02760.771

  • 存活函數圖:

  • 累積事件圖:

  • 累積風險圖:

  • 對數風險圖:

[重新分析]
影音教學內容為本系統資料處理與分析方法之操作說明,
可供使用者即時參考及線上自學,
輕鬆上手「R資料分析暨導引系統」!

步驟一:資料匯入
選擇要進行分析的資料檔或上傳檔案
您所選擇的資料檔為: