R資料分析暨導引系統

透析治療方式(註二)

追蹤研究時間(註三)

最後追蹤的狀態(註四)

首頁 » 分析方法 » Kaplan-Meier存活函數估計

Kaplan-Meier存活函數估計
Kaplan-Meier survial function estimation

方法簡介
範例E-1(1)
範例E-2(1)
影音教學
維基百科(英文)

此處使用的統計分析方法為Kaplan-Meier存活曲線估計法，又稱為Product-Limit估計法，是由美國統計學家Edward L. Kaplan與Paul Meier(1924–2011)於1958年共同提出的，是存活分析中最常使用的方法。存活資料的特質是觀察到的資料經常受限於研究時間的限制，以至於有時無法觀察到完整的存活時間。因此記錄到的資料除了觀察時間外並有表達觀察時間是否為存活時間的紀錄，通常以0與1來表示。

使用本分析方法必須先定義個案的"時間變數值"，其表示個案在存活研究中從進入研究開始觀察一直到死亡或研究結束的時間距離。另外也必須定義"事件變數值"用來表示觀察時間是否為存活時間的指標(即設限指標)。若"是"的話，事件變數值定義"1"，否則為"0"，通常事件變數值為"1"時，又稱為一個事件，"0"時稱為設限。例如，一個癌症病人的研究，某病人於2001年2月初進入癌症研究，此研究於2006年7月初結束時此病人仍然存活，則此人的時間變數值即為65個月，事件變數值為0。若此人不幸於2003年7月初死亡，此人的時間變數值為29個月，事件變數值為1。

存活分析也可以用來分析一般"事件發生時間(time-to-event)"的資料。例如，公司破產的時間，或同一疾病復發的時間，等。

範例E-1：抽煙有害健康

隨著醫療科技的進步，最威脅人類生命的疾病已經從幾十年前的傳染病改變成癌症，癌症可以說是現代人的文明病，許多的癌症發生都與現代人的生活習慣有關，如口腔癌的發生有很大的機率與嚼食檳榔有關；而肺癌則與吸菸的習關有很大的關聯。依行政院衛生署所公佈的統計數據顯示因癌症死亡佔所有死亡人數的28.1%，連續28年為台灣十大死因榜首，在這麼多的癌症中，肺癌則是死亡人數最高的。因此對於癌症的治療，可以說是醫學研究中最不遺餘力的事，某醫學機構針對肺癌做了一個長期性的追蹤研究，歷時5年，共收集了80個患有肺癌的病人的資料，資料中記錄病患的性別、年齡等基本資料，以及抽菸習慣，手術及治療方式，並記載進入與離開追蹤研究的時間，詳細說明見表及註。

表：受測市民健康資料

病患編號	1	2	3	...	79	80
性別(註一)	0	1	0	...	1	0
年齡	40	48	39	...	55	46
是否吸菸(註二)	0	1	1	...	0	1
是否接受手術治療(註三)	0	1	1	...	1	1
後續治療方式(註四)	1	2	2	...	2	3
追蹤研究時間(註五)	19	50	27	...	38	42
最後追蹤的狀態(註六)	0	1	0	...	0	1

註一： 0表女性、1表男性
註二： 0表未吸菸、1表吸菸
註三： 0表未接受手術治療、1表接受手術治療
註四： 1表化學治療、2表放射治療、3表兩者同時
註五：以月份為單位，1代表進入研究1個月，60代表進入研究5年
註六： 0表存活、1表死亡

Q1：在醫學研究中，對於各種疾病的存活機率是相當重要的研究，此種研究可提供醫生診斷時的依據，故醫學機構想了解此組肺癌病患資料的存活率為何?該如何分析呢?
問題解析：此處想了解病患的存活率，在資料中須先了解兩個重要變數，一為時間變數：病人在研究中的停留的時間，一為事件變數：病人在研究中的狀態(死亡或者發病)，有了此資料即可使用存活分析討論"肺癌病患存活函數的估計"。
統計方法：此問題中有兩個變數，分別是追蹤研究時間(時間變數)與最後追蹤的狀態(事件變數)。此範例中想了解肺癌病患的存活函數，建議選擇存活分析。可採用分析方法：Kaplan-Meier存活函數估計(Kaplan-Meier estimation for survival function)，分析"肺癌病患存活函數的估計"。

解析：
1. 此題可利用Kaplan-Meier存活函數估計探討肺癌病患資料的存活率。
2. 建立資料檔上傳，檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果：

存活函數估計 - 分析結果

分析方法：Kaplan-Meier 存活函數估計
資料名稱：範例E-1
時間變數：時間
事件變數：事件 (設限指標：0)
顯著水準：0.05
信賴區間：Log
計算時間：0.798秒
設限與事件的個數摘要^I：

觀察值個數
No. of subjects 事件
Event 設限
Censored
80 16 64
I：設限與事件的個數摘要皆不包含遺失值
百分位數估計值摘要：

參數
parameters 估計
estimation 95% 信賴區間
95% C.I.

下界
lower 上界
upper

25 百分位數 NA NA NA
50 百分位數 NA NA NA
75 百分位數 55 50 NA

存活函數估計表：

時間
time 涉險人數
no. at risk 事件人數
no. of event K-M 存活率估計
K-M survival 標準差
std. err 95 % 信賴區間
95 % C.I.

下界
lower 上界
upper
25 75 1 0.9867 0.0132 0.961 1
33 67 1 0.9719 0.0196 0.9343 1
37 60 1 0.9557 0.0251 0.9078 1
38 59 2 0.9233 0.0331 0.8607 0.9905
42 53 1 0.9059 0.0368 0.8367 0.9809
43 52 1 0.8885 0.04 0.8135 0.9704
44 51 1 0.8711 0.0428 0.7911 0.9592
47 48 1 0.8529 0.0456 0.7681 0.9472
50 41 2 0.8113 0.052 0.7155 0.9199
53 37 1 0.7894 0.055 0.6886 0.905
55 33 3 0.7176 0.0637 0.603 0.8541
57 28 1 0.692 0.0664 0.5733 0.8352

存活函數圖：
累積事件圖：
累積風險圖：
對數風險圖：

[重新分析]

範例E-2：飲食的重要

國人十大死因中有一些疾病是較不為人所熟知，但卻已經對於生命有一定的威脅性，其中第七名的腎臟病即是如此，腎臟病的種類繁多，而且容易因其他疾病而引起腎臟的病變，如糖尿病及高血壓患者皆易發生。腎臟是人體內非常重要的器官，主要的功能是調節身體內的水份，且會分泌紅血球生成素及一些重要物質，當腎臟一旦受損，對於身體的健康影響巨大，也會影響到正常生活。而現代人的飲食習慣造成了腎臟巨大的負荷，進而罹患了腎臟的疾病，因此良好的飲食習慣及飲食內容是分常重要的。大部份的長期腎臟病治療方法為透析治療或是腎臟移植，由於器官的取得不易且費用昂貴，大部份的病患會選擇透析治療，透析治療又分為兩種，一種是血液透析治療，另一種稱為腹膜透析治療。這兩種治療方法各有其優點與缺點，對於不同狀況的病人，醫生可能會採取不同的透析方法，因此哪一種方法的醫療效果較佳就成為研究人員非常關心的議題。有一組醫療研究人員觀察醫院近十年的腎臟病洗腎患者進行透析治療的結果，詳細的記錄了洗腎病患的資料，共有80位洗腎病患，詳細說明見表及註。

表：受測市民健康資料

註一：0表女性、1表男性
註二： 1表血液透析治療、2表腹膜透析治療
註三：該病患於研究中追蹤之時間長度(單位：月)
註四： 0表存活(或設限)、1表死亡

Q1：在醫學研究中，對於各種疾病的存活機率是相當重要的研究，此種研究可提供醫生診斷時的依據，研究人員想了解這組洗腎病患資料的存活函數為何?該如何分析呢?
問題解析：此處想了解病患的存活率，在資料中須先了解兩個重要變數，一為時間變數：病人在研究中的停留的時間，一為事件變數：病人在研究中的狀態(死亡或者發病)，有了此資料即可使用存活分析討論"洗腎病患存活函數的估計"。
統計方法：此問題中有兩個變數，分別是追蹤研究時間(時間變數)，最後追蹤的狀態(事件變數)。此範例中想了解洗腎病患的存活函數，建議選擇存活分析。可採用分析方法：Kaplan-Meier存活函數估計(Kaplan-Meier estimation for survival function)，分析"洗腎病患存活函數的估計"。

解析：
1. 此題可利用Kaplan-Meier存活函數估計探討洗腎病患資料的存活函數。
2. 建立資料檔上傳，檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果：

存活函數估計 - 分析結果

分析方法：Kaplan-Meier 存活函數估計
資料名稱：範例E-2
時間變數：時間
事件變數：事件 (設限指標：0)
顯著水準：0.05
信賴區間：Log
計算時間：0.798秒
設限與事件的個數摘要^I：

觀察值個數
No. of subjects 事件
Event 設限
Censored
80 28 52
I：設限與事件的個數摘要皆不包含遺失值
百分位數估計值摘要：

參數
parameters 估計
estimation 95% 信賴區間
95% C.I.

下界
lower 上界
upper

25 百分位數 113 110 NA
50 百分位數 99 82 NA
75 百分位數 65 59 84

存活函數估計表：

時間
time 涉險人數
no. at risk 事件人數
no. of event K-M 存活率估計
K-M survival 標準差
std. err 95 % 信賴區間
95 % C.I.

下界
lower 上界
upper
14 79 1 0.9873 0.0126 0.963 1
23 75 1 0.9742 0.018 0.9395 1
30 73 1 0.9608 0.0222 0.9183 1
36 69 1 0.9469 0.0259 0.8976 0.999
42 65 2 0.9178 0.0322 0.8567 0.9832
49 60 1 0.9025 0.0351 0.8362 0.9741
50 59 2 0.8719 0.0401 0.7968 0.9541
55 55 1 0.856 0.0424 0.7769 0.9432
57 53 1 0.8399 0.0445 0.757 0.9319
59 50 1 0.8231 0.0467 0.7365 0.9199
60 47 1 0.8056 0.0489 0.7152 0.9073
61 45 2 0.7698 0.0529 0.6728 0.8807
64 42 1 0.7514 0.0547 0.6516 0.8666
65 40 1 0.7327 0.0565 0.63 0.8521
66 39 2 0.6951 0.0595 0.5878 0.822
67 37 1 0.6763 0.0608 0.5671 0.8065
68 35 1 0.657 0.062 0.546 0.7905
80 23 1 0.6284 0.0656 0.5122 0.771
82 21 1 0.5985 0.0689 0.4775 0.7501
84 18 1 0.5652 0.0727 0.4393 0.7273
86 14 1 0.5249 0.0779 0.3924 0.7021
99 6 1 0.4374 0.1029 0.2758 0.6937
110 3 1 0.2916 0.1374 0.1158 0.7343
113 2 1 0.1458 0.1239 0.0276 0.771

存活函數圖：
累積事件圖：
累積風險圖：
對數風險圖：

[重新分析]

影音教學內容為本系統資料處理與分析方法之操作說明，
可供使用者即時參考及線上自學，
輕鬆上手「R資料分析暨導引系統」!

觀察值個數 No. of subjects	事件 Event	設限 Censored
80	16	64

參數 parameters	估計 estimation	95% 信賴區間 95% C.I.
參數 parameters	估計 estimation	下界 lower	上界 upper
25 百分位數	NA	NA	NA
50 百分位數	NA	NA	NA
75 百分位數	55	50	NA

時間 time	涉險人數 no. at risk	事件人數 no. of event	K-M 存活率估計 K-M survival	標準差 std. err	95 % 信賴區間 95 % C.I.
時間 time	涉險人數 no. at risk	事件人數 no. of event	K-M 存活率估計 K-M survival	標準差 std. err	下界 lower	上界 upper
25	75	1	0.9867	0.0132	0.961	1
33	67	1	0.9719	0.0196	0.9343	1
37	60	1	0.9557	0.0251	0.9078	1
38	59	2	0.9233	0.0331	0.8607	0.9905
42	53	1	0.9059	0.0368	0.8367	0.9809
43	52	1	0.8885	0.04	0.8135	0.9704
44	51	1	0.8711	0.0428	0.7911	0.9592
47	48	1	0.8529	0.0456	0.7681	0.9472
50	41	2	0.8113	0.052	0.7155	0.9199
53	37	1	0.7894	0.055	0.6886	0.905
55	33	3	0.7176	0.0637	0.603	0.8541
57	28	1	0.692	0.0664	0.5733	0.8352