R資料分析暨導引系統

首頁 » 分析方法 » 兩個(含)以上存活函數的估計

兩個(含)以上存活函數的估計
Estimation for two or more survival functions

方法簡介
範例E-1(2)
影音教學
維基百科(英文)

此處使用的統計分析方法為Kaplan-Meier存活曲線估計法，又稱為Product-Limit估計法，是由美國統計學家Edward L. Kaplan與Paul Meier(1924–2011)於1958年共同提出的，是存活分析中最常使用的方法。存活資料的特質是觀察到的資料經常受限於研究時間的限制，以至於有時無法觀察到完整的存活時間。因此記錄到的資料除了觀察時間外並有表達觀察時間是否為存活時間的紀錄，通常以0與1來表示。

使用本分析方法必須先定義個案的"時間變數值"，其表示個案在存活研究中從進入研究開始觀察一直到死亡或研究結束的時間距離。另外也必須定義"事件變數值"用來表示觀察時間是否為存活時間的指標(即設限指標)。若"是"的話，事件變數值定義"1"，否則為"0"，通常事件變數值為"1"時，又稱為一個事件，"0"時稱為設限。例如，一個癌症病人的研究，某病人於2001年2月初進入癌症研究，此研究於2006年7月初結束時此病人仍然存活，則此人的時間變數值即為65個月，事件變數值為0。若此人不幸於2003年7月初死亡，此人的時間變數值為29個月，事件變數值為1。

存活分析也可以用來分析一般"事件發生時間(time-to-event)"的資料。例如，公司破產的時間，或同一疾病復發的時間，等。若資料中包含兩組(含)以上存活資料時可同時估計兩個(含)以上的存活函數，並可同時建構出信賴區間。若你想對此類資料進行檢定，建議可使用兩個(含)以上存活函數的比較(Comparison for two or more survival functions)。

範例E-1：抽煙有害健康

隨著醫療科技的進步，最威脅人類生命的疾病已經從幾十年前的傳染病改變成癌症，癌症可以說是現代人的文明病，許多的癌症發生都與現代人的生活習慣有關，如口腔癌的發生有很大的機率與嚼食檳榔有關；而肺癌則與吸菸的習關有很大的關聯。依行政院衛生署所公佈的統計數據顯示因癌症死亡佔所有死亡人數的28.1%，連續28年為台灣十大死因榜首，在這麼多的癌症中，肺癌則是死亡人數最高的。因此對於癌症的治療，可以說是醫學研究中最不遺餘力的事，某醫學機構針對肺癌做了一個長期性的追蹤研究，歷時5年，共收集了80個患有肺癌的病人的資料，資料中記錄病患的性別、年齡等基本資料，以及抽菸習慣，手術及治療方式，並記載進入與離開追蹤研究的時間，詳細說明見表及註。

表：受測市民健康資料

病患編號	1	2	3	...	79	80
性別(註一)	0	1	0	...	1	0
年齡	40	48	39	...	55	46
是否吸菸(註二)	0	1	1	...	0	1
是否接受手術治療(註三)	0	1	1	...	1	1
後續治療方式(註四)	1	2	2	...	2	3
追蹤研究時間(註五)	19	50	27	...	38	42
最後追蹤的狀態(註六)	0	1	0	...	0	1

註一： 0表女性、1表男性
註二： 0表未吸菸、1表吸菸
註三： 0表未接受手術治療、1表接受手術治療
註四： 1表化學治療、2表放射治療、3表兩者同時
註五：以月份為單位，1代表進入研究1個月，60代表進入研究5年
註六： 0表存活、1表死亡

Q2：在分析肺癌病患的存活率後，醫學機構想進一步了解不同性別下的病患的存活率?且其存活函數為何?該如何分析呢?
問題解析：此處想了解不同性別下病患的存活率，並分析存活函數，在資料中須先暸解兩個重要變數，一為時間變數：病人在研究中的停留的時間，一為事件變數：病人在研究中的狀態(死亡或者發病)，再加入性別的變數為分組變數，此分組資料即可使用存活分析討論"不同性別時存活函數的估計"。
統計方法：此問題中有三個變數，分別是追蹤研究時間(時間變數)、最後追蹤的狀態(事件變數)與性別(分組變數)。此範例中想了解不同性別肺癌病患的存活函數，建議選擇存活分析。性別為類別型共變數，將資料區分為兩組，可採用分析方法：兩個(含)以上存活函數的估計(estimation for two or more survival functions)，分析"不同性別時存活函數的估計"。

解析：
1. 此題可利用兩個(含)以上存活函數的估計探討不同性別的肺癌病患資料的存活率。
2. 建立資料檔上傳，檔案格式請參照上傳檔案說明。
3. 依分析步驟說明分析資料。
4. 分析結果：

兩個(含)以上存活函數的估計 - 分析結果

分析方法：兩個(含)以上存活函數的估計
資料名稱：範例E-1
時間變數：時間
事件變數：事件 (設限指標：0)
分組變數：性別 (0, 1)
顯著水準：0.05
信賴區間：Log
計算時間：0.792秒
設限與事件的個數摘要^I：

分組變數
(性別) 觀察值個數
No. of subjects 事件
Event 設限
Censored
0 43 7 36
1 37 9 28
I：設限與事件的個數摘要皆不包含遺失值

百分位數估計值摘要：

分組變數
(性別) 參數
parameters 估計
estimation 95% 信賴區間
95% C.I.

下界
lower 上界
upper

0 25 百分位數 NA NA NA
50 百分位數 NA NA NA
75 百分位數 NA 50 NA
1 25 百分位數 NA NA NA
50 百分位數 NA 55 NA
75 百分位數 53 44 NA

存活函數估計表：

分組變數
(性別) 時間
time 涉險人數
no. at risk 事件人數
no. of event K-M 存活率估計
K-M survival 標準差
std. err 95 % 信賴區間
95 % C.I.

下界
lower 上界
upper
0 25 41 1 0.9756 0.0241 0.9295 1
37 33 1 0.946 0.0373 0.8756 1
42 31 1 0.9155 0.047 0.8279 1
43 30 1 0.885 0.0544 0.7845 0.9984
50 24 1 0.8481 0.0634 0.7325 0.982
55 20 2 0.7633 0.0806 0.6206 0.9388
1 33 32 1 0.9688 0.0308 0.9103 1
38 27 2 0.897 0.0565 0.7928 1
44 22 1 0.8562 0.0671 0.7344 0.9983
47 20 1 0.8134 0.0762 0.677 0.9773
50 17 1 0.7656 0.0854 0.6152 0.9526
53 15 1 0.7145 0.0937 0.5525 0.924
55 13 1 0.6596 0.1014 0.488 0.8914
57 12 1 0.6046 0.1068 0.4277 0.8547

存活函數圖：
累積事件圖：
累積風險圖：
對數風險圖：

[重新分析]

影音教學內容為本系統資料處理與分析方法之操作說明，
可供使用者即時參考及線上自學，
輕鬆上手「R資料分析暨導引系統」!

分組變數 (性別)	觀察值個數 No. of subjects	事件 Event	設限 Censored
0	43	7	36
1	37	9	28

分組變數 (性別)	參數 parameters	估計 estimation	95% 信賴區間 95% C.I.
分組變數 (性別)	參數 parameters	估計 estimation	下界 lower	上界 upper
0	25 百分位數	NA	NA	NA
	50 百分位數	NA	NA	NA
	75 百分位數	NA	50	NA
1	25 百分位數	NA	NA	NA
	50 百分位數	NA	55	NA
	75 百分位數	53	44	NA

分組變數 (性別)	時間 time	涉險人數 no. at risk	事件人數 no. of event	K-M 存活率估計 K-M survival	標準差 std. err	95 % 信賴區間 95 % C.I.
分組變數 (性別)	時間 time	涉險人數 no. at risk	事件人數 no. of event	K-M 存活率估計 K-M survival	標準差 std. err	下界 lower	上界 upper
0	25	41	1	0.9756	0.0241	0.9295	1
	37	33	1	0.946	0.0373	0.8756	1
	42	31	1	0.9155	0.047	0.8279	1
	43	30	1	0.885	0.0544	0.7845	0.9984
	50	24	1	0.8481	0.0634	0.7325	0.982
	55	20	2	0.7633	0.0806	0.6206	0.9388
1	33	32	1	0.9688	0.0308	0.9103	1
	38	27	2	0.897	0.0565	0.7928	1
	44	22	1	0.8562	0.0671	0.7344	0.9983
	47	20	1	0.8134	0.0762	0.677	0.9773
	50	17	1	0.7656	0.0854	0.6152	0.9526
	53	15	1	0.7145	0.0937	0.5525	0.924
	55	13	1	0.6596	0.1014	0.488	0.8914
	57	12	1	0.6046	0.1068	0.4277	0.8547