生存分析

生存分析(英語:Survival analysis)是指根據試驗或調查得到的數據對生物或人的生存時間進行分析和推斷,研究生存時間和結局與眾多影響因素間關係及其程度大小的方法,也稱生存率分析存活率分析,例如生物有機體的死亡和機械系統的故障。 該主題在工程學中稱為可靠性理論可靠性分析,在經濟學中稱為持續時間分析持續時間建模,在社會學中稱為事件歷史分析。 生存分析試圖回答某些問題,例如能夠存活超過一定時間的人口比例是多少? 在那些倖存下來的人中,他們死亡或失敗的概率是多少? 是否可以考慮死亡或失敗的多種原因? 特定環境或特徵如何增加或減少生存概率?

要回答這樣的問題,有必要對「壽命」進行定義。 就生物生存而言,死亡是明確的,但對於機械可靠性而言,故障可能沒有明確定義,因為很可能存在部分機械系統,故障是部分的,程度問題,或者不是及時定位的。 即使在生物學問題中,某些事件(例如心臟病發作或其他器官衰竭)也可能具有相同的模糊性。 下面概述的理論假設在特定時間發生明確定義的事件; 其他情況可能可以通過明確解釋模糊事件的模型得到更好的處理。

生存分析涉及有關疾病的癒合、死亡,或者器官的生長發育等時效性指標。

某些研究雖然與生存無關,但由於研究中隨訪資料常因失訪等原因造成某些數據觀察不完全,要用專門方法進行統計處理,這類方法起源於對壽命資料的統計分析,故也稱為生存分析。

一般公式

關於生存函數(英語:survival function):

 

t表示某個時間,T表示生存的時間(壽命),Pr表示表示概率。生存函數就是壽命T大於t的概率。舉例來說,人群中壽命超過50(t)歲的人在所有人中的概率是多少,就是生存函數要描述的。假定t=0時,也就是壽命超過0的概率為1;t趨近於無窮大,生存概率為0,沒有人有永恆的生命[來源請求]。如果不符合這些前提假定,則不適應Survival analysis,而使用其他的方法。 由上可以推導:生存函數是一個單調非增函數。t越大,S(t)值越小。

壽命分佈函數和事件密度

相關量根據生存函數定義。

衍生函數: Lifetime distribution function F(t) = 1-S(t) = Pr(T <= t)

概率密度函數: f(t) = d(F(t))/dt 又叫event density,單位時間事件event(可以是死亡或者機器失效)的概率,是生存函數的導數。

f(t) 的性質: f(t) 總是非負的(沒有人可以再生)。函數曲線下方面積(從0到無窮大積分)為1。 s(t) = d(S(t))/dt = -f(t)

危險函數和累積危險函數

危險函數 (Hazard function) λ(t) = f(t)/S(t) 危險函數引入分母S(t)。其物理意義是,如果t=50歲,λ(t)就是事件概率(死亡)除以50歲時的生存函數。因為年齡t越大,分母生存函數S(t)越小,假定死亡概率密度f(t)對任何年齡一樣(這個不是survival analysis的假設),那麼危險函數λ(t)值越大,預期存活時間短。綜合很多因素,賣人身保險的對年齡大的收費越來越高。嬰兒的死亡概率密度相對高一些,雖然分母生存函數S(t)大,λ(t)值還是略微偏高,交的人身保險費也略偏高。

風險函數也可以用「累積風險函數」(cumulative hazard function)來表示,通常表示為   

  所以調換符號並求冪

  或微分(使用連鎖律)

  「累積風險函數」這個名稱源自以下事實:

  這是危險隨着時間的推移而「累積」的。

 的定義可以看出,當 t 趨於無窮大時,它會無限制地增加(假設 趨於零)。 這意味着 不得減小得太快,因為根據定義,累積風險必須發散。 例如, 不是任何生存分佈的風險函數,因為它的積分收斂於 1。

參閱

相關書籍

  • 彭非, 王傳. (2004). 生存分析. 中國人民大學出版社. ISBN 7300059562
  • 陳家鼎. (2005). 生存分析與可靠性. 北京大學出版社. ISBN 9787301053720

外部連結