p值
p值[註 1]為假設檢驗中假設零假設為真時觀測到的至少與實際觀測樣本相同的樣本的概率。[2][3]很小的p值說明在零假設下觀測到的概率很小。學術出版物中常常報告假設檢驗的p值。p值由於其確切意義難以掌握而屢遭誤用;對p值的誤用是元科學的主要課題。[4][5]
簡介
p值(p value)就是當原假設為真時所得到的樣本觀察結果或更極端結果出現的概率。如果p值很小,說明在原假設下極端觀測結果的發生概率很小。而如果出現了,根據小概率原理,就有理由拒絕原假設;p值越小,拒絕原假設的理由越充分[3] 。
對於一個統計模型的參數空間 ,把參數空間劃分為兩個不相交的集合 和 ,然後給定的隨機樣本 ,想檢驗參數在哪一個劃分的空間
構造的拒絕域是 對於一個可以探測參數 的統計量 ,定義拒絕域為該統計量大於閾值 的形式:
那麼,一個擁有拒絕域是 的假設檢驗方法,則該檢驗的統計功效函數被定義為
一個檢驗的檢驗水準(size)是犯第一類錯誤概率的上確界 。我們稱一個檢驗具有顯著性水平 ,如果它的檢驗水準小於等於 ,即
假定對於所有小數 ,存在一個顯著性水平為 的檢驗,其拒絕域是 ,那麼p值的數學定義是滿足包含關係 的最小
p值是基於數據的檢驗統計量算出來的概率值。如果p值是5%,也就是說,如果以此為界拒絕原假設的話,那麼只有5%的可能性犯錯。原假設是對的,但卻拒絕了,這是錯誤的。所以說p值越大,拒絕原假設的理由越不充分。如果p值接近於0,拒絕原假設,那麼幾乎不可能犯錯,於是說明數據是極其不符合原假設。
換言之,p值是假說檢定中零假設成立或表現更嚴重的可能性。p值若與選定顯著性水平(0.05或0.01)相比更小,則虛無假設會被否定而不可接受。然而這並不直接表明原假設正確。通常在連續分布的假設下,p值是一個服從[0,1]區間均勻分布的隨機變量,在實際使用中因樣本等各種因素存在不確定性。近100年來,統計學家使用p值來描述數據的統計顯著性,這種方法造成了許多人在工作中把統計顯著性的閾值(事先給定值)強行假定為大於等於實際顯著性(實際數據計算出的p值),於是強行拒絕原假設,做出了很多不科學的決策。p值產生的結果可能會帶來爭議[6]。2018年,由72位科學家組成的小組在《自然·人類行為》上發表了一篇名為《重新定義統計意義》的評論文章,贊同將統計顯著性的閾值從0.05調整到0.005。這樣就使得科研人員不能強行讓如此小的統計顯著性閾值大於實際數據計算出來的p值。這篇文章的主要作者本傑明認為:「這是一個不完美的短期解決方案,但可以立即實施。我擔心的是,如果我們不立即做這事,我們將失去變革的動力,而我們最終將花費所有的時間爭論理想化的解決方案。」
在科學研究的許多領域,p值小於0.05被認為是確定實驗數據可靠性的金標準。這個標準支持了大多數已發表的科學結論,違反這一標準的論文很難發表,而且也很難得到學術機構的資助。然而,即使是費雪也明白,統計顯著性的概念以及支撐它的p值具有相當大的局限性。幾十年來,科學家也逐漸意識到了這些局限性。
歷史
p值的計算可以追溯到18世紀,當時計算的是人類出生性別比,並與男女出生概率相同的零假設相比的統計學差異[7]。約翰·阿布斯諾特於1710年研究了這一問題[8][9][10][11],並檢查了倫敦從1629年到1710年的82年中每一年的出生記錄。阿布斯諾特觀察到每一年在倫敦出生的男嬰數都超過了女嬰數。考慮到零假設是男性或女性出生概率相同,這一觀察結果出現的概率是1/282,或約為4,836,000,000,000,000,000分之1;這個計算得到的值,用現代術語說,就是P值。這個數字小得驚人,使阿布斯諾特認為這一結果的出現不是由於幾率,而是由於神的旨意。「由此可見,支配一切的是藝術,而不是幾率」。用現代術語來說,他在p=1/282的顯著性水平上拒絕了男女出生可能性相同的零假設。
1925年,英國遺傳學家兼統計學家羅納德·愛爾默·費雪出版了《研究者的統計方法》(Statistical Methods for Research Workers)一書。這本書的書名在當時看起來並不會「暢銷」,但實際上這本書卻取得了巨大的成功,而且還使費雪成為現代統計學之父。在這本書中,他着眼於研究人員如何將統計檢驗理論應用於實際數據,以便基於數據得出他們所發現的結論。當使用某個統計假設來做檢驗時,該檢驗能夠概述數據與其假設的模型之間的兼容性,並生成一個p值。 費雪建議,作為一個方便的指南,研究人員可以考慮將p值設為0.05。對於這一點,他專門論述道:「在判斷某個偏差是否應該被認為是顯著的時候,將這一閾值作為判斷標準是很方便的。」他還建議,p值低於該閾值的結論是可靠的,因此不要把時間花在大於該閾值的統計結論上。因此,費雪的這一建議誕生了p小於0.05等價於所謂的統計顯著性,這成了 「顯著」的數學定義。
注釋
參考資料
- ^ 存档副本 (PDF). [2021-02-01]. (原始內容存檔 (PDF)於2017-10-10).
- ^ Aschwanden, Christie. Not Even Scientists Can Easily Explain P-values. FiveThirtyEight. 2015-11-24 [11 October 2019]. (原始內容存檔於2019-09-25).
- ^ 3.0 3.1 Wasserstein, Ronald L.; Lazar, Nicole A. The ASA's Statement on p-Values: Context, Process, and Purpose. The American Statistician. 7 March 2016, 70 (2): 129–133 [2021-02-01]. doi:10.1080/00031305.2016.1154108 . (原始內容存檔於2019-06-30).
- ^ Hubbard, Raymond; Lindsay, R. Murray. Why P Values Are Not a Useful Measure of Evidence in Statistical Significance Testing. Theory & Psychology. 2008, 18 (1): 69–88. doi:10.1177/0959354307086923.
- ^ Ioannidis, John P. A.; et al. A manifesto for reproducible science (PDF). Nature Human Behaviour. January 2017, 1: 0021 [2021-02-01]. S2CID 6326747. doi:10.1038/s41562-016-0021. (原始內容存檔 (PDF)於2019-09-24) (英語).
- ^ Denworth Lydia,張慧銘(譯). P值危机:统计学需要一场变革 (PDF). 環球科學. 2019, 21 [2020-02-17]. (原始內容存檔 (PDF)於2020-02-17).
- ^ Brian, Éric; Jaisson, Marie. Physico-Theology and Mathematics (1710–1794). The Descent of Human Sex Ratio at Birth. Springer Science & Business Media. 2007: 1–25. ISBN 978-1-4020-6036-6.
- ^ John Arbuthnot. An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes (PDF). Philosophical Transactions of the Royal Society of London. 1710, 27 (325–336): 186–190 [2021-09-30]. S2CID 186209819. doi:10.1098/rstl.1710.0011 . (原始內容 (PDF)存檔於2021-06-03).
- ^ Conover, W.J., Chapter 3.4: The Sign Test, Practical Nonparametric Statistics Third, Wiley: 157–176, 1999, ISBN 978-0-471-16068-7
- ^ Sprent, P., Applied Nonparametric Statistical Methods Second, Chapman & Hall, 1989, ISBN 978-0-412-44980-2
- ^ Stigler, Stephen M. The History of Statistics: The Measurement of Uncertainty Before 1900. Harvard University Press. 1986: 225–226. ISBN 978-0-67440341-3.