皮爾森積動差相關係數

統計學名詞

統計學中,皮爾森積相關係數(英語:Pearson product-moment correlation coefficient,縮寫:PPMCC,或PCCs[1][註 1],有時簡稱相關係數)用於度量兩組數據的變量X和Y之間的線性相關的程度。它是兩個變量的協方差與其標準差的乘積之比; 因此,它本質上是協方差的歸一化度量,因此結果始終具有介於-1和1之間的值。與協方差本身一樣,該度量只能反映變量的線性相關性,而忽略了許多其他類型的關係或相關性。舉個簡單的例子,可以預期高中青少年樣本的年齡和身高的皮爾森積動差相關係數顯著大於0,但小於1(因為1表示不切實際的完美相關性)。

具有不同相關系數值 (ρ)的散點圖示例
幾組(x, y)的點集,以及各個點集中x和y之間的相關係數。我們可以發現相關係數反映的是變量之間的線性關係和相關性的方向(第一排),而不是相關性的斜率(中間),也不是各種非線性關係(第三排)。請注意:中間的圖中斜率為0,但相關係數是沒有意義的,因為此時變量Y是0

命名和歷史

它是由卡爾·皮爾森弗朗西斯·高爾頓在1880年代提出的一個相似卻又稍有不同的想法演變而來,[2][3]並且其數學公式由奧古斯特·布拉菲(Auguste Bravais)於1844年推導出和發表[註 2][7][8][9][10]。系數的命名因此是史蒂格勒名字由來法則的一個例子。

這個相關係數也稱作「皮爾森相關係數r」。

定義

兩個變量之間的皮爾森相關係數定義為兩個變量的共變異數除以它們標準差的乘積:

 

上式定義了總體相關係數,常用希臘小寫字母 ρ (rho) 作為代表符號。估算樣本的共變異數和標準差,可得到樣本相關係數(樣本皮爾森系數),常用英文小寫字母 r 表示:

 

r 亦可由 樣本點的標準分數均值估算,得到與上式等價的表達式:

 

其中     分別是   樣本的標準分數、樣本平均值和樣本標準差。

數學特性

總體和樣本皮爾森系數的絕對值小於或等於1。如果樣本數據點精確的落在直線上[註 3],或者雙變量分佈完全在直線上(計算總體皮爾森系數的情況),則相關係數等於1或-1。皮爾森系數是對稱的:corr(X,Y) = corr(Y,X)。

皮爾森相關係數有一個重要的數學特性是,因兩個變量的位置和尺度的變化並不會引起該系數的改變,即它該變化的不變量 (由符號確定)。也就是說,我們如果把X移動到a + bX和把Y移動到c + dY,其中a、b、c和d是常數,並不會改變兩個變量的相關係數[註 4]。我們發現更一般的線性轉換則會改變相關係數:參見之後章節對該特性應用的介紹。

由於μX = E(X), σX2 = E[(X − E(X))2] = E(X2) − E2(X),Y也類似, 並且

 

故相關係數也可以表示成

 

對於樣本皮爾森相關係數:

 

以上方程給出了計算樣本皮爾森相關係數簡單的單流程算法,但是其依賴於涉及到的數據,有時它可能是數值不穩定的。

解釋

皮爾森相關係數的變化範圍為-1到1。系數的值為1意味着XY可以很好的由直線方程來描述,所有的數據點都很好的落在一條直線上,且 Y 隨着 X 的增加而增加。系數的值為−1意味着所有的數據點都落在直線上,且 Y 隨着 X 的增加而減少。系數的值為0意味着兩個變量之間沒有線性關係。

更一般的, 我們發現,當且僅當 XiYi 均落在他們各自的均值的同一側, 則(Xi − X)(Yi − Y) 的值為正。 也就是說,如果XiYi 同時趨向於大於, 或同時趨向於小於他們各自的均值,則相關係數為正。 如果 XiYi 趨向於落在他們均值的相反一側,則相關係數為負。

幾何學角度的解釋

 
迴歸直線:y=gx(x) [紅色] 和 x=gy(y) [藍色]

對於沒有進行中心化的數據, 相關係數與兩條可能的迴歸線y=gx(x) 和 x=gy(y) 夾角的餘弦值一致。

對於中心化過的數據(也就是說, 數據移動一個樣本平均值以使其均值為0),相關係數也可以被視作由兩個隨機變量向量夾角 餘弦值(見下方)。

從一個數據集中可以確定出非中心化的相關係數 (non-Pearson-compliant) 和中心化的相關係數二者。例如,有5個國家的國民生產總值分別為 10, 20, 30, 50 和 80 億美元。 假設這5個國家 (順序相同) 的貧困百分比分別為 11%, 12%, 13%, 15%, 和 18% 。 令 xy 分別等於包含上述5個數據的向量: x = (1, 2, 3, 5, 8) 和 y = (0.11, 0.12, 0.13, 0.15, 0.18)。

利用通常的方法計算兩個向量之間的夾角   (參見 數量積), 未中心化 的相關係數是:

 

我們發現以上的數據特意選定為完全相關: y = 0.10 + 0.01 x。 於是,皮爾森相關係數應該等於1。將數據中心化 (通過E(x) = 3.8移動 x 和通過 E(y) = 0.138 移動 y ) 得到 x = (−2.8, −1.8, −0.8, 1.2, 4.2) 和 y = (−0.028, −0.018, −0.008, 0.012, 0.042), 從中,

 

對相關係數大小的解釋

相關性
−0.09 to 0.0 0.0 to 0.09
−0.3 to −0.1 0.1 to 0.3
−0.5 to −0.3 0.3 to 0.5
−1.0 to −0.5 0.5 to 1.0

一些著作的作者[11][12] 給出了某些解釋相關係數的指南。 然而, 所有這些標準從某種意義上說是武斷的和不嚴格的。[12] 對相關係數的解釋是依賴於具體的應用背景和目的的。 例如,若是在運用高性能的儀器來驗證一個物理定律實驗這樣的應用背景下,0.9的相關係數可能是很低的。但如果是應用在社會科學中,由於社會科學受到各種複雜多變因素影響,0.9的相關係數是相當高的。

皮爾森距離

皮爾森距離度量的是兩個變量X和Y,它可以根據皮爾森系數定義成[13]

 

我們可以發現,皮爾森系數落在 ,而皮爾森距離落在 

統計推論:顯著性檢驗與置信區間

 
圖表顯示對於給定的樣本大小,在0.05的置信度上,皮爾森相關係數顯著不為零。

基於皮爾森相關係數的統計推論通常關注以下兩個目標。

  1. 驗證虛無假設是否為真,即相關係數 ρ 是否等於 0, 該相關係數使用的是樣本相關係數 r
  2. 在給定的置信水平α之下,構建一個圍繞r置信區間

隨機採樣方法

顯著性檢驗提供了一種假設檢定和構造置信區間的直接方法。

對皮爾森相關係數的顯著性檢驗包括以下兩個步驟:

  1. 隨機地將原始的數據對 (xiyi)重新定義成數據集 (xiyi′), 其中 i′ 表示數列 {1,...,n}。 數列 i′ 的選取是隨機的, 以相同的概率落在 n! 種可能的數列中。這等價於隨機地"不可重複地"從數列{1,..., n}中選取 i′。一種相近的且合乎情理的方法(自助抽樣法)是「可重複地」從數列{1,..., n}中選取 ii′
  2. 由隨機數據構造相關係數r

為了完成顯著性檢驗,需要多次重複步驟(i)和(ii) 。顯著性檢驗的P值是由測試數據除以步驟(ii)得到的r,其中r大於由原始數據計算出的皮爾森相關係數。在這裏「大」可能是絕對值比較大或者是數值比較大,這取決於測試使用的是雙尾檢驗英語two-tailed test或者是單尾檢驗英語one-tailed test

自助抽樣法

自助抽樣法可以被用來構造皮爾森系數的置信區間。在"非參數"的自助抽樣法中,「可重複」地從觀測數據集n中重新採樣n 對的 (xiyi) 數據,用來計算相關係數r。這個過程重複了大量次數,。重新採樣後數據的 r值的分佈被用來估計統計學上的樣本分佈英語sampling distributionρ的95%的置信區間可以被定義成重新採樣樣本 r值的%2.5到%97.5之間。

基於數學近似的方法

對於近似高斯分佈的數據,皮爾森相關係數的樣本分佈英語sampling distribution近似於自由度為N − 2的t分佈。特別地,如果兩個變量服從雙變量正態分佈,變量

 

也會服從不相關的t分佈。[14] 如果樣本容量不是特別小,這個結論也大致成立,即便觀測數據不是正態分佈的。[15]如果需要構建置信區間和進行有力的分析,還需要採用如下的可逆轉換

 

或者,也可以採用大量採樣數據的方法。

早期對樣本相關係數的研究得益於R. A. Fisher[16][17]和A. K. Gayen.[18]的工作。 另一篇早期的論文[19] 給出了在小樣本的情況下總體相關係數 ρ的圖表, 並討論了相關的計算方法。

準確服從高斯分佈的數據

準確的雙變量樣本相關係數的分佈是[20][21]

 

其中  伽瑪函數 高斯超幾何函數

注意到  , 因此 r 的一個有偏估計。一種獲得無偏估計的方法是解 的方程   。 然而,解  是次優的。 一種無偏估計, 可以從 n較大情況下的最小方差和有偏序列  , 通過最大化  , 也就是 獲得。

特殊情況下,當  時,分佈可以被寫成

 

其中  貝塔函數

費雪轉換

實際應用中, 與ρ相關的置信區間假設檢定通常是通過費雪轉換獲得

 

如果F(r)是r的費雪轉換,n 是樣本容量,那麼F(r)近似服從正態分佈

     and standard error     

也就是Z-分數

 

  進行虛無假設,可以設想樣本數據對是獨立同分佈並且服從雙變量正態分佈。因此P值估計可以從正態分佈概率表中獲得。比如,如果觀測數據 z = 2.2,並且要用雙尾p值對  進行虛無假設檢驗,p值是 2·Φ(−2.2) = 0.028, 其中Φ是正態分佈的累積分佈函數

置信區間

為了獲得ρ的置信區間,首先,我們應該計算 F( )的置信區間:

 

通過可逆Fisher轉換可以獲得相關尺度上的區間。

 

舉例來說,假設我們觀測到 r = 0.3,樣本容量 n=50,並且我們期望值獲得ρ的95%的置信區間。轉換後的值是artanh(r) = 0.30952,所以在轉換尺度上的置信區間是 0.30952 ± 1.96/√47,或者 (0.023624, 0.595415)。轉換回相關尺度上是 (0.024, 0.534)。

皮爾森相關係數和最小方差迴歸分析

樣本相關係數的平方,亦稱作決定系數,利用簡單線性迴歸估計由X引起的Y的變化。一開始,Yi圍繞它們平均值上的變化可以分解成

 

其中   是作迴歸分析時的適應值。 整理後得

 

兩個被加數是由X (右邊)引起的Y的變化和不是由X(左邊)引起的變化。

接下來, 我們利用最小方差迴歸模型, 使    的樣本協方差為0。 於是, 觀測數據和適應值的樣本相關係數可以被寫成

 

於是

 

是由X的線性方程引起的Y的平均變化。

數據分佈的敏感度

存在性

總體皮爾森相關係數被定義成 ,因此任意的雙變量概率分佈是非零的,也就是說是由總體協方差邊緣總體方差定義的。一些概率分佈,如柯西分佈的方差未定義,因此若XY服從這種分佈,ρ便是未定義的。在實際應用中,若有懷疑數據服從重尾分佈,就需要重視這個條件。然而,相關係數的存在性通常無關緊要,例如若分佈有界,則ρ必有意義。

大樣本的特性

在雙變量正態分佈的案例中,只要邊緣均值和方差是已知的,總體相關係數描述的是便是聯合分佈。在其他的雙變量分佈中,這個結論並不正確。總之,不論兩個隨機變量的聯合分佈是不是正態的,相關係數都對研究它們之間的線性依賴性有幫助。[2]樣本相關係數是對兩個正態分佈變量總體相關係數的最大似然估計,並且是漸進無偏有效率粵語效率 (統計學)的。換言之,如果數據是遵循正態分佈,並且樣本容量不太小,就不可能構造出一個比樣本相關係數更準確的估計。對於非正態的數據,樣本相關係數大致上是無偏的,但有可能是無效的。只要樣本均值、方差和協方差是一致的(當大數定理可以應用的情況下),樣本相關係數是總體相關係數的一致估計

穩健性

與其他常用的統計指標類似,樣本指標r穩健[22] 。因此如果由離群值,這個指標是有誤導性的。[23][24]特別地,PMCC既不是穩健分佈的[來源請求],也不是異常值穩健的[22] (見穩健統計)。觀察XY散點圖,可以認出是否缺乏穩健性,在這種情況下,採用的聯合的方法是比較明智的。注意到,雖然大多數穩健的估計量,都有某程度的統計依賴,但總括而言,在總體相關係數的尺度上都是可辨的。

基於皮爾森相關係數的統計推論,對數據分佈敏感。如果數據大致是正態分佈的,可以使用精確檢驗和基於費雪轉換的漸進檢驗,但是它們可能有誤導性。在一些情況下,自助採樣可以用來構造置信區間。同時,重複抽樣可以應用在假設檢定中。這些非參數化的方法在某些情況下,如不能保證是雙變量正態分佈時,可能得出更有意義的結論。然而,這些方法的標準形式,依賴於數據要可交換英語exchangeable random variables。這也就意味着要分析的數據沒有順序的和組別之分,否則可能會影響估計相關係數的特性。

分層分析是一種容許缺少雙變量正態性的方法,或者說是用來隔離相互關聯因素的關聯結果。如果W代表聚類成員或者其它需要控制的因素,則可以分離基於W的數據,然後可以再逐層計算相關係數。當控制變量W,便能在層的等級上估計與所有相關係數相關的各自的相關係數。[25]

計算加權相關係數

假設我們要計算關聯性的觀測數據有着不同的重要程度,表示成權值向量 w。 利用權值向量w (總長度 n)計算向量 xy 的相關係數,[26]

  • 加權均值:
 
  • 加權協方差
 
  • 加權相關係數
 

去除相關性

我們總是可以通過一定的線性轉換去除隨機變量之間的相關性, 即便變量間的關係是非線性的。 Cox & Hinkley[27]給出了在總體相關係數中的表達形式。

與此相應的,樣本相關係數也存在這樣的結論,使得樣本相關係數變為0。假設長度為 n 的隨機變量被隨機採樣 m 次。 令 X 是一個矩陣,其中   是第i次採樣的第 j個變量。 令   是一個所有元素都為1的 m * m 的方陣。 那麼 D 是轉換後的數據,使得隨機變量的均值為0, 並且 T 是轉換後的數據,使得所有的變量均值為0和與除自身外的其他變量的相關係數為0 - T的矩作為身份矩陣。 為了得到單位方差,還需要除以標準差。 雖然轉換後的數據有可能不是獨立的,但他們一定是不相關的。

 


 

其中,指數-1/2表示矩陣置換後的矩陣方根。T的協方差被當做身份矩陣。如果新的樣本數據x是n個元素的向量, 那麼相同的轉換可以應用到x中以獲得轉換向量d和t:

 


 

這個去相關性的方法被應用到多變量的主成分分析中。

反射相關性

反射相關係數是皮爾森相關係數的變體,數據並不是以他們的均值為中心。[來源請求]總體反射相關係數是

 

反射相關係數是對稱的, 但在如下的轉換中並不是不變的

 

樣本反射相關係數是

 

樣本加權相關係數是

 

比例關係

規模的相關性是一個變種的皮爾森相關數據的範圍限制故意以受控的方式揭示時間序列之間的快速成分的相關性。比例相關的定義是在短數據段的平均相關性。 對於給定規模S,令K為可以適應信號的總長度的段數:

 

比例相關的整個信號的rs的計算公式為

 

rs為k的部分皮爾森相關係數。 通過對參數s的選擇,減少值的範圍和較長的時間尺度上的相關性被過濾掉,只有在很短的時間尺度上的相關性被發現。因此,慢分量的貢獻被刪除,快分量被保留。

強噪聲條件下

強噪聲條件下,提取相關係數兩個隨機變量之間的是平凡的,特別是在典型相關分析報告在退化的相關值的情況下,由於存在大量噪聲。一種概括的方法在其他地方給出。

相關條目

註釋

  1. ^ 文獻中常用r或Pearson's r表示
  2. ^ As early as 1877, Galton was using the term "reversion" and the symbol "r" for what would become "regression".[4][5][6]
  3. ^ 計算樣本皮爾森系數的情況
  4. ^ 該結論在總體和樣本皮爾森相關係數中都成立

參考文獻

  1. ^ "The human disease network", Albert Barabasi et al., Plos.org
  2. ^ 2.0 2.1 J. L. Rodgers and W. A. Nicewander. Thirteen ways to look at the correlation coefficient頁面存檔備份,存於互聯網檔案館). The American Statistician, 42(1):59–66, February 1988.
  3. ^ Stigler, Stephen M. Francis Galton's Account of the Invention of Correlation. Statistical Science. 1989, 4 (2): 73–79. JSTOR 2245329. doi:10.1214/ss/1177012580. 
  4. ^ Galton, F. Typical laws of heredity. Nature. 5–19 April 1877, 15 (388, 389, 390): 492–495 ; 512–514 ; 532–533 [2022-06-05]. Bibcode:1877Natur..15..492.. S2CID 4136393. doi:10.1038/015492a0 . (原始內容存檔於2022-07-03).  In the "Appendix" on page 532, Galton uses the term "reversion" and the symbol r.
  5. ^ Galton, F. The British Association: Section II, Anthropology: Opening address by Francis Galton, F.R.S., etc., President of the Anthropological Institute, President of the Section. Nature. 24 September 1885, 32 (830): 507–510 [2022-06-05]. (原始內容存檔於2022-07-03). 
  6. ^ Galton, F. Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute of Great Britain and Ireland. 1886, 15: 246–263 [2022-06-05]. JSTOR 2841583. doi:10.2307/2841583. (原始內容存檔於2022-07-03). 
  7. ^ Pearson, Karl. Notes on regression and inheritance in the case of two parents. Proceedings of the Royal Society of London. 20 June 1895, 58: 240–242 [2022-06-05]. Bibcode:1895RSPS...58..240P. (原始內容存檔於2022-07-03). 
  8. ^ Stigler, Stephen M. Francis Galton's account of the invention of correlation. Statistical Science. 1989, 4 (2): 73–79. JSTOR 2245329. doi:10.1214/ss/1177012580 . 
  9. ^ Analyse mathematique sur les probabilités des erreurs de situation d'un point. Mem. Acad. Roy. Sci. Inst. France. Sci. Math, et Phys. 1844, 9: 255–332 [2022-07-10]. (原始內容存檔於2022-07-05) –透過Google Books (法語). 
  10. ^ Wright, S. Correlation and causation. Journal of Agricultural Research. 1921, 20 (7): 557–585. 
  11. ^ A. Buda and A.Jarynowski (2010) Life-time of correlations and its applications vol.1, Wydawnictwo Niezalezne: 5–21, December 2010, ISBN 978-83-915272-9-0
  12. ^ 12.0 12.1 Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.)
  13. ^ Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences, Springer (pp. 110) ISBN 1402088795
  14. ^ N.A Rahman, A Course in Theoretical Statistics; Charles Griffin and Company, 1968
  15. ^ Kendall, M.G., Stuart, A. (1973)The Advanced Theory of Statistics, Volume 2: Inference and Relationship, Griffin. ISBN 0852642156 (Section 31.19)
  16. ^ Fisher, R.A. Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population. Biometrika. 1915, 10 (4): 507–521. doi:10.1093/biomet/10.4.507. 
  17. ^ Fisher, R.A. On the probable error of a coefficient of correlation deduced from a small sample (PDF). Metron. 1921, 1 (4): 3–32 [2009-03-25]. 
  18. ^ Gayen, A.K. The frequency distribution of the product moment correlation coefficient in random samples of any size draw from non-normal universes. Biometrika. 1951, 38: 219–247. doi:10.1093/biomet/38.1-2.219. 
  19. ^ Soper, H.E., Young, A.W., Cave, B.M., Lee, A., Pearson, K. (1917). "On the distribution of the correlation coefficient in small samples. Appendix II to the papers of "Student" and R. A. Fisher. A co-operative study", Biometrika, 11, 328-413. doi:10.1093/biomet/11.4.328
  20. ^ Kenney, J. F. and Keeping, E. S., Mathematics of Statistics, Pt. 2, 2nd ed. Princeton, NJ: Van Nostrand, 1951.
  21. ^ Weisstein, Eric W. (編). Correlation Coefficient - Bivariate Normal Distribution. at MathWorld--A Wolfram Web Resource. Wolfram Research, Inc. [2012-03-17]. (原始內容存檔於2012-05-11) (英語). 
  22. ^ 22.0 22.1 Wilcox, Rand R. Introduction to robust estimation and hypothesis testing. Academic Press. 2005. 
  23. ^ Devlin, Susan J; Gnanadesikan, R; Kettenring J.R. Robust Estimation and Outlier Detection with Correlation Coefficients. Biometrika. 1975, 62 (3): 531–545. JSTOR 2335508. doi:10.1093/biomet/62.3.531. 
  24. ^ Huber, Peter. J. Robust Statistics. Wiley. 2004. [頁碼請求]
  25. ^ Katz., Mitchell H. (2006) Multivariable Analysis - A Practical Guide for Clinicians. 2nd Edition. Cambridge University Press. ISBN 9780521549851. ISBN 052154985X doi:10.2277/052154985X
  26. ^ http://sci.tech-archive.net/Archive/sci.stat.math/2006-02/msg00171.html</ref><ref[永久失效連結]>A MATLAB Toolbox for computing Weighted Correlation Coefficients頁面存檔備份,存於互聯網檔案館
  27. ^ Cox, D.R., Hinkley, D.V. (1974) Theoretical Statistics, Chapman & Hall (Appendix 3) ISBN 0412124203

外部連結