耿貝爾分佈

機率論統計學中,耿貝爾分佈Gumbel分佈,也稱為I 型廣義極值分佈)用於對各種分佈的多個樣本的最大值(或最小值)的分佈進行建模。

Gumbel
機率密度函數
機率分佈函數
累積分佈函數
累積分佈函數
記號
參數 location (real)
scale (real)
值域
機率密度函數
其中
累積分佈函數
期望值
其中Euler–Mascheroni常數
中位數
眾數
變異數
偏度
峰度
動差母函數
特徵函數

如果有過去十年的水位最大值列表,則此分佈可用於表示特定年份河流最高水位的分佈。它有助於預測發生極端地震、洪水或其他自然災害的可能性。 耿貝爾分佈表示最大值分佈的潛在適用性與極值理論有關,這表明如果基礎樣本數據的分佈是正態或指數類型,它可能是有用的。本文使用耿貝爾分佈對最大值的分佈進行建模。要對最小值建模,請使用原始值的負值。

耿貝爾分佈是廣義極值分佈(也稱為 Fisher-Tippett 分佈)的一個特例。它也稱為對數Weibull 分佈和雙指數分佈(該術語有時也用於指代拉普拉斯分佈)。它與Gompertz分佈有關:在原點附近,並限制在正半線上時,就得到了 Gompertz 函數。

多項式logistic回歸模型的潛變量公式中——在離散選擇法理論中很常見——潛在變量的誤差服從 Gumbel 分佈。這很有用,因為兩個耿貝爾分佈的隨機變量的差服從logistic分佈

耿貝爾分佈以Emil Julius Gumbel (1891 – 1966) 的名字命名,來自描述該分佈的原始論文。 [1] [2]

定義

耿貝爾分佈的累積分佈函數

 

標準耿貝爾分佈

標準的耿貝爾分佈是  時的特例,其累積分佈函數為

 

機率密度函數為

 

此時,眾數為 0,中位數為 ,均值為 歐拉-馬斯刻若尼常數),標準差為 

對於 n>1,累積量由下式給出

 

特性

眾數為 μ,中位數為 ,平均值是

  ,

其中 歐拉-馬斯刻若尼常數

標準差   ,因此  [3]

在眾數處,  的值變為  ,與 的取值無關。

相關分佈

  • 如果 具有耿貝爾分佈,則Y= − X的條件分佈在Y為正的情況下,或等效地在X為負的情況下具有Gompertz分佈Y的 cdf GX的 cdf F相關,公式如下 要求y > 0。因此,兩者機率密度函數相關:  : Gompertz 密度與反射的 Gumbel 密度成正比,僅限於正半線。 [4]
  • 如果X是均值為 1 的指數分佈變量,則− log( X ) 服從標準 Gumbel 分佈。
  • 如果  是獨立的,那麼  (見Logistic分佈)。
  • 如果 是獨立的,那麼  。注意  。更一般地,獨立 Gumbel 隨機變量的線性組合的分佈可以用 GNIG 和 GIG 分佈來近似。 [5]

廣義多變量對數伽馬分佈相關的理論提供了耿貝爾分佈的多變量版本。

應用

 
具有累積耿貝爾分佈置信帶的十月最大單日降雨量分佈擬合[6]

Gumbel 表明,隨着樣本量的增加,將服從指數分佈隨機變量減去樣本量[7]的自然對數,其最大值的分佈(或最後一階統計量)接近耿貝爾分佈。 [8]

具體來說,如果令  的機率分佈, 是其累積分佈,那麼對  次實現(realizations)的最大值小於 若且唯若所有 的實現都小於  。所以最大值的累積分佈 滿足:

 

並且,對於較大的 ,等式右邊收斂到 

因此,在水文學中,耿貝爾分佈用於分析日降雨量和河流流量的月度和年度最大值等變量, [3]也用於描述乾旱。 [9]

Gumbel 還表明,表示事件的機率估計量r(n+1)——其中r是觀察值在數據序列中的排名, n是觀察的總數——是分佈的眾數周圍的累積分佈函數無偏估計量。因此,這個估計量經常被用作分位圖

數論中,耿貝爾分佈近似於隨機整數分拆的項數[10]以及最大素數間隙和素數星座之間的最大間隙的趨勢調整大小。 [11]

Gumbel 重參數化技巧

機器學習中,耿貝爾分佈有時用於從分類分佈中生成樣本。這種技術稱為「Gumbel-max技巧」,是「重參數化技巧」的一個特例。 [12]

具體而言,令 非負且不全為零,並且讓 是Gumbel(0, 1)的獨立樣本,則 因此,  

等價地,給定任何  ,我們可以從它的玻爾茲曼分佈中採樣: 相關等式包括: [13]

  • 如果  , 那麼 
  •  
  •   。也就是說,Gumbel 分佈是一個最大穩定分佈族。
  •  

隨機變量生成

耿貝爾分佈的分位數函數(逆累積分佈函數 可由下式給出

 

其中  是參數,當隨機變量 是從  上的均勻分佈中抽取時,變量 具有服從耿貝爾分佈。

機率紙

 
一張包含 Gumbel 分佈的方格紙。

在軟件時代之前,人們使用機率紙描繪耿貝爾分佈(見插圖)。這種紙基於累積分佈函數的 的線性化:

 

在紙上,水平軸以雙對數刻度構建。垂直軸是線性的。通過在紙張的水平軸上尋找 ,在垂直軸上尋找   ,耿貝爾分佈由斜率為  的直線表示。當像CumFreq這樣的分佈擬合軟件可用時,繪製分佈的任務變得更加容易。

參見

參考資料

  1. ^ Gumbel, E.J., Les valeurs extrêmes des distributions statistiques (PDF), Annales de l'Institut Henri Poincaré, 1935, 5 (2): 115–158 [2023-01-21], (原始內容存檔 (PDF)於2018-03-10) 
  2. ^ Gumbel E.J. (1941). "The return period of flood flows". The Annals of Mathematical Statistics, 12, 163–190.
  3. ^ 3.0 3.1 Oosterbaan, R.J. http://www.waterlog.info/pdf/freqtxt.pdf |chapterurl=缺少標題 (幫助) (PDF). Ritzema, H.P. (編). Drainage Principles and Applications, Publication 16. Wageningen, The Netherlands: International Institute for Land Reclamation and Improvement (ILRI). 1994: 175–224. ISBN 90-70754-33-9. 
  4. ^ Willemse, W.J.; Kaas, R. Rational reconstruction of frailty-based mortality models by a generalisation of Gompertz' law of mortality (PDF). Insurance: Mathematics and Economics. 2007, 40 (3): 468 [2023-01-21]. doi:10.1016/j.insmatheco.2006.07.003. (原始內容 (PDF)存檔於2017-08-09). 
  5. ^ Marques, F.; Coelho, C.; de Carvalho, M. On the distribution of linear combinations of independent Gumbel random variables (PDF). Statistics and Computing. 2015, 25: 683‒701 [2023-01-21]. doi:10.1007/s11222-014-9453-5. (原始內容存檔 (PDF)於2022-12-20). 
  6. ^ CumFreq, software for probability distribution fitting
  7. ^ user49229, Gumbel distribution and exponential distribution. [2023-01-21]. (原始內容存檔於2021-08-26). 
  8. ^ Gumbel, E.J. Statistical theory of extreme values and some practical applications. Applied Mathematics Series 33 1st. U.S. Department of Commerce, National Bureau of Standards. 1954 [2023-01-21]. ASIN B0007DSHG4. (原始內容存檔於2023-01-21). 
  9. ^ Burke, Eleanor J.; Perry, Richard H.J.; Brown, Simon J. An extreme value analysis of UK drought and projections of change in the future. Journal of Hydrology. 2010, 388 (1–2): 131–143. Bibcode:2010JHyd..388..131B. doi:10.1016/j.jhydrol.2010.04.035. 
  10. ^ Erdös, Paul; Lehner, Joseph. The distribution of the number of summands in the partitions of a positive integer. Duke Mathematical Journal. 1941, 8 (2): 335. doi:10.1215/S0012-7094-41-00826-8. 
  11. ^ Kourbatov, A. Maximal gaps between prime k-tuples: a statistical approach. Journal of Integer Sequences. 2013, 16. Bibcode:2013arXiv1301.2242K. arXiv:1301.2242 .  Article 13.5.2.
  12. ^ Jang, Eric; Gu, Shixiang; Poole, Ben. Categorical Reparametrization with Gumble-Softmax. International Conference on Learning Representations (ICLR) 2017. April 2017 [2023-01-21]. (原始內容存檔於2023-01-21). 
  13. ^ Balog, Matej; Tripuraneni, Nilesh; Ghahramani, Zoubin; Weller, Adrian. Lost Relatives of the Gumbel Trick. International Conference on Machine Learning (PMLR). 2017-07-17: 371–379 [2023-01-21]. (原始內容存檔於2023-01-21) (英語). 

外部連結