常態分布

常见的描述连续性数据的概率分布

常態分布normal distribution,中國大陸作正態分布),物理學中通稱高斯分布Gaussian distribution[1],是一個非常常見的連續機率分布。常態分布在統計學上十分重要,經常用在自然社會科學來代表一個不明的隨機變數。[2][3]

常態分布
機率密度函數
Probability density function for the Normal distribtion
紅線代表標準常態分布
累積分布函數
Cumulative distribution function for the Normal distribution
顏色與機率密度函數相同
記號
母數 數學期望值(實數)
變異數(實數)
值域
機率密度函數
累積分布函數
期望值
中位數
眾數
變異數
偏度 0
峰度 0
動差母函數
特徵函數
「normal distribution」的各地常用譯名
中國大陸正態分布
臺灣常態分布
港澳常態分佈、正態分佈
日本正規分布
韓國正規分布

隨機變數服從一個平均數標準差的常態分布,則記為:

[4]

則其機率密度函數[4][5]

常態分布的數學期望值值或期望值,可解釋為位置母數,決定了分布的位置;其變異數的平方根或標準差可解釋尺度母數,決定了分布的幅度。[5]

中央極限定理指出,在特定條件下,一個具有有限均值變異數隨機變數的多個樣本(觀察值)的平均值本身就是一個隨機變數,其分布隨著樣本數量的增加而收斂於常態分布。因此,許多與獨立過程總和有關的物理量,例如測量誤差,通常可被近似為常態分布。

常態分布的機率密度函數曲線呈鐘形,因此人們又經常稱之為鐘形曲線(類似於寺廟裡的大鐘,因此得名)。我們通常所說的標準常態分布是位置母數,尺度母數的常態分布[5](見右圖中紅色曲線)。

概要

常態分布是自然科學行為科學中的定量現象的一個方便模型。各種各樣的心理學測試分數和物理現象比如光子計數都被發現近似地服從常態分布。儘管這些現象的根本原因經常是未知的,理論上可以證明如果把許多小作用加起來看做一個變量,那麼這個變量服從常態分布(在R.N.Bracewell的Fourier transform and its application中可以找到一種簡單的證明)。常態分布出現在許多區域統計:例如,採樣分布均值是近似地常態的,即使被採樣的樣本的原始群體分布並不服從常態分布。另外,常態分布資訊熵在所有的已知均值及變異數的分布中最大,這使得它作為一種均值以及變異數已知的分布的自然選擇。常態分布是在統計以及許多統計測試中最廣泛應用的一類分布。在機率論,常態分布是幾種連續以及離散分布的極限分布。

歷史

常態分布最早是棣美弗在1718年著作的書籍的(Doctrine of Change),及1734年發表的一篇關於二項分布文章中提出的,當二項隨機變數的位置母數n很大及形狀母數p為1/2時,則所推導出二項分布的近似分布函數就是常態分布。拉普拉斯在1812年發表的《分析機率論》(Theorie Analytique des Probabilites)中對棣莫佛的結論作了擴展到二項分布的位置母數為n及形狀母數為1>p>0時。現在這一結論通常被稱為棣莫佛-拉普拉斯定理

拉普拉斯在誤差分析試驗中使用了常態分布。勒讓德於1805年引入最小平方法這一重要方法;而高斯則宣稱他早在1794年就使用了該方法,並通過假設誤差服從常態分布給出了嚴格的證明。

將常態分布稱作「鐘形曲線」的習慣可以追溯到Jouffret他在1872年首次提出這個術語(Bell curve)用來指代二元常態分布。常態分布這個名字還被查爾斯·皮爾士法蘭西斯·高爾頓威爾赫姆·萊克希斯在1875分別獨立地使用。這個術語是不幸的,因為它反映和鼓勵了一種謬誤,即很多機率分布都是常態的。(請參考下面的「實例」)

這個分布被稱為「常態」或者「高斯」正好是史蒂格勒名字由來法則的一個例子,這個法則說「沒有科學發現是以它最初的發現者命名的」。

常態分布的定義

有幾種不同的方法用來說明一個隨機變數。最直觀的方法是機率密度函數,這種方法能夠表示隨機變數每個取值有多大的可能性。累積分布函數是一種機率上更加清楚的方法,請看下邊的例子。還有一些其他的等價方法,例如cumulant、特徵函數動差生成函數以及cumulant-生成函數。這些方法中有一些對於理論工作非常有用,但是不夠直觀。請參考關於機率分布的討論。

機率密度函數

 
四個不同母數集的機率密度函數(紅色線代表標準常態分布)

常態分布機率密度函數均值為  變異數  (或標準差 )是高斯函數的一個實例:

 

(請看指數函數以及 .)

如果一個隨機變數 服從這個分布,我們寫作   ~  . 如果 並且 ,這個分布被稱為標準常態分布,這個分布能夠簡化為

 

右邊是給出了不同母數的常態分布的函數圖。

常態分布中一些值得注意的量:

  • 密度函數關於平均值對稱
  • 平均值與它的眾數(statistical mode)以及中位數(median)同一數值。
  • 函數曲線下68.268949%的面積在平均數左右的一個標準差範圍內。
  • 95.449974%的面積在平均數左右兩個標準差 的範圍內。
  • 99.730020%的面積在平均數左右三個標準差 的範圍內。
  • 99.993666%的面積在平均數左右四個標準差 的範圍內。
  • 函數曲線的反曲點(inflection point)為離平均數一個標準差距離的位置。

累積分布函數

 
上圖所示的機率密度函數的累積分布函數

累積分布函數是指隨機變數 小於或等於 的機率,用機率密度函數表示為

 

常態分布的累積分布函數能夠由一個叫做誤差函數特殊函數表示:

 

標準常態分布的累積分布函數習慣上記為 ,它僅僅是指  的值,

 

將一般常態分布用誤差函數表示的公式簡化,可得:

 

它的反函數被稱為反誤差函數,為:

 

該分位數函數有時也被稱為probit函數。probit函數已被證明沒有初等原函數。

常態分布的分布函數 沒有解析表達式,它的值可以通過數值積分泰勒級數或者漸進序列近似得到。

生成函數

動差母函數

動差生成函數,或稱動差母函數被定義為 的期望值。

常態分布的動差產生函數如下:


   
 
 

可以通過在指數函數內配平方得到。

特徵函數

特徵函數被定義為 期望值,其中 是虛數單位. 對於一個常態分布來講,特徵函數是:

   
 
 

把動差生成函數中的 換成 就能得到特徵函數。

性質

常態分布的一些性質:

  1. 如果   實數,那麼  (參見期望值變異數).
  2. 如果  統計獨立的常態隨機變數,那麼:
    • 它們的和也滿足常態分布  (proof英語sum of normally distributed random variables).
    • 它們的差也滿足常態分布 .
    •   兩者是相互獨立的。(要求X與Y的變異數相等)
  3. 如果  是獨立常態隨機變數,那麼:
    • 它們的積 服從機率密度函數為 的分布
       其中 是修正貝塞爾函數(modified Bessel function)
    • 它們的比符合柯西分布,滿足 .
  4. 如果 為獨立標準常態隨機變數,那麼 服從自由度為n卡方分布

標準化常態隨機變數

動差(moment

一些常態分布的一階動差如下:

階數 原動差 主動差 累積量
0 1 0
1   0  
2      
3   0 0
4     0

標準常態的所有二階以上的累積量為零。

生成常態隨機變數

中央極限定理

 
常態分布的機率密度函數,母數為μ = 12,σ = 3,趨近於n = 48、p = 1/4的二項分布的機率質量函數。

常態分布有一個非常重要的性質:在特定條件下,大量統計獨立的隨機變數的平均值的分布趨於常態分布,這就是中央極限定理。中央極限定理的重要意義在於,根據這一定理的結論,其他機率分布可以用常態分布作為近似。

  • 母數為  二項分布,在 相當大而且 接近0.5時近似於常態分布(有的參考書建議僅在  至少為5時才能使用這一近似)。

近似常態分布平均數為 且變異數為 .

  • 卜瓦松分布帶有母數 當取樣樣本數很大時將近似常態分布 .

近似常態分布平均數為 且變異數為 .

這些近似值是否完全充分正確取決於使用者的使用需求

無限可分性

常態分布是無限可分的機率分布。

穩定性

常態分布是嚴格穩定的機率分布。

標準偏差

 
深藍色區域是距平均值小於一個標準差之內的數值範圍。在常態分布中,此範圍所佔比率為全部數值之68%,根據常態分布,兩個標準差之內的比率合起來為95%;三個標準差之內的比率合起來為99%

在實際應用上,常考慮一組數據具有近似於常態分布的機率分布。若其假設正確,則約68.3%數值分布在距離平均值有1個標準差之內的範圍,約95.4%數值分布在距離平均值有2個標準差之內的範圍,以及約99.7%數值分布在距離平均值有3個標準差之內的範圍。稱為「68-95-99.7法則」或「經驗法則」。

數字比率
標準差值
機率 包含之外比例
百分比 百分比 比例
0.318639σ 25% 75% 3 / 4
0.674490σ 50% 50% 1 / 2
0.994458σ 68% 32% 1 / 3.125
1σ 68.2689492% 31.7310508% 1 / 3.1514872
1.281552σ 80% 20% 1 / 5
1.644854σ 90% 10% 1 / 10
1.959964σ 95% 5% 1 / 20
2σ 95.4499736% 4.5500264% 1 / 21.977895
2.575829σ 99% 1% 1 / 100
3σ 99.7300204% 0.2699796% 1 / 370.398
3.290527σ 99.9% 0.1% 1 / 1000
3.890592σ 99.99% 0.01% 1 / 10000
4σ 99.993666% 0.006334% 1 / 15787
4.417173σ 99.999% 0.001% 1 / 100000
4.5σ 99.9993204653751% 0.0006795346249% 1 / 147159.5358
3.4 / 1000000 (每一邊)
4.891638σ 99.9999% 0.0001% 1 / 1000000
5σ 99.9999426697% 0.0000573303% 1 / 1744278
5.326724σ 99.99999% 0.00001% 1 / 10000000
5.730729σ 99.999999% 0.000001% 1 / 100000000
6σ 99.9999998027% 0.0000001973% 1 / 506797346
6.109410σ 99.9999999% 0.0000001% 1 / 1000000000
6.466951σ 99.99999999% 0.00000001% 1 / 10000000000
6.806502σ 99.999999999% 0.000000001% 1 / 100000000000
7σ 99.9999999997440% 0.000000000256% 1 / 390682215445

相關分布

  •  瑞利分布,如果 ,這裡  是兩個獨立常態分布。
  •  卡方分布具有 自由度,如果 這裡 其中 是獨立的。
  •  柯西分布,如果 ,其中 並且 是兩個獨立的常態分布。
  •  對數常態分布如果 並且 .
  • Lévy skew alpha-stable分布相關:如果 因而 .

估計

母數的最大概似估計

概念一般化

多元常態分布共變異數矩陣的估計的推導是比較難於理解的。它需要瞭解譜原理(spectral theorem)以及為什麼把一個標量看做一個1×1矩陣的跡(trace)而不僅僅是一個標量更合理的原因。請參考共變異數矩陣的估計(estimation of covariance matrices)。

母數的動差估計

常見實例

光子計數

計量誤差

飲料裝填量不足與超量的機率

某飲料公司裝瓶流程嚴謹,每罐飲料裝填量符合平均600毫升,標準差3毫升的常態分配法則。隨機選取一罐,求(1)容量超過605毫升的機率;(2)容量小於590毫升的機率。

容量超過605毫升的機率 = p ( X > 605)= p ( ((X-μ) /σ) > ( (605 – 600) / 3) )= p ( Z > 5/3) = p( Z > 1.67) = 1 - 0.9525 = 0.0475

容量小於590毫升的機率 = p (X < 590) = p ( ((X-μ) /σ) < ( (590 – 600) / 3) )= p ( Z < -10/3) = p( Z < -3.33) = 0.0004

6-標準差(6-sigma或6-σ)的品質管制標準

6-標準差(6-sigma或6-σ),是製造業流行的品質管制標準。在這個標準之下,一個標準常態分配的變數值出現在正負三個標準差之外,只有2* 0.0013= 0.0026 (p (Z < -3) = 0.0013以及p(Z > 3) = 0.0013)。也就是說,這種品質管制標準的產品不良率只有萬分之二十六。假設例中的飲料公司裝瓶流程採用這個標準,而每罐飲料裝填量符合平均600毫升,標準差3毫升的常態分配。那麼預期裝填容量的範圍應該多少?

6-標準差的範圍 = p ( -3 < Z < 3)= p ( - 3 < (X-μ) /σ < 3) = p ( -3 < (X- 600) / 3 < 3)= p ( -9 < X – 600 < 9) = p (591 < X < 609) 因此,預期裝填容量應該介於591至609毫升之間。

生物標本的物理特性

金融變量

壽命

測試和智力分布

計算學生智商高低的機率

假設某校入學新生的智力測驗平均分數與標準差分別為100與12。那麼隨機抽取50個學生,他們智力測驗平均分數大於105的機率?小於90的機率?

本例沒有常態分配的假設,還好中央極限定理提供一個可行解,那就是當隨機樣本長度超過30,樣本平均數 近似於一個常態變數,

因此標準常態變數 

平均分數大於105的機率  

平均分數小於90的機率  

計算統計應用

生成常態分布隨機變數

在計算機模擬中,經常需要生成常態分布的數值。最基本的一個方法是使用標準的常態累積分布函數的反函數。除此之外還有其他更加高效的方法,Box-Muller轉換就是其中之一。另一個更加快捷的方法是ziggurat算法。下面將介紹這兩種方法。一個簡單可行的並且容易編程的方法是:求12個在(0,1)上均勻分布的和,然後減6(12的一半)。這種方法可以用在很多應用中。這12個數的和是Irwin-Hall分布;選擇一個變異數12。這個隨即推導的結果限制在(-6,6)之間,並且密度為12,是用11次多項式估計常態分布。

Box-Muller方法是以兩組獨立的隨機數U和V,這兩組數在(0,1]上均勻分布,用U和V生成兩組獨立的標準常態分布隨機變數X和Y:

 
 

這個方程式的提出是因為二自由度的卡方分布(見性質4)很容易由指數隨機變數(方程式中的lnU)生成。因而通過隨機變數V可以選擇一個均勻環繞圓圈的角度,用指數分布選擇半徑然後轉換成(常態分布的)x,y坐標。

參考文獻

  1. ^ 物理學名詞審定委員會.物理學名詞 [S/OL].全國科學技術名詞審定委員會,公布. 3版.北京:科學出版社, 2019: 12. 科學文庫頁面存檔備份,存於網際網路檔案館).
  2. ^ Normal Distribution頁面存檔備份,存於網際網路檔案館), Gale Encyclopedia of Psychology
  3. ^ Casella & Berger (2001,第102頁)
  4. ^ 4.0 4.1 McPherson (1990,第110頁)
  5. ^ 5.0 5.1 5.2 Shaou-Gang Miaou; Jin-Syan Chou. 《Fundamentals of probability and statistics》. 高立圖書. 2012: 第147頁. ISBN 9789864128990. 

外部連結

參見