樣本均值

樣本均值是由一個或多個隨機變數中得到的統計量,樣本均值是一個向量,其中的每個元素都是針對隨機變數取樣後得到的算術平均數。若只考慮一個隨機變數,則樣本均值為一個純量,是隨機變數觀測值的算術平均。

定義

 為第j個隨機變數(j=1,...,K)在第i次觀測(i=1,...,N)到的值,所有觀測值可以重組為N個K ×1的向量,其中第i次觀測的所有數據用 表示(i=1,...,N)。

算術平均向量 的第j個元素 是第j個隨機變數在N次觀測值的平均值:

 

因此算術平均向量包括所有隨機變數的平均值,可以用以下方式表示:

 

樣本均值是隨機向量英語Multivariate random variable 期望值(若存在)的不偏估計英語Bias of an estimator,隨機向量是一個列向量,其中第j個元素(j = 1, ..., K)為第j個隨機變數[1]

樣本均值因為是用所有的觀測值計算而得,稍微和每次的觀測值有關。若母體平均 已知,其不偏估計值

 

用到母體平均,其分母為 

樣本均值的變異數

本節中總假定出現的均值和變異數都是存在的。對於每個隨機變數,樣本均值是母體平均的良好估計函數,其中的良好是指有效及不偏差。當然樣本均值不會是統計母體真實均值的正確值,因為從同一個分布中不同的取様會產生不同的樣本均值,也就對真實均值有不同的估計。因此樣本均值也是隨機變數,不是常數,因此也會有其分布隨機變數。針對第j個隨機變數N次觀測的隨機取様,其樣本均值分布的均值會等於母體均值 ,而其變異數會等於 ,其中 是隨機變數Xj的變異數。

評論

樣本均值廣為使用在統計學及相關應用中,不過也有其缺點。樣本均值不是穩健統計,容易受異常點英語outliers影響。在真實世界的應用中,一般會期望值數據有穩健的性質,有其他方式可以計算類似樣本均值的統計量,但又比樣本均值要穩健,可以得到一些常見的量化統計量,例如樣本眾數位置參數英語Location parameter有關[2]。其他的替代品包括Winsorising英語Winsorising修整估計量英語Trimmed estimator,例如Winsorized平均英語Winsorized mean修整平均英語trimmed mean

參考資料

  1. ^ Richard Arnold Johnson; Dean W. Wichern. Applied Multivariate Statistical Analysis. Pearson Prentice Hall. 2007 [10 August 2012]. ISBN 978-0-13-187715-3. (原始內容存檔於2020-10-30). 
  2. ^ The World Question Center 2006: The Sample Mean頁面存檔備份,存於網際網路檔案館), Bart Kosko