T-标准化

统计学中,对一个样本统计量进行t-标准化(studentization,或直译为“学生化”)一般是指将其中心化之后,除以自身的标准差的变换方式。

广义的t-标准化,是指用其他样本矩来除该统计量。

t-标准化与标准化(standarization)最重要的区别是,标准化用真实的总体参数作除数,而t-标准化用可以观测到的样本统计量作除数。一般而言,标准化需要假设较多的已知信息。

例子

  • 在对位置-尺度参数族的分布之总体均值进行估计的时候,经常用尺度参数的估计量来标准化位置参数的估计量。

例如,在估计常态分布   的位置参数   时,常用尺度参数   的估计量来t-标准化位置参数的估计量,即:

 

其中   是样本方差,注意应该用   整体(又称“标准误差”)而不是   来估计   的标准差。在这个例子里,如果对   进行估计,并估计量的立方根代替   之表达式中的   ,那么就做成一个广义的t-标准化。如果用真实的   代替  ,那么就做成一个标准化

  • 对一般的参数估计,也可以进行t-标准化,例如总体分布具有参数   ,这里   既可以是一个参数模型的参数,例如 Exp  中的   ,也可以是一个非参数模型的泛函,例如一个所有矩存在的非参数模型的总体平均、总体方差等,可以考虑如下的t-标准化:
 

分母的平方是对   的良好估计,这个估计一般不容易得到,通行的做法是用一个经过仔细设计的重抽样方法做这个方差估计,例如Bootstrap、Jackknife等。

意义

t-标准化具有以下重要意义:

  • 标准化所得到的估计量,其分布不再、或更少地依赖于总体分布的尺度参数。这样可以方便地进行统计推断,例如设计置信区间和统计检验。[1][2]
  • Bootstrap方法中,t-标准化具有特殊的重要意义。对经过t-标准化的统计量进行bootstrap,以更高阶的精确度对被估计的参数进行统计推断(如更精确地控制置信区间的置信水平,及更好地控制统计检验中的第一类错误概率),而对未经标准化的统计量直接进行bootstrap则只能有低阶精确度的统计推断。[3]

不足

  • 一般来说,t-标准化需要一个能够很好地估计待标准化统计量某个矩的估计量,设计这个估计量有时是很困难的,例如:观测到的是网络数据、或观测量间不是互相独立的(例如时间序列数据)。
  • 除开简单的例子(例如常态分布),t-标准化后的统计量,其分布未必是容易计算或逼近的。

参考文献

  1. ^ Beran, Rudolf. Prepivoting Test Statistics: A Bootstrap View of Asymptotic Refinements. Journal of the American Statistical Association. 1988-09, 83 (403): 687. doi:10.2307/2289292. 
  2. ^ Beran, Rudolf. Prepivoting to Reduce Level Error of Confidence Sets. Biometrika. 1987-09, 74 (3): 457. doi:10.2307/2336685. 
  3. ^ Larry Wasserman. All of nonparametric statistics. Springer. ISBN 978-1-4419-2044-7.