在统计学 中,样本 的第
k
{\displaystyle k}
顺序统计量 (英语:Order Statistics )即它从小到大排列时的第
k
{\displaystyle k}
个值,常用于非参数估计 与推断 中。常见的顺序统计量包括样本的最大值 、最小值 、中位数 等。
记号
任给样本
x
1
,
x
2
,
⋯
,
x
n
{\displaystyle x_{1},x_{2},\cdots ,x_{n}}
,将其从小到大排成一列,记为:
x
(
1
)
,
x
(
2
)
,
⋯
,
x
(
n
)
.
{\displaystyle x_{(1)},x_{(2)},\cdots ,x_{(n)}.}
则其第一顺序统计量(即最小值)为
x
(
1
)
{\displaystyle x_{(1)}}
,第
n
{\displaystyle n}
顺序统计量(即最大值)为
x
(
n
)
{\displaystyle x_{(n)}}
。
概率
随机变量
X
(
k
)
{\displaystyle X_{(k)}}
的累积分布函数
F
k
(
x
)
{\displaystyle F_{k}(x)}
由下式给出[ 1]
F
k
(
x
)
=
∑
j
=
k
n
(
n
j
)
(
F
(
x
)
)
j
(
1
−
F
(
x
)
)
n
−
j
,
x
∈
R
,
{\displaystyle F_{k}(x)=\sum _{j=k}^{n}{\binom {n}{j}}(F(x))^{j}(1-F(x))^{n-j},\quad x\in \mathbb {R} ,}
将累积分布函数求导可得其概率密度函数
f
k
(
x
)
{\displaystyle f_{k}(x)}
为
f
k
(
x
)
=
n
!
(
k
−
1
)
!
(
n
−
k
)
!
(
F
(
x
)
)
k
−
1
(
1
−
F
(
x
)
)
n
−
k
f
(
x
)
,
x
∈
R
.
{\displaystyle f_{k}(x)={\frac {n!}{(k-1)!(n-k)!}}(F(x))^{k-1}(1-F(x))^{n-k}f(x),\quad x\in \mathbb {R} .}
连续均匀样本
从单位区间 上的连续型均匀分布 取得的样本,其各顺序统计量的边缘分布 属于Β分布 族。此外,任意几个顺序统计量的联合分布 也有简单的表示。本节将作介绍。藉赖累积分布函数 (cdf),该些结果亦可推广到任意连续分布。
本节中,
X
1
,
X
2
,
…
,
X
n
{\displaystyle X_{1},X_{2},\ldots ,X_{n}}
表示以
F
X
{\displaystyle F_{X}}
为cdf的一组随机样本 。记
U
i
=
F
X
(
X
i
)
{\displaystyle U_{i}=F_{X}(X_{i})}
,则
U
1
,
…
,
U
n
{\displaystyle U_{1},\ldots ,U_{n}}
是从标准连续均匀分布 抽取的对应样本。由
F
X
{\displaystyle F_{X}}
的单调性,后者的顺序统计量为
U
(
i
)
=
F
X
(
X
(
i
)
)
{\displaystyle U_{(i)}=F_{X}(X_{(i)})}
。
顺序统计量
U
(
k
)
{\displaystyle U_{(k)}}
的概率密度函数(pdf)等于[ 2]
f
U
(
k
)
(
u
)
=
n
!
(
k
−
1
)
!
(
n
−
k
)
!
u
k
−
1
(
1
−
u
)
n
−
k
.
{\displaystyle f_{U_{(k)}}(u)={n! \over (k-1)!(n-k)!}u^{k-1}(1-u)^{n-k}.}
换言之,均匀分布的第
k
{\displaystyle k}
顺序统计量遵循Β分布 [ 2] [ 3]
U
(
k
)
∼
Beta
(
k
,
n
+
1
−
k
)
.
{\displaystyle U_{(k)}\sim \operatorname {Beta} (k,n+1\mathbf {-} k).}
证明如下:欲使
U
(
k
)
{\displaystyle U_{(k)}}
介乎
u
{\displaystyle u}
与
u
+
d
u
{\displaystyle u+\mathrm {d} u}
之间,样本须恰有
k
−
1
{\displaystyle k-1}
个元素小于
u
{\displaystyle u}
,并至少有一个介乎
u
{\displaystyle u}
与
u
+
d
u
{\displaystyle u+\mathrm {d} u}
之间。该区间包含多于一个元素的概率已是
O
(
d
u
2
)
{\displaystyle O(\mathrm {d} u^{2})}
(使用了大O符号 ),故只需计算
(
0
,
u
)
{\displaystyle (0,u)}
、
(
u
,
u
+
d
u
)
{\displaystyle (u,u+du)}
、
(
u
+
d
u
,
1
)
{\displaystyle (u+du,1)}
三区间分别恰有
k
−
1
{\displaystyle k-1}
、
1
{\displaystyle 1}
、
n
−
k
{\displaystyle n-k}
个元素的概率。此即三项分布 概率
n
!
(
k
−
1
)
!
(
n
−
k
)
!
u
k
−
1
⋅
d
u
⋅
(
1
−
u
−
d
u
)
n
−
k
,
{\displaystyle {n! \over (k-1)!(n-k)!}u^{k-1}\cdot \mathrm {d} u\cdot (1-u-\mathrm {d} u)^{n-k},}
故上述pdf公式成立。该分布的平均值为
k
/
(
n
+
1
)
{\displaystyle k/(n+1)}
。
参考文献
^ Order Statistics . www.math.uah.edu. [2016-07-28 ] . (原始内容存档 于2017-08-13).
^ 2.0 2.1 Gentle, James E. Computational Statistics . Springer. 2009: 63. ISBN 9780387981444 (英语) .
^ Jones, M. C. Kumaraswamy's distribution: A beta-type distribution with some tractability advantages. Statistical Methodology. 2009, 6 (1): 70–81. doi:10.1016/j.stamet.2008.04.001 . As is well known, the beta distribution is the distribution of the m ’th order statistic from a random sample of size n from the uniform distribution (on (0,1)).