在機率論 中,霍夫丁不等式(英語:Hoeffding's inequality ) 適用於有界的隨機變數,提供了有界獨立隨機變數之和偏離其期望值超過一定數量的機率的上限,即
max
P
(
X
¯
−
E
[
X
¯
]
≥
t
)
{\displaystyle \max \mathbb {P} ({\overline {X}}-\mathbb {E} [{\overline {X}}]\geq t)}
。霍夫丁不等式在1963年由瓦西里·霍夫丁 (Wassily Hoeffding)證明。
Hoeffding不等式是吾妻不等式 和McDiarmid不等式的一個特例。它類似於切爾諾夫界,但往往不那麼尖銳,特別是當隨機變數的變異數很小時。 它與伯恩斯坦不等式 相似,但無法與之相比。
闡述
設有兩兩獨立的一系列隨機變數
X
1
,
…
,
X
n
{\displaystyle X_{1},\dots ,X_{n}\!}
。假設對所有的
1
≤
i
≤
n
{\displaystyle 1\leq i\leq n}
,
X
i
{\displaystyle X_{i}}
變量幾乎必然 滿足
a
i
⩽
X
i
⩽
b
i
,
{\displaystyle a_{i}\leqslant X_{i}\leqslant b_{i},}
即
P
(
X
i
∈
[
a
i
,
b
i
]
)
≈
1.
{\displaystyle \mathbb {P} (X_{i}\in [a_{i},b_{i}])\approx 1.\!}
考慮這些隨機變數的總和,
S
n
=
∑
i
=
1
n
X
i
=
X
1
+
X
2
+
X
3
+
⋯
+
X
n
−
1
+
X
n
.
{\displaystyle S_{n}=\sum _{i=1}^{n}X_{i}=X_{1}+X_{2}+X_{3}+\cdots +X_{n-1}+X_{n}.}
然後霍夫丁不等式指出,對於所有
t
>
0
{\displaystyle t>0}
有:
P
(
S
n
−
E
[
S
n
]
⩾
t
)
⩽
exp
(
−
2
t
2
∑
i
=
1
n
(
b
i
−
a
i
)
2
)
{\displaystyle \mathbb {P} (S_{n}-\mathbb {E} [S_{n}]\geqslant t)\leqslant \exp \left(-{\frac {2t^{2}}{\textstyle \sum _{i=1}^{n}(b_{i}-a_{i})^{2}\displaystyle }}\right)}
P
(
|
S
n
−
E
[
S
n
]
|
⩾
t
)
⩽
2
exp
(
−
2
t
2
∑
i
=
1
n
(
b
i
−
a
i
)
2
)
{\displaystyle \mathbb {P} (|S_{n}-\mathbb {E} [S_{n}]|\geqslant t)\leqslant 2\exp \left(-{\frac {2t^{2}}{\textstyle \sum _{i=1}^{n}(b_{i}-a_{i})^{2}\displaystyle }}\right)}
這裡
E
[
S
n
]
{\displaystyle \mathbb {E} [S_{n}]}
是
S
n
{\displaystyle S_{n}}
的期望值 。
值得注意的是,若
X
i
{\displaystyle X_{i}}
為抽樣獲得,該不等式仍成立;但在這種情況下,隨機變數不再是獨立的。這一說法的證據可以在 Hoeffding [ 1] 的論文中找到。對於抽樣的稍微更好的上界,可參見Serfling(1974)[ 2] 的論文。
另一種形式
設有兩兩獨立的一系列隨機變數
X
1
,
…
,
X
n
{\displaystyle X_{1},\dots ,X_{n}\!}
。[ 3] 那麼這n個隨機變數的經驗期望值:
X
¯
=
X
1
+
⋯
+
X
n
n
{\displaystyle {\overline {X}}={\frac {X_{1}+\cdots +X_{n}}{n}}}
滿足以下的不等式[ 4] :
P
(
X
¯
−
E
[
X
¯
]
≥
t
)
≤
exp
(
−
2
t
2
n
2
∑
i
=
1
n
(
b
i
−
a
i
)
2
)
,
{\displaystyle \mathbb {P} ({\overline {X}}-\mathbb {E} [{\overline {X}}]\geq t)\leq \exp \left(-{\frac {2t^{2}n^{2}}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}\right),\!}
P
(
|
X
¯
−
E
[
X
¯
]
|
≥
t
)
≤
2
exp
(
−
2
t
2
n
2
∑
i
=
1
n
(
b
i
−
a
i
)
2
)
,
{\displaystyle \mathbb {P} (|{\overline {X}}-\mathbb {E} [{\overline {X}}]|\geq t)\leq 2\exp \left(-{\frac {2t^{2}n^{2}}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}\right),\!}
特別地
霍夫丁不等式的證明可以推廣到任何次高斯分布。
回想一下,隨機變數
X
{\displaystyle X}
服從亞高斯分布 ,是否存在
c
>
0
{\displaystyle c>0}
使得,
P
(
|
X
|
⩾
t
)
⩽
2
e
−
c
t
2
{\displaystyle \mathbb {P} (\left\vert X\right\vert \geqslant t)\leqslant 2e^{-ct^{2}}}
成立。
對於任意有界變量
X
,
{\displaystyle X,}
t
>
T
{\displaystyle t>T}
(
T
{\displaystyle T}
足夠大),有
P
(
|
X
|
⩾
t
)
=
0
⩽
2
e
−
c
t
2
{\displaystyle \mathbb {P} (|X|\geqslant t)=0\leqslant 2e^{-ct^{2}}}
。對於任意的
t
⩽
T
{\displaystyle t\leqslant T}
有
2
e
−
c
T
2
⩽
2
e
−
c
t
2
{\displaystyle 2e^{-cT^{2}}\leqslant 2e^{-ct^{2}}}
,取
c
=
ln
2
T
2
{\displaystyle c={\frac {\ln 2}{T^{2}}}}
則有
P
(
|
X
|
⩾
t
)
⩽
1
⩽
2
e
−
c
T
2
⩽
2
e
−
c
t
2
,
{\displaystyle \mathbb {P} (|X|\geqslant t)\leqslant 1\leqslant 2e^{-cT^{2}}\leqslant 2e^{-ct^{2}},}
所以每個有界變量都是亞高斯變量。
對於隨機變數
X
{\displaystyle X}
,下式範數是有限的,若且唯若
X
{\displaystyle X}
是亞高斯:
‖
X
‖
ψ
2
=
d
e
f
inf
{
c
≥
0
:
E
[
e
X
2
c
2
]
}
.
{\displaystyle \lVert X\rVert _{\psi _{2}}{\overset {\underset {\mathrm {def} }{}}{=}}\inf\{c\geq 0:\mathbb {E} [e^{\frac {X^{2}}{c^{2}}}]\}.}
然後設
X
1
,
⋯
,
X
n
{\displaystyle X_{1},\cdots ,X_{n}}
為零均值 獨立亞高斯隨機變數,霍夫丁不等式 的一般版本指出:
P
(
|
∑
i
=
1
n
X
i
|
⩾
t
)
⩽
2
exp
(
−
c
t
2
∑
i
=
1
n
‖
X
i
‖
ψ
2
2
)
,
{\displaystyle \mathbb {P} (|\sum _{i=1}^{n}X_{i}|\geqslant t)\leqslant 2\exp(-{\frac {ct^{2}}{\textstyle \sum _{i=1}^{n}\displaystyle \lVert X_{i}\rVert _{\psi _{2}}^{2}}}),}
其中
c
>
0
{\displaystyle c>0}
且為絕對常數[ 5] 。
證明
霍夫丁界的證明與切爾諾夫界等集中不等式類似[ 6] 。主要區別在於使用霍夫丁引理 :
假設
X
{\displaystyle X}
是一個真正的隨機變數,那麼幾乎必然
X
∈
[
a
,
b
]
{\displaystyle X\in \left[a,b\right]}
。然後
E
[
e
s
(
X
−
E
[
X
]
)
]
⩽
exp
(
1
8
s
2
(
b
−
a
)
2
)
.
{\displaystyle \mathbb {E} \left[e^{s\left(X-\mathbb {E} \left[X\right]\right)}\right]\leqslant \exp \left({\tfrac {1}{8}}s^{2}(b-a)^{2}\right).}
使用這個引理,我們可以證明霍夫丁不等式。如定理陳述,假設
X
1
,
⋯
,
X
n
{\displaystyle X_{1},\cdots ,X_{n}}
為
n
{\displaystyle n}
個獨立隨機變數,
X
i
∈
[
a
i
,
b
i
]
,
{\displaystyle X_{i}\in \left[a_{i},b_{i}\right],}
s
.
t
.
i
∈
N
+
{\displaystyle s.t.\ i\in N_{+}}
幾乎必然 。設
S
n
=
X
1
+
⋯
+
X
n
.
{\displaystyle S_{n}=X_{1}+\cdots +X_{n}.}
那麼對於
s
>
0
{\displaystyle s>0}
且
t
>
0
{\displaystyle t>0}
, 聯立馬可夫不等式 和
X
i
{\displaystyle X_{i}}
的獨立性可得:
P
(
S
n
−
E
[
S
n
]
≥
t
)
=
P
(
exp
(
s
(
S
n
−
E
[
S
n
]
)
)
≥
exp
(
s
t
)
)
≤
exp
(
−
s
t
)
E
[
exp
(
s
(
S
n
−
E
[
S
n
]
)
)
]
=
exp
(
−
s
t
)
∏
i
=
1
n
E
[
exp
(
s
(
X
i
−
E
[
X
i
]
)
)
]
≤
exp
(
−
s
t
)
∏
i
=
1
n
exp
(
s
2
(
b
i
−
a
i
)
2
8
)
=
exp
(
−
s
t
+
1
8
s
2
∑
i
=
1
n
(
b
i
−
a
i
)
2
)
{\displaystyle {\begin{aligned}\operatorname {P} \left(S_{n}-\mathrm {E} \left[S_{n}\right]\geq t\right)&=\operatorname {P} \left(\exp(s(S_{n}-\mathrm {E} \left[S_{n}\right]))\geq \exp(st)\right)\\&\leq \exp(-st)\mathrm {E} \left[\exp(s(S_{n}-\mathrm {E} \left[S_{n}\right]))\right]\\&=\exp(-st)\prod _{i=1}^{n}\mathrm {E} \left[\exp(s(X_{i}-\mathrm {E} \left[X_{i}\right]))\right]\\&\leq \exp(-st)\prod _{i=1}^{n}\exp {\Big (}{\frac {s^{2}(b_{i}-a_{i})^{2}}{8}}{\Big )}\\&=\exp \left(-st+{\tfrac {1}{8}}s^{2}\sum _{i=1}^{n}(b_{i}-a_{i})^{2}\right)\ \end{aligned}}}
此上界對於
s
{\displaystyle s}
的值是最佳的,最小值在指數
O
(
e
n
)
{\displaystyle O(e^{n})}
範圍內。這可以通過最佳化二次曲線輕鬆完成,給出
s
=
4
t
∑
i
=
1
n
(
b
i
−
a
i
)
2
.
{\displaystyle s={\frac {4t}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}.}
為這個值
s
{\displaystyle s}
編寫上面的界限,我們得到所需的界限:
P
(
S
n
−
E
[
S
n
]
≥
t
)
≤
exp
(
−
2
t
2
∑
i
=
1
n
(
b
i
−
a
i
)
2
)
.
{\displaystyle \operatorname {P} \left(S_{n}-\mathrm {E} \left[S_{n}\right]\geq t\right)\leq \exp \left(-{\frac {2t^{2}}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}\right).}
用法
參見
參考文獻
^ Hoeffding, Wassily. Probability Inequalities for Sums of Bounded Random Variables . Journal of the American Statistical Association. 1963-03, 58 (301) [2023-07-29 ] . ISSN 0162-1459 . doi:10.1080/01621459.1963.10500830 . (原始內容存檔 於2023-06-19) (英語) .
^ Serfling, R. J. Probability Inequalities for the Sum in Sampling without Replacement . The Annals of Statistics. 1974-01, 2 (1) [2023-07-29 ] . ISSN 0090-5364 . doi:10.1214/aos/1176342611 . (原始內容存檔 於2023-07-29).
^ 集中不等式 . 維基百科,自由的百科全書. 2022-03-08 (中文) .
^ Wassily Hoeffding, Probability inequalities for sums of bounded random variables, Journal of the American Statistical Association 58 (301): 13–30, March 1963. (JSTOR )(英文)
^ Vershynin, Roman. High-dimensional probability: an introduction with applications in data science . Cambridge University Press. 2018. ISBN 978-1-108-41519-4 .
^ Boucheron, Stéphane; Lugosi, Gábor; Massart, Pascal. Concentration inequalities: a nonasymptotic theory of independence . Oxford: Oxford university press. 2013 [2023-07-29 ] . ISBN 978-0-19-953525-5 . (原始內容存檔 於2022-07-30).
^ Hoeffding's inequality . Wikipedia. 2023-07-02 (英語) .