在機率論 和統計學 中,卜瓦松二項分布 是一個基於獨立 伯努利試驗 之和的離散機率分布 。這一概念以西梅翁·德尼·泊松 的名字命名。
卜瓦松二項分布 Poisson binomial 參數
n
∈
N
{\displaystyle n\in \mathbb {N} }
(試驗數)
p
∈
[
0
,
1
]
n
{\displaystyle \mathbf {p} \in [0,1]^{n}}
(各試驗的成功概率) 值域
k ∈ { 0, …, n } 機率質量函數
∑
A
∈
F
k
∏
i
∈
A
p
i
∏
j
∈
A
c
(
1
−
p
j
)
{\displaystyle \sum \limits _{A\in F_{k}}\prod \limits _{i\in A}p_{i}\prod \limits _{j\in A^{c}}(1-p_{j})}
累積分布函數
∑
l
=
0
k
∑
A
∈
F
l
∏
i
∈
A
p
i
∏
j
∈
A
c
(
1
−
p
j
)
{\displaystyle \sum \limits _{l=0}^{k}\sum \limits _{A\in F_{l}}\prod \limits _{i\in A}p_{i}\prod \limits _{j\in A^{c}}(1-p_{j})}
期望值
∑
i
=
1
n
p
i
{\displaystyle \sum \limits _{i=1}^{n}p_{i}}
變異數
σ
2
=
∑
i
=
1
n
(
1
−
p
i
)
p
i
{\displaystyle \sigma ^{2}=\sum \limits _{i=1}^{n}(1-p_{i})p_{i}}
偏度
1
σ
3
∑
i
=
1
n
(
1
−
2
p
i
)
(
1
−
p
i
)
p
i
{\displaystyle {\frac {1}{\sigma ^{3}}}\sum \limits _{i=1}^{n}(1-2p_{i})(1-p_{i})p_{i}}
峰度
1
σ
4
∑
i
=
1
n
(
1
−
6
(
1
−
p
i
)
p
i
)
(
1
−
p
i
)
p
i
{\displaystyle {\frac {1}{\sigma ^{4}}}\sum \limits _{i=1}^{n}(1-6(1-p_{i})p_{i})(1-p_{i})p_{i}}
動差母函數
∏
j
=
1
n
(
1
−
p
j
+
p
j
e
t
)
{\displaystyle \prod \limits _{j=1}^{n}(1-p_{j}+p_{j}e^{t})}
特徵函數
∏
j
=
1
n
(
1
−
p
j
+
p
j
e
i
t
)
{\displaystyle \prod \limits _{j=1}^{n}(1-p_{j}+p_{j}e^{it})}
機率母函數
∏
j
=
1
n
(
1
−
p
j
+
p
j
z
)
{\displaystyle \prod \limits _{j=1}^{n}(1-p_{j}+p_{j}z)}
換句話說,它是成功概率分別為
p
1
,
p
2
,
…
,
p
n
{\displaystyle p_{1},p_{2},\dots ,p_{n}}
的n 次獨立 伯努利試驗中,成功次數的機率分布 。普通二項分布 是卜瓦松二項分布在所有成功機率相同(即
p
1
=
p
2
=
⋯
=
p
n
{\displaystyle p_{1}=p_{2}=\cdots =p_{n}}
)時的特例。
定義
機率質量函數
n 次試驗中有k 次成功的機率可以寫為以下總和[ 1]
Pr
(
K
=
k
)
=
∑
A
∈
F
k
∏
i
∈
A
p
i
∏
j
∈
A
c
(
1
−
p
j
)
{\displaystyle \Pr(K=k)=\sum \limits _{A\in F_{k}}\prod \limits _{i\in A}p_{i}\prod \limits _{j\in A^{c}}(1-p_{j})}
其中
F
k
{\displaystyle F_{k}}
是 {1,2,3,..., n } 的全體k 元子集的集合。例如,如果n = 3,那麼
F
2
=
{
{
1
,
2
}
,
{
1
,
3
}
,
{
2
,
3
}
}
{\displaystyle F_{2}=\left\{\{1,2\},\{1,3\},\{2,3\}\right\}}
。
A
c
{\displaystyle A^{c}}
是
A
{\displaystyle A}
的補集 ,也就是
A
c
=
{
1
,
2
,
3
,
…
,
n
}
∖
A
{\displaystyle A^{c}=\{1,2,3,\dots ,n\}\setminus A}
。
F
k
{\displaystyle F_{k}}
將包含
n
!
/
(
(
n
−
k
)
!
k
!
)
{\displaystyle n!/((n-k)!k!)}
個元素,因此上述總和在實務中是很難計算的,除非試驗次數n 很小(例如,如果n = 30,
F
15
{\displaystyle F_{15}}
包含超過1020 個元素)。然而,還有其他更有效的方法可以計算
Pr
(
K
=
k
)
{\displaystyle \Pr(K=k)}
。
只要成功機率都不等於 1,就可以使用遞歸公式計算出k 次成功的機率:[ 2] [ 3]
Pr
(
K
=
k
)
=
{
∏
i
=
1
n
(
1
−
p
i
)
k
=
0
1
k
∑
i
=
1
k
(
−
1
)
i
−
1
Pr
(
K
=
k
−
i
)
T
(
i
)
k
>
0
{\displaystyle \Pr(K=k)={\begin{cases}\prod \limits _{i=1}^{n}(1-p_{i})&k=0\\{\frac {1}{k}}\sum \limits _{i=1}^{k}(-1)^{i-1}\Pr(K=k-i)T(i)&k>0\\\end{cases}}}
其中
T
(
i
)
=
∑
j
=
1
n
(
p
j
1
−
p
j
)
i
.
{\displaystyle T(i)=\sum \limits _{j=1}^{n}\left({\frac {p_{j}}{1-p_{j}}}\right)^{i}.}
遞歸公式在數值上不穩定 ,在
n
{\displaystyle n}
約大於20時應避免使用。另一種方法是使用分治算法 :假設
n
=
2
b
{\displaystyle n=2^{b}}
是2的冪,並以
f
(
p
i
:
j
)
{\displaystyle f(p_{i:j})}
表示成功概率為
p
i
,
…
,
p
j
{\displaystyle p_{i},\dots ,p_{j}}
的卜瓦松二項分布,
∗
{\displaystyle *}
表示卷積 ,則
f
(
p
1
:
2
b
)
=
f
(
p
1
:
2
b
−
1
)
∗
f
(
p
2
b
−
1
+
1
:
2
b
)
{\displaystyle f(p_{1:2^{b}})=f(p_{1:2^{b-1}})*f(p_{2^{b-1}+1:2^{b}})}
。
另一種可能性是使用離散傅立葉變換 。 [ 4]
Pr
(
K
=
k
)
=
1
n
+
1
∑
l
=
0
n
C
−
l
k
∏
m
=
1
n
(
1
+
(
C
l
−
1
)
p
m
)
{\displaystyle \Pr(K=k)={\frac {1}{n+1}}\sum \limits _{l=0}^{n}C^{-lk}\prod \limits _{m=1}^{n}\left(1+(C^{l}-1)p_{m}\right)}
其中
C
=
exp
(
2
i
π
n
+
1
)
{\displaystyle C=\exp \left({\frac {2i\pi }{n+1}}\right)}
,
i
=
−
1
{\displaystyle i={\sqrt {-1}}}
。
Chen和Liu在「卜瓦松二項式和條件伯努利分布的統計應用」中描述了其他方法。 [ 5]
特性
均值和方差
由於卜瓦松二項式分布變數是n 個獨立伯努利分布變數的總和,因此其均值和方差將是n 個伯努利分布的均值和方差之和:
μ
=
∑
i
=
1
n
p
i
{\displaystyle \mu =\sum \limits _{i=1}^{n}p_{i}}
σ
2
=
∑
i
=
1
n
(
1
−
p
i
)
p
i
{\displaystyle \sigma ^{2}=\sum \limits _{i=1}^{n}(1-p_{i})p_{i}}
當平均值(
μ
{\displaystyle \mu }
)和次數(n )為定值,且所有成功機率相等時,我們會得到二項式分布,變異數此時最大。當平均值固定時,變異數的上界為具有相同均值的卜瓦松分布 的變異數,該上界在n 趨於無窮大時可以漸近取得。[來源請求]
熵
卜瓦松二項式分佈的熵 沒有簡單的公式,但熵的上限是具有相同數字參數和相同均值的二項式分佈的熵。因此,熵也不大於相同均值的卜瓦松分佈的熵。
謝普-奧爾金凹性猜想由勞倫斯·謝普 和英格拉姆·奧爾金 於1981年提出,指出卜瓦松二項式分佈的熵是成功機率
p
1
,
p
2
,
…
,
p
n
{\displaystyle p_{1},p_{2},\dots ,p_{n}}
的凹函數。這個猜想由 Erwan Hillion 和 Oliver Johnson 於2015年證明。1981年同一篇論文亦提出謝普-奧爾金單調性猜想:若
p
i
≤
1
/
2
{\displaystyle p_{i}\leq 1/2}
,則熵對
p
i
{\displaystyle p_{i}}
為單調遞增。這個猜想也被 Hillion 和 Johnson 於 2019 年證明。
參考資料
^ Wang, Y. H. On the number of successes in independent trials (PDF) . Statistica Sinica. 1993, 3 (2): 295–312 [2023-07-29 ] . (原始內容存檔 (PDF) 於2016-03-03).
^
Shah, B. K. On the distribution of the sum of independent integer valued random variables. American Statistician. 1994, 27 (3): 123–124. JSTOR 2683639 .
^ Chen, X. H.; A. P. Dempster; J. S. Liu. Weighted finite population sampling to maximize entropy (PDF) . Biometrika. 1994, 81 (3): 457 [2023-07-29 ] . doi:10.1093/biomet/81.3.457 . (原始內容存檔 (PDF) 於2022-01-07).
^
Fernandez, M.; S. Williams. Closed-Form Expression for the Poisson-Binomial Probability Density Function. IEEE Transactions on Aerospace and Electronic Systems. 2010, 46 (2): 803–817. Bibcode:2010ITAES..46..803F . S2CID 1456258 . doi:10.1109/TAES.2010.5461658 .
^ Chen, S. X.; J. S. Liu. Statistical Applications of the Poisson-Binomial and conditional Bernoulli distributions . Statistica Sinica. 1997, 7 : 875–892.