卜瓦松二項分布

卜瓦松二項分布
Poisson binomial
參數	（試驗數）; （各試驗的成功概率）
值域	k ∈ { 0, …, n }
機率質量函數
累積分布函數
期望值
變異數
偏度
峰度
動差母函數
特徵函數
機率母函數

在機率論和統計學中，卜瓦松二項分布是一個基於獨立伯努利試驗之和的離散機率分布。這一概念以西梅翁·德尼·泊松的名字命名。

換句話說，它是成功概率分別為 $p_{1},p_{2},\dots ,p_{n}$ 的n次獨立伯努利試驗中，成功次數的機率分布。普通二項分布是卜瓦松二項分布在所有成功機率相同（即 $p_{1}=p_{2}=\cdots =p_{n}$ ）時的特例。

定義

機率質量函數

n次試驗中有k次成功的機率可以寫為以下總和^[1]

\Pr(K=k)=\sum \limits _{A\in F_{k}}\prod \limits _{i\in A}p_{i}\prod \limits _{j\in A^{c}}(1-p_{j})

其中 $F_{k}$ 是 {1,2,3,..., n } 的全體k元子集的集合。例如，如果n = 3，那麼 $F_{2}=\left\{\{1,2\},\{1,3\},\{2,3\}\right\}$ 。 $A^{c}$ 是 $A$ 的補集，也就是 $A^{c}=\{1,2,3,\dots ,n\}\setminus A$ 。

$F_{k}$ 將包含 $n!/((n-k)!k!)$ 個元素，因此上述總和在實務中是很難計算的，除非試驗次數n很小（例如，如果n = 30， $F_{15}$ 包含超過10²⁰個元素）。然而，還有其他更有效的方法可以計算 $\Pr(K=k)$ 。

只要成功機率都不等於 1，就可以使用遞歸公式計算出k次成功的機率：^[2]^[3]

\Pr(K=k)={\begin{cases}\prod \limits _{i=1}^{n}(1-p_{i})&k=0\\{\frac {1}{k}}\sum \limits _{i=1}^{k}(-1)^{i-1}\Pr(K=k-i)T(i)&k>0\\\end{cases}}

其中

T(i)=\sum \limits _{j=1}^{n}\left({\frac {p_{j}}{1-p_{j}}}\right)^{i}.

遞歸公式在數值上不穩定，在 $n$ 約大於20時應避免使用。另一種方法是使用分治算法：假設 $n=2^{b}$ 是2的冪，並以 $f(p_{i:j})$ 表示成功概率為 $p_{i},\dots ,p_{j}$ 的卜瓦松二項分布， $*$ 表示卷積，則 $f(p_{1:2^{b}})=f(p_{1:2^{b-1}})*f(p_{2^{b-1}+1:2^{b}})$ 。

另一種可能性是使用離散傅立葉變換。 ^[4]

\Pr(K=k)={\frac {1}{n+1}}\sum \limits _{l=0}^{n}C^{-lk}\prod \limits _{m=1}^{n}\left(1+(C^{l}-1)p_{m}\right)

其中 $C=\exp \left({\frac {2i\pi }{n+1}}\right)$ ， $i={\sqrt {-1}}$ 。

Chen和Liu在「卜瓦松二項式和條件伯努利分布的統計應用」中描述了其他方法。 ^[5]

特性

均值和方差

由於卜瓦松二項式分布變數是n個獨立伯努利分布變數的總和，因此其均值和方差將是n個伯努利分布的均值和方差之和：

\mu =\sum \limits _{i=1}^{n}p_{i}

\sigma ^{2}=\sum \limits _{i=1}^{n}(1-p_{i})p_{i}

當平均值（ $\mu$ ）和次數（n）為定值，且所有成功機率相等時，我們會得到二項式分布，變異數此時最大。當平均值固定時，變異數的上界為具有相同均值的卜瓦松分布的變異數，該上界在n趨於無窮大時可以漸近取得。^{[來源請求]}

熵

卜瓦松二項式分佈的熵沒有簡單的公式，但熵的上限是具有相同數字參數和相同均值的二項式分佈的熵。因此，熵也不大於相同均值的卜瓦松分佈的熵。

謝普-奧爾金凹性猜想由勞倫斯·謝普（英語：Lawrence Shepp）和英格拉姆·奧爾金（英語：Ingram Olkin）於1981年提出，指出卜瓦松二項式分佈的熵是成功機率 $p_{1},p_{2},\dots ,p_{n}$ 的凹函數。這個猜想由 Erwan Hillion 和 Oliver Johnson 於2015年證明。1981年同一篇論文亦提出謝普-奧爾金單調性猜想：若 $p_{i}\leq 1/2$ ，則熵對 $p_{i}$ 為單調遞增。這個猜想也被 Hillion 和 Johnson 於 2019 年證明。

參考資料

^ Wang, Y. H. On the number of successes in independent trials (PDF). Statistica Sinica. 1993, 3 (2): 295–312 [2023-07-29]. （原始內容存檔 (PDF)於2016-03-03）.
^ Shah, B. K. On the distribution of the sum of independent integer valued random variables. American Statistician. 1994, 27 (3): 123–124. JSTOR 2683639.
^ Chen, X. H.; A. P. Dempster; J. S. Liu. Weighted finite population sampling to maximize entropy (PDF). Biometrika. 1994, 81 (3): 457 [2023-07-29]. doi:10.1093/biomet/81.3.457. （原始內容存檔 (PDF)於2022-01-07）.
^ Fernandez, M.; S. Williams. Closed-Form Expression for the Poisson-Binomial Probability Density Function. IEEE Transactions on Aerospace and Electronic Systems. 2010, 46 (2): 803–817. Bibcode:2010ITAES..46..803F. S2CID 1456258. doi:10.1109/TAES.2010.5461658.
^ Chen, S. X.; J. S. Liu. Statistical Applications of the Poisson-Binomial and conditional Bernoulli distributions. Statistica Sinica. 1997, 7: 875–892.

[1] Wang, Y. H. On the number of successes in independent trials (PDF). Statistica Sinica. 1993, 3 (2): 295–312 [2023-07-29]. （原始內容存檔 (PDF)於2016-03-03）.

[2] Shah, B. K. On the distribution of the sum of independent integer valued random variables. American Statistician. 1994, 27 (3): 123–124. JSTOR 2683639.

[3] Chen, X. H.; A. P. Dempster; J. S. Liu. Weighted finite population sampling to maximize entropy (PDF). Biometrika. 1994, 81 (3): 457 [2023-07-29]. doi:10.1093/biomet/81.3.457. （原始內容存檔 (PDF)於2022-01-07）.

[4] Fernandez, M.; S. Williams. Closed-Form Expression for the Poisson-Binomial Probability Density Function. IEEE Transactions on Aerospace and Electronic Systems. 2010, 46 (2): 803–817. Bibcode:2010ITAES..46..803F. S2CID 1456258. doi:10.1109/TAES.2010.5461658.

[5] Chen, S. X.; J. S. Liu. Statistical Applications of the Poisson-Binomial and conditional Bernoulli distributions. Statistica Sinica. 1997, 7: 875–892.

[1]

[2]

[3]

[4]

[5]

參數	$n\in \mathbb {N}$ （試驗數） $\mathbf {p} \in [0,1]^{n}$ （各試驗的成功概率）
值域	k ∈ { 0, …, n }
機率質量函數	$\sum \limits _{A\in F_{k}}\prod \limits _{i\in A}p_{i}\prod \limits _{j\in A^{c}}(1-p_{j})$
累積分布函數	$\sum \limits _{l=0}^{k}\sum \limits _{A\in F_{l}}\prod \limits _{i\in A}p_{i}\prod \limits _{j\in A^{c}}(1-p_{j})$
期望值	$\sum \limits _{i=1}^{n}p_{i}$
變異數	$\sigma ^{2}=\sum \limits _{i=1}^{n}(1-p_{i})p_{i}$
偏度	${\frac {1}{\sigma ^{3}}}\sum \limits _{i=1}^{n}(1-2p_{i})(1-p_{i})p_{i}$
峰度	${\frac {1}{\sigma ^{4}}}\sum \limits _{i=1}^{n}(1-6(1-p_{i})p_{i})(1-p_{i})p_{i}$
動差母函數	$\prod \limits _{j=1}^{n}(1-p_{j}+p_{j}e^{t})$
特徵函數	$\prod \limits _{j=1}^{n}(1-p_{j}+p_{j}e^{it})$
機率母函數	$\prod \limits _{j=1}^{n}(1-p_{j}+p_{j}z)$