Chặn Chernoff
Trong lý thuyết xác suất, chặn Chernoff, đặt tên theo Herman Chernoff, cho một chặn trên giảm theo hàm mũ của đuôi phân phối của tổng nhiều biến ngẫu nhiên độc lập. Nó thường mạnh hơn các bất đẳng thức sử dụng mômen bậc nhất hay bậc hai chẳng hạn như bất đẳng thức Markov hay bất đẳng thức Chebyshev.
Nó có liên hệ với bất đẳng thức Bernstein, và bất đẳng thức Hoeffding.
Sau đây là một ví dụ trường hợp đặc biệt của chặn Chernoff. Giả sử X1, ..., Xn là các biến ngẫu nhiên Bernoulli độc lập với xác suất p > 1/2. Khi đó, nếu gọi xác suất xảy ra ít nhất n/2 sự kiện
là P, thì
Chặn Chernoff cho thấy P có chặn dưới như sau:
Dưới đây, trường hợp này sẽ được tổng quát hóa theo nhiều hướng khác nhau. Có nhiều phiên bản khác nhau của chặn Chernoff: sai số có thể là sai số tuyệt đối hoặc sai số tương đối so với giá trị kỳ vọng.
Mục lục |
Bước thứ nhất trong chứng minh của chặn Chernoff [sửa]
Chặn Chernoff cho biến ngẫu nhiên X là tổng của n biến ngẫu nhiên độc lập
, được chứng minh bằng cách xem xét phân bố của etX với giá trị thích hợp của t. Phương pháp này được áp dụng đầu tiên bởi Sergei Bernstein để chứng minh bất đẳng thức Bernstein.
Theo bất đẳng thức Markov và tính chất độc lập, ta có bất đẳng thức sau:
Với mọi t > 0,
Do có thể chọn t tùy ý, ta có
Tương tự như vậy,
Do đó,
Phát biểu và chứng minh [sửa]
Trường hợp sai số tuyệt đối [sửa]
Định lý sau đây được chứng minh bởi Wassily Hoeffding và được gọi là định lý Chernoff-Hoeffding.
Giả sử các biến
là độc lập và có cùng phân bố. Giả sử
,
, và
. Khi đó
và
trong đó
là khoảng cách Kullback-Leibler giữa các biến ngẫu nhiên Bernoulli với tham số
và
.
Chứng minh [sửa]
Chứng minh xuất phát từ bất đẳng thức (+) ở trên. Đặt
. Chọn a = mq và thay vào (+), ta có:
Do
,
, ta có
Bằng cách lấy lôgarit và tính đạo hàm, ta có thể tính được giá trị infimum ở trên thông qua đạo hàm sau
Giải khi đạo hàm ở trên bằng 0 để tính infimum, ta có
nên
.
Do đó,
.
Vì
, ta có
, nên giá trị của
là hợp lệ. Sau khi đã giải được
, ta thay giá trị này vào phương trình ở trên và thu được
Tóm lại, ta thu được kết quả cần chứng minh như sau
Để có bất đẳng thức thứ hai, ta xét các biến
, và áp dụng chứng minh tương tự.
Chặn đơn giản hơn [sửa]
Có thể thu được một chặn đơn giản hơn bằng cách áp dụng
. Mệnh đề này có thể được chứng minh bằng tính chất lồi của
và tính chất
. Chặn này là một trường hợp đặc biệt của bất đẳng thức Hoeffding. Đôi khi chặn
cho
cũng được sử dụng.
Trường hợp sai số tương đối [sửa]
Giả sử
là các biến ngẫu nhiên độc lập nhận giá trị 0 hoặc 1. Giả sử
. Khi đó, nếu đặt
và
là giá trị kỳ vọng của
, thì với mọi 
Chứng minh [sửa]
Theo (+),
Đẳng thức ở dòng thứ 3 là do
nhận giá trị
với xác suất
và giá trị
với xác suất
.
Viết lại
là
và áp dụng
(với bất đẳng thức chặt khi
) cho
, ta có
Chọn
nên
khi
. Thay giá trị của
vào biểu thức trên, ta thu được
Đây chính là bất đẳng thức cần chứng minh. Bằng một chứng minh tương tự, ta có
Chặn Chernoff cho ma trận [sửa]
Rudolf Ahlswede và Andreas Winter đã chứng minh một phiên bản của chặn Chernoff cho các biến ngẫu nhiên nhận giá trị ma trận.[1]
Xem thêm [sửa]
- Bất đẳng thức Bernstein (lý thuyết xác suất)
- Bất đẳng thức Hoeffding
- Bất đẳng thức Markov
- Bất đẳng thức Chebyshev
Ghi chú [sửa]
Tài liệu tham khảo [sửa]
- Ahlswede, R.; Winter, A. (2003). “Strong Converse for Identification via Quantum Channels”. IEEE Transactions on Information Theory 48 (3): 569–579. arXiv:quant-ph/0012127.
- Chernoff, H. (1952). “A Measure of Asymptotic Efficiency for Tests of a Hypothesis Based on the sum of Observations”. Annals of Mathematical Statistics 23 (4): 493–507. doi:10.1214/aoms/1177729330. JSTOR 2236576. MR 57518. Zbl 0048.11804.
- Hoeffding, W. (1963). “Probability Inequalities for Sums of Bounded Random Variables”. Journal of the American Statistical Association 58 (301): 13–30. doi:10.2307/2282952. JSTOR 2282952.
- Chernoff, H. (1981). “A Note on an Inequality Involving the Normal Distribution”. The Annals of Probability 9 (3): 533. doi:10.1214/aop/1176994428. JSTOR 2243541. MR 614640. Zbl 0457.60014.
- Hagerup, T. (1990). “A guided tour of Chernoff bounds”. Information Processing Letters 33 (6): 305. doi:10.1016/0020-0190(90)90214-I.
- Mitzenmacher, M.; Upfal, E. (2005). Probability and Computing: Randomized Algorithms and Probabilistic Analysis. ISBN 9780521835404.
- Nielsen, F. (2011). "Chernoff information of exponential families". arΧiv:1102.2684 [cs.IT].


![\Pr\left[X \ge a\right] = \Pr\left[e^{tX} \ge e^{ta}\right] \le \frac{ \mathbf{E} \left[e^{tX} \right]}{e^{ta}} = {\prod_i E[e^{tX_i}]\over e^{ta}}.](http://upload.wikimedia.org/math/3/a/1/3a19e889eced1455c62ea5ad6d63d8b5.png)
![\Pr\left[X \ge a\right] \leq \min_{t>0} {\prod_i E[e^{tX_i}] \over e^{ta}}. \quad (+)](http://upload.wikimedia.org/math/6/8/c/68c39de747bf6679a9065b365d762f5f.png)
![\Pr\left[X \le a\right] = \Pr\left[e^{-tX} \ge e^{-ta}\right]](http://upload.wikimedia.org/math/4/b/a/4bae3d1db62d5384e5d9c4329cda7aa7.png)
![\Pr\left[X \le a\right] \leq \min_{t>0} e^{ta} \prod_i E[e^{-tX_i}] . \quad (++)](http://upload.wikimedia.org/math/9/2/2/92219af464d96fce127c5a2767e3cd76.png)
![\begin{align}
&\Pr\left[ \frac 1 m \sum X_i \geq p + \varepsilon \right] \\
&\qquad\leq \left ( {\left (\frac{p}{p + \varepsilon}\right )}^{p+\varepsilon} {\left (\frac{1 - p}{1 -p - \varepsilon}\right )}^{1 - p- \varepsilon}\right ) ^m = e^{ - D(p+\varepsilon\|p) m}
\end{align}](http://upload.wikimedia.org/math/9/7/9/9793d242cfdd24b255ac9e7a78dbf304.png)
![\begin{align}
&\Pr\left[ \frac 1 m \sum X_i \leq p - \varepsilon \right] \\
&\qquad\leq \left ( {\left (\frac{p}{p - \varepsilon}\right )}^{p-\varepsilon} {\left (\frac{1 - p}{1 -p + \varepsilon}\right )}^{1 - p+ \varepsilon}\right ) ^m = e^{ - D(p-\varepsilon\|p) m},
\end{align}](http://upload.wikimedia.org/math/3/5/1/351197aef50bc71b58cb8060f43f5962.png)

![\Pr\left[ \frac{1}{m} \sum X_i \ge q\right] \le \inf_{t>0} \frac{E \left[\prod e^{t X_i}\right]}{e^{tmq}}
= \inf_{t>0} \left[\frac{ E\left[e^{tX_i} \right] }{e^{tq}}\right]^m .](http://upload.wikimedia.org/math/2/2/9/229d15bdd41dae46e3adfd6689b66fe6.png)
![\left[\frac{ E\left[e^{tX_i} \right] }{e^{tq}}\right]^m
= \left[\frac{p e^t + (1-p)}{e^{tq} }\right]^m
= [pe^{(1-q)t} + (1-p)e^{-qt}]^m.](http://upload.wikimedia.org/math/8/2/5/8253e790764153366a0b9505d8154a4a.png)


![\begin{align}
&\log(pe^{(1-q)t} + (1-p)e^{-qt}) = \log[e^{-qt}(1-p+pe^t)] \\
&\qquad = \log\left[e^{-q \log\left(\frac{(1-p)q}{(1-q)p}\right)}\right] +
\log\left[1-p+pe^{\log\left(\frac{1-p}{1-q}\right)}e^{\log\frac{q}{p}}\right] \\
&\qquad = -q\log\frac{1-p}{1-q} -q \log\frac{q}{p} + \log\left[1-p+ p\left(\frac{1-p}{1-q}\right)\frac{q}{p}\right] \\
&\qquad = -q\log\frac{1-p}{1-q} -q \log\frac{q}{p} + \log\left[\frac{(1-p)(1-q)}{1-q}+\frac{(1-p)q}{1-q}\right] \\
&\qquad = -q\log\frac{q}{p} + (1-q)\log\frac{1-p}{1-q} = -D(q \| p).
\end{align}](http://upload.wikimedia.org/math/f/7/c/f7c1c492a44353a9e0951de5e3c2da27.png)
![\Pr\left[\frac{1}{m}\sum X_i \ge p + \varepsilon\right] \le e^{-D(p+\varepsilon\|p) m}.](http://upload.wikimedia.org/math/7/6/5/765370d4625926e193b4ba4be8ae9ffb.png)
![\Pr \left[ X > (1+\delta)\mu\right] < \left(\frac{e^\delta}{(1+\delta)^{(1+\delta)}}\right)^\mu.](http://upload.wikimedia.org/math/c/c/6/cc6c1bc14b614b143bde62264eef9285.png)
![\begin{align}
\Pr[X > (1 + \delta)\mu)] & \le \inf_{t > 0} \frac{\mathbf{E}\left[\prod_{i=1}^n\exp(tX_i)\right]}{\exp(t(1+\delta)\mu)} \\
& = \inf_{t > 0} \frac{\prod_{i=1}^n\mathbf{E}[\exp(tX_i)]}{\exp(t(1+\delta)\mu)} \\
& = \inf_{t > 0} \frac{\prod_{i=1}^n\left[p_i\exp(t) + (1-p_i)\right]}{\exp(t(1+\delta)\mu)}
\end{align}](http://upload.wikimedia.org/math/5/c/5/5c55bef6d6dd76ac309dd1e0cf82be9c.png)
![\begin{align}
&\Pr[X > (1+\delta)\mu] < \frac{\prod_{i=1}^n\exp(p_i(e^t-1))}{\exp(t(1+\delta)\mu)} \\
&\qquad =
\frac{\exp\left((e^t-1)\sum_{i=1}^n p_i\right)}{\exp(t(1+\delta)\mu)}
= \frac{\exp((e^t-1)\mu)}{\exp(t(1+\delta)\mu)}.
\end{align}](http://upload.wikimedia.org/math/9/3/8/938ff25f1a0cff33bd2232dbff865ef6.png)
![\frac{\exp((e^t-1)\mu)}{\exp(t(1+\delta)\mu)} =
\frac{\exp((1+\delta - 1)\mu)}{(1+\delta)^{(1+\delta)\mu}} =
\left[\frac{\exp(\delta)}{(1+\delta)^{(1+\delta)}}\right]^\mu](http://upload.wikimedia.org/math/9/0/1/901e0a65d4e596a7608adf3b1d141cae.png)
![\Pr[X < (1-\delta)\mu] < \exp(-\mu\delta^2/2).](http://upload.wikimedia.org/math/b/7/8/b78466366df8a0f4efaaca5942c0cfcc.png)