Khoảng cách Hellinger

Trong lý thuyết xác suất và thống kê, khoảng cách Hellinger là một đại lượng đo sự khác biệt giữa hai phân bố xác suất. Nó là một f-khoảng cách. Khoảng cách Hellinger được định nghĩa dựa trên tích phân Hellinger, đưa ra bởi Ernst Hellinger.^[1]

Để định nghĩa khoảng cách Hellinger theo lý thuyết độ đo, giả sử P và Q là hai độ đo xác suất liên tục tuyệt đối đối với một độ đo xác suất λ. Bình phương của khoảng cách Hellinger giữa P và Q được định nghĩa như sau

H^{2}(P,Q)={\frac {1}{2}}\displaystyle \int \left({\sqrt {\frac {dP}{d\lambda }}}-{\sqrt {\frac {dQ}{d\lambda }}}\right)^{2}d\lambda .

Ở đây, dP / dλ và dQ / dλ là đạo hàm Radon–Nikodym của P và Q. Định nghĩa này không phụ thuộc vào λ, nên khoảng cách Hellinger giữa P và Q không thay đổi nếu λ được thay bằng một độ đo xác suất khác mà đối với nó, P and Q cũng liên tục tuyệt đối. Biểu thức trên có thể được viết gọn là

H^{2}(P,Q)={\frac {1}{2}}\int \left({\sqrt {dP}}-{\sqrt {dQ}}\right)^{2}.

Để định nghĩa khoảng cách Hellinger theo lý thuyết xác suất cơ bản, ta chọn λ là độ đo Lebesgue, khi đó dP / dλ và dQ / dλ là các hàm mật độ xác suất. Nếu ta ký hiệu f và g là các hàm mật độ tương ứng, bình phương của khoảng cách Hellinger có thể được biểu diễn bằng tích phân thông thường như sau

{\frac {1}{2}}\int \left({\sqrt {f(x)}}-{\sqrt {g(x)}}\right)^{2}dx.

Khoảng cách Hellinger H(P, Q) thỏa mãn

0\leq H(P,Q)\leq 1.

Khoảng cách đạt giá trị cực đại là 1 khi P có xác suất bằng 0 tại những phần tử có xác suất dương trong Q và ngược lại.

Đôi khi hệ số 1/2 bên ngoài tích phân bị bỏ qua, khi đó khoảng cách Hellinger nằm trong khoảng từ 0 đến 2.

Khoảng cách Hellinger có liên hệ với hệ số Bhattacharyya $BC(P,Q)$ như sau

H(P,Q)={\sqrt {1-BC(P,Q)}}.

Bình phương khoảng cách Hellinger luôn nhỏ hơn hoặc bằng khoảng cách Jensen-Shannon.

H^{2}(P,Q)\leq JSD(P\parallel Q)

Khoảng cách Hellinger có liên hệ với khoảng cách L1 như sau (Le Cam & Yang 2000).

{\frac {1}{2}}\|P-Q\|_{1}\leq H(P,Q){\sqrt {2-H^{2}(P,Q)}}

Ví dụ[sửa | sửa mã nguồn]

Bình phương khoảng cách Hellinger giữa hai phân phối chuẩn $\scriptstyle P\,\sim \,{\mathcal {N}}(\mu _{1},\sigma _{1}^{2})$ và $\scriptstyle Q\,\sim \,{\mathcal {N}}(\mu _{2},\sigma _{2}^{2})$ là:

H^{2}(P,Q)=1-{\sqrt {\frac {2\sigma _{1}\sigma _{2}}{\sigma _{1}^{2}+\sigma _{2}^{2}}}}\,e^{-{\frac {1}{4}}{\frac {(\mu _{1}-\mu _{2})^{2}}{\sigma _{1}^{2}+\sigma _{2}^{2}}}}.

Bình phương khoảng cách Hellinger giữa hai phân phối mũ $\scriptstyle P\,\sim \,{\rm {{Exp}(\alpha )}}$ và $\scriptstyle Q\,\sim \,{\rm {{Exp}(\beta )}}$ là:

H^{2}(P,Q)=1-{\frac {2{\sqrt {\alpha \beta }}}{\alpha +\beta }}.

Bình phương khoảng cách Hellinger giữa hai phân phối Weibull $\scriptstyle P\,\sim \,{\rm {{W}(\alpha ,\beta )}}$ và $\scriptstyle Q\,\sim \,{\rm {{W}(\alpha ,d)}}$ (trong đó $\alpha$ là tham số hình dạng và $\beta \,,d$ là các tham số tỉ lệ):

H^{2}(P,Q)=1-{\frac {2(\beta d)^{\alpha /2}}{\beta ^{\alpha }+d^{\alpha }}}.

Ghi chú[sửa | sửa mã nguồn]

^ Nikulin, M.S. (2001), “Hellinger distance”, trong Hazewinkel, Michiel (biên tập), Bách khoa toàn thư Toán học, Springer, ISBN 978-1-55608-010-4

Tham khảo[sửa | sửa mã nguồn]

Le Cam, Lucien M.; Yang, Grace Lo (2000). Asymptotics in Statistics: Some Basic Concepts. Berlin: Springer. ISBN 0-387-95036-2.
Vaart, A. W. van der. Asymptotic Statistics (Cambridge Series in Statistical and Probabilistic Mathematics). Cambridge, UK: Cambridge University Press. ISBN 0-521-78450-6.
Pollard, David E. (2002). A user's guide to measure theoretic probability. Cambridge, UK: Cambridge University Press. ISBN 0-521-00289-3.

[1] Nikulin, M.S. (2001), “Hellinger distance”, trong Hazewinkel, Michiel (biên tập), Bách khoa toàn thư Toán học, Springer, ISBN 978-1-55608-010-4

[1]