Khoảng cách Jensen-Shannon

Trong lý thuyết xác suất và thống kê, khoảng cách Jensen-Shannon là một phương pháp phổ biến để đo sự tương đồng giữa hai phân bố xác suất. Nó dựa trên khoảng cách Kullback-Leibler với một điểm khác biệt quan trọng là nó luôn có giá trị hữu hạn. Căn bậc hai của khoảng cách Jensen-Shannon là một metric.^[1]^[2]

Định nghĩa

Đặt $M_{+}^{1}(A)$ là tập hợp các phân bố xác suất trong đó A là một tập hợp cùng với một σ-đại số gồm các tập con đo được. Cụ thể hơn, ta chỉ xem xét A là tập hợp hữu hạn hoặc đếm được với mọi tập con đều đo được. Khoảng cách Jensen-Shannon (JSD) $M_{+}^{1}(A)\times M_{+}^{1}(A)\rightarrow [0,\infty {})$ là phiên bản đối xứng và trơn của khoảng cách Kullback-Leibler $D(P\parallel Q)$ . Nó được định nghĩa như sau

JSD(P\parallel Q)={\frac {1}{2}}D(P\parallel M)+{\frac {1}{2}}D(Q\parallel M)

trong đó $M={\frac {1}{2}}(P+Q)$ Nếu A là đếm được thì có định nghĩa tổng quát hơn cho phép so sánh nhiều hơn hai phân bố, như sau:

JSD(P_{1},P_{2},\ldots ,P_{n})=H\left(\sum _{i=1}^{n}\pi _{i}P_{i}\right)-\sum _{i=1}^{n}\pi _{i}H(P_{i})

trong đó $\pi _{1},\pi _{2},\ldots ,\pi _{n}$ là trọng số của các phân bố $P_{1},P_{2},\ldots ,P_{n}$ và $H(P)$ là entropy Shannon của phân bố $P$ . Trong trường hợp chỉ có hai phân bố mô tả ở trên,

P_{1}=P,P_{2}=Q,\pi _{1}=\pi _{2}={\frac {1}{2}}.\

Giới hạn

Theo Lin (1991), khoảng cách Jensen-Shannon bị giới hạn bởi 1 khi lôgarit được tính theo cơ số 2.

0\leq JSD(P\parallel Q)\leq 1

Liên hệ với thông tin tương hỗ

Khoảng cách Jensen-Shannon đúng bằng thông tin tương hỗ giữa biến ngẫu nhiên $X$ phân phối theo một phân phối hỗn hợp $M={\frac {P+Q}{2}}$ và biến ngẫu nhiên $Z$ trong đó $Z=1$ nếu $X$ được lấy từ $P$ và $Z=0$ nếu $X$ được lấy từ $Q$ .

{\begin{aligned}I(X;Z)&=H(X)-H(X|Z)\\&=-\sum M\log M+{\frac {1}{2}}\left[\sum P\log P+\sum Q\log Q\right]\\&=-\sum {\frac {P}{2}}\log M-\sum {\frac {Q}{2}}\log M+{\frac {1}{2}}\left[\sum P\log P+\sum Q\log Q\right]\\&={\frac {1}{2}}\sum P\left(\log P-\log M\right)+{\frac {1}{2}}\sum Q\left(\log Q-\log M\right)\\&=JSD(P\parallel Q)\end{aligned}}

Từ kết quả trên có thể suy ngay ra khoảng cách Jensen-Shannon nằm trong khoảng từ 0 đến 1 vì thông tin tương hỗ là không âm và bị chặn bởi $H(Z)=1$ .

Các liên hệ khác

Khoảng cách Jensen-Shannon luôn lớn hơn hoặc bằng bình phương của khoảng cách Hellinger (Lin 1991).

JSD(P\parallel Q)\geq H^{2}(P,Q)

Ghi chú

^ D. M. Endres & J. E. Schindelin (2003). “A new metric for probability distributions”. IEEE Trans. Inf. Theory. 49 (7): 1858–1860. doi:10.1109/TIT.2003.813506.Quản lý CS1: sử dụng tham số tác giả (liên kết)
^ F. Ôsterreicher & I. Vajda (2003). “A new class of metric divergences on probability spaces and its statistical applications”. Ann. Inst. Statist. Math. 55 (3): 639–653. doi:10.1007/BF02517812.Quản lý CS1: sử dụng tham số tác giả (liên kết)

Tham khảo

Jensen-Shannon Divergence and Hilbert space embedding, Bent Fuglede and Flemming Topsøe University of Copenhagen, Department of Mathematics [1]
Lin, J. (1991). “Divergence measures based on the shannon entropy” (PDF). IEEE Transactions on Information Theory. 37 (1): 145–151. doi:10.1109/18.61115.

A family of statistical symmetric divergences based on Jensen's inequality, F. Nielsen [2]
Y. Ofran & B. Rost. Analysing Six Types of Protein-Protein Interfaces. J. Mol. Biol., 325: 377—387, 2003.
G.E. Sims, S.R. Jun, G. Wu. & S.H. Kim Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions. Proc. Natl. Acad. Sci. USA. 106(8):2677-82
S. Itzkovitz, E. Hodis, E. Segal, "Overlapping codes within protein-coding sequences," Genome Res., November 2010, 20:1582-1589

[1] D. M. Endres & J. E. Schindelin (2003). “A new metric for probability distributions”. IEEE Trans. Inf. Theory. 49 (7): 1858–1860. doi:10.1109/TIT.2003.813506.Quản lý CS1: sử dụng tham số tác giả (liên kết)

[2] F. Ôsterreicher & I. Vajda (2003). “A new class of metric divergences on probability spaces and its statistical applications”. Ann. Inst. Statist. Math. 55 (3): 639–653. doi:10.1007/BF02517812.Quản lý CS1: sử dụng tham số tác giả (liên kết)

[1]

[2]