Khoảng cách Jensen-Shannon
Trong lý thuyết xác suất và thống kê, khoảng cách Jensen-Shannon là một phương pháp phổ biến để đo sự tương đồng giữa hai phân bố xác suất. Nó dựa trên khoảng cách Kullback-Leibler với một điểm khác biệt quan trọng là nó luôn có giá trị hữu hạn. Căn bậc hai của khoảng cách Jensen-Shannon là một metric.[1][2]
Mục lục |
Định nghĩa [sửa]
Đặt
là tập hợp các phân bố xác suất trong đó A là một tập hợp cùng với một σ-đại số gồm các tập con đo được. Cụ thể hơn, ta chỉ xem xét A là tập hợp hữu hạn hoặc đếm được với mọi tập con đều đo được. Khoảng cách Jensen-Shannon (JSD)
là phiên bản đối xứng và trơn của khoảng cách Kullback-Leibler
. Nó được định nghĩa như sau
trong đó
Nếu A là đếm được thì có định nghĩa tổng quát hơn cho phép so sánh nhiều hơn hai phân bố, như sau:
trong đó
là trọng số của các phân bố
và
là entropy Shannon của phân bố
. Trong trường hợp chỉ có hai phân bố mô tả ở trên,
Giới hạn [sửa]
Theo Lin (1991), khoảng cách Jensen-Shannon bị giới hạn bởi 1 khi lôgarit được tính theo cơ số 2.
Liên hệ với thông tin tương hỗ [sửa]
Khoảng cách Jensen-Shannon đúng bằng thông tin tương hỗ giữa biến ngẫu nhiên
phân phối theo một phân phối hỗn hợp
và biến ngẫu nhiên
trong đó
nếu
được lấy từ
và
nếu
được lấy từ
.
Từ kết quả trên có thể suy ngay ra khoảng cách Jensen-Shannon nằm trong khoảng từ 0 đến 1 vì thông tin tương hỗ là không âm và bị chặn bởi
.
Các liên hệ khác [sửa]
Khoảng cách Jensen-Shannon luôn lớn hơn hoặc bằng bình phương của khoảng cách Hellinger Lin 1991.
Ghi chú [sửa]
- ^ Endres, D. M.; J. E. Schindelin (2003). “A new metric for probability distributions”. IEEE Trans. Inf. Theory 49 (7): pp. 1858–1860. doi:10.1109/TIT.2003.813506.
- ^ Ôsterreicher, F.; I. Vajda (2003). “A new class of metric divergences on probability spaces and its statistical applications”. Ann. Inst. Statist. Math. 55 (3): pp. 639–653. doi:10.1007/BF02517812.
Tài liệu tham khảo [sửa]
- Jensen-Shannon Divergence and Hilbert space embedding, Bent Fuglede and Flemming Topsøe University of Copenhagen, Department of Mathematics [1]
- Lin, J. (1991). “Divergence measures based on the shannon entropy”. IEEE Transactions on Information Theory 37 (1): 145–151. doi:10.1109/18.61115.
- A family of statistical symmetric divergences based on Jensen's inequality, F. Nielsen [2]
- Y. Ofran & B. Rost. Analysing Six Types of Protein-Protein Interfaces. J. Mol. Biol., 325: 377—387, 2003.
- G.E. Sims, S.R. Jun, G. Wu. & S.H. Kim Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions. Proc. Natl. Acad. Sci. USA. 106(8):2677-82
- S. Itzkovitz, E. Hodis, E. Segal, "Overlapping codes within protein-coding sequences," Genome Res., November 2010, 20:1582-1589




![\begin{align}
I(X; Z) &= H(X) - H(X|Z)\\
&= -\sum M \log M + \frac{1}{2} \left[ \sum P \log P + \sum Q \log Q \right] \\
&= -\sum \frac{P}{2} \log M - \sum \frac{Q}{2} \log M + \frac{1}{2} \left[ \sum P \log P + \sum Q \log Q \right] \\
&= \frac{1}{2} \sum P \left( \log P - \log M\right ) + \frac{1}{2} \sum Q \left( \log Q - \log M \right) \\
&= JSD(P \parallel Q)
\end{align}](http://upload.wikimedia.org/math/f/4/5/f45702e51681515c424c0ed2ba489ad7.png)
