Nhân tố ngoại lai cục bộ

Bách khoa toàn thư mở Wikipedia

Trong phát hiện bất thường, nhân tố ngoại lai cục bộ (LOF, hay yếu tố ngoại lai cục bộ, nhân tố tách biệt địa phương) là một thuật toán do Markus M. Breunig, Hans-Peter Kriegel, Raymond T. Ng và Jörg Sander đề xuất vào năm 2000 để tìm các điểm dữ liệu bất thường bằng cách do độ lệch cục bộ của một điểm dữ liệu so với các điểm lân cận của nó.[1]

LOF chia sẻ một số khái niệm với DBSCANOPTICS chẳng hạn như khái niệm về "khoảng cách lõi" và "khoảng cách có thể tiếp cận được" (khoảng cách tới được), được dùng để khảo sát mật độ cục bộ.[2]

Ý tưởng cơ bản[sửa | sửa mã nguồn]

Ý tưởng cơ bản của LOF: so sánh mật độ cục bộ của một điểm với các mật độ của các điểm lân cận (hàng xóm) của nó. A có mật độ thấp hơn nhiều so với mật độ của các điểm lân cận của nó. Do đó A có thể bị loại bỏ trong quá trình lọc nhiễu dữ liệu hay gom cụm theo mật độ.

Nhân tố ngoại lai cục bộ dựa trên khái niệm về mật độ cục bộ (địa phương), trong đó điểm địa phương được cho bởi k điểm lân cận (hàng xóm) gần nhất, với khoảng cách được sử dụng để ước tính mật độ. Bằng cách so sánh mật độ cục bộ của một đối tượng với các mật độ các điểm lân cận, người ta có nhận diện các vùng có mật độ tương tự nhau, và các điểm có mật độ tương đối thấp hơn các điểm lân cận của nó. Các điểm này được gọi là các điểm ngoại lai (outlier). Các điểm ngoại lai có thể bị loại bỏ trong quá trình lọc dữ liệu hay lọc nhiễu.

Mật độ cục bộ được khảo sát bởi các khoảng cách đặc trưng tại điểm có thể "đạt được/đến được" từ các điểm hàng xóm của nó. Khái niệm "khoảng cách có thể tiếp cận được" (reachability distance) sử dụng trong LOF là một phép đo bổ sung để tạo ra các kết quả ổn định hơn trong các phân cụm. Khoảng cách này có một số chi tiết tinh vi thường được tìm thấy không chính xác trong các nguồn thứ cấp, ví dụ trong sách giáo khoa của Ethem Alpaydin.[3]

Tham khảo[sửa | sửa mã nguồn]

  1. ^ Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. (2000). LOF: Identifying Density-based Local Outliers (PDF). Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. SIGMOD. tr. 93–104. doi:10.1145/335191.335388. ISBN 1-58113-217-4.
  2. ^ Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. R. (1999). “OPTICS-OF: Identifying Local Outliers” (PDF). Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. 1704. tr. 262. doi:10.1007/978-3-540-48247-5_28. ISBN 978-3-540-66490-1.
  3. ^ Alpaydin, Ethem (2020). Introduction to machine learning . Cambridge, Massachusetts. ISBN 978-0-262-04379-3. OCLC 1108782604.