Độ tương tự cosin
Độ tương tự cosin là một cách đo độ tương tự (measure of similarity) giữa hai vectơ khác không của một không gian tích vô hướng. Độ tương tự này được định nghĩa bằng giá trị cosine của góc giữa hai vectơ, và cũng là tích vô hướng của cùng các vectơ đơn vị để cả hai đều có chiều dài 1. Giá trị cosine của 0° là 1, và bé hơn 1 với bất kỳ góc nào trong khoảng các radian (0, π].[1]
Độ tương tự cosin là một thẩm định có tính định hướng chứ không phải về độ lớn (to nhỏ): hai vectơ cùng hướng có độ tương tự cosin là 1, hai vectơ vuông góc nhau (hay có hướng 90°) có độ tương tự là 0, và hai vectơ đối nhau theo đường kính có độ tương tự (hay 180°) là -1. Độ tương tự cosin đặc biệt được sử dụng trong không gian dương với kết quả được giới hạn chặt chẽ trong biên độ . Cái tên "độ tương tự cosin" bắt nguồn từ thuật ngữ "cosin có hướng": trong trường hợp này, các vectơ đơn vị có độ "tương tự" tối đa nếu chúng song song và "khác nhau" cực đại nếu chúng là trực giao (vuông góc). Điều này tương tự với cosin, có giá trị lớn nhất khi các phân đoạn tạo thành một góc bằng 0, và giá trị bằng 0 (không liên quan) khi các đoạn thẳng vuông góc.
Định nghĩa
[sửa | sửa mã nguồn]Cosine của hai vectơ khác không được suy ra bằng cách sử dụng công thức tích vô hướng Euclid:
Cho hai vectơ chứa các thuộc tính, A và B, độ tương tự cosine, cos(θ), được thể hiện bằng tích vô hướng và độ lớn là
với và là thành phần của vectơ và tương ứng.
Độ tương tự có giá trị −1 có nghĩa là trái nghĩa hoàn toàn, với giá trị 1 nghĩa là giống nhau hoàn toàn, với 0 có nghĩa là trực giao hay tương quan (decorrelation), trong khi các giá trị ở giữa biểu thị sự giống nhau hoặc không giống nhau ở mức trung gian.
Đối với so khớp chuỗi xấp xỉ (approximate string matching), các vectơ thuộc tính A và B thường là các vectơ tf–idf của các tài liệu. Độ tương tự cosine có thể xem là một phương thức bình thường hóa độ dài tài liệu trong quá trình so sánh.
Trong trường hợp truy hồi thông tin, độ tương tự cosine của hai tài liệu sẽ từ 0 đến 1, do các tần số thuật ngữ (dùng các trọng lượng tf-idf) không thể là giá trị âm. Do đó, góc giữa các vectơ tần số thuật ngữ không thể lớn hơn 90°.
Nếu các vectơ thuộc tính được chuẩn hóa (bình thường hóa) bằng cách trừ đi bình quân của vectơ (ví dụ, ), phép đo được gọi là độ tương tự cosin ở tâm (centered) và tương đương với hệ số tương quan Pearson (Pearson correlation coefficient). Ví dụ về cách định tâm,
Xem thêm
[sửa | sửa mã nguồn]Tham khảo
[sửa | sửa mã nguồn]- ^ What is Cosine Similarity?, DeepAI.org