Mô hình không gian véctơ

Bách khoa toàn thư mở Wikipedia

Mô hình không gian véctơ hay mô hình thuật ngữ véctơ (tiếng Anh: vector space model) là một mô hình đại số dùng để thể hiện các tài liệu văn bản (và bất cứ đối tượng nào nói chung) dưới dạng các chỉ số (định danh) nhận dạng không gian vectơ, chẳng hạn như các thuật ngữ chỉ mục. Mô hình này được sử dụng trong hệ thống lọc thông tin (information filtering system), truy hồi thông tin[1], lập chỉ mục và xếp hạng độ liên quan. Mô hình không gian véctơ được sử dụng lần đầu ở hệ thống truy hồi thông tin SMART.

Định nghĩa[sửa | sửa mã nguồn]

Cho một tập bao gồm các tài liệu và các truy vấn được biểu diễn dưới dạng véctơ như sau:

Với là biểu diễn của tài liệu thứ là trọng lượng của từ xuất hiện trong tài liệu . Truy vấn là một truy vấn để tìm kiếm thông tin trên tập các tài liệu và là trọng lượng của từ trong truy vấn này.

Mỗi chiều tương ứng một thuật ngữ rời rạc (tách rời). Nếu một thuật ngữ xuất hiện trong tài liệu, giá trị của nó trong véctơ khác không. Có vài cách để tính toán các giá trị này, hay còn gọi là trọng lượng (thuật ngữ) đã được phát triển. Một cách những cách phổ biến là trọng lượng tf–idf.

Khái niệm thuật ngữ được định nghĩa khác nhau tùy theo ứng dụng. Thông thường, thuật ngữ hay được xem là các từ đơn, từ khóa hay các cụm từ dài hơn như danh động từ. Nếu các từ được chọn làm thuật ngữ, thì chiều của vectơ là số từ trong từ vựng (số từ riêng biệt xuất hiện trong ngữ liệu văn bản). Các phép tính vectơ có thể được sử dụng để so sánh tài liệu với các truy vấn.

Các mô hình dựa trên và mở rộng mô hình không gian vectơ[sửa | sửa mã nguồn]

Các mô hình dựa trên hoặc mở rộng mô hình không gian véctơ bao gồm:

Xem thêm[sửa | sửa mã nguồn]

Tham khảo[sửa | sửa mã nguồn]

  1. ^ Melucci M. (2009) Vector-Space Model. In: LIU L., ÖZSU M.T. (eds) Encyclopedia of Database Systems. Springer, Boston, MA. https://doi.org/10.1007/978-0-387-39940-9_918