Truy hồi thông tin

Bách khoa toàn thư mở Wikipedia

Truy hồi thông tin (hay còn gọi là truy vấn thông tin, truy xuất thông tin) là hoạt động thu thập các nguồn thông tin liên quan đến một thông tin cần tìm kiếm trong lĩnh vực khoa học máy tính và khoa học thông tin. Truy hồi thông tin có thể dựa trên siêu dữ liệu (metadata) và trên việc đánh chỉ mục toàn văn (hoặc dựa trên nội dung khác). Quá trình này bao gồm việc tìm kiếm thông tin trong tài liệu, tìm kiếm chính tài liệu đó, cũng như tìm kiếm siêu dữ liệu mô tả dữ liệu và cơ sở dữ liệu văn bản, hình ảnh hoặc âm thanh[1].

Những hệ thống truy hồi thông tin tự động được sử dụng để giảm thiểu "quá tải thông tin" và giúp người dùng dễ dàng tiếp cận với sách báo và các tài liệu khác. Nhiều các trường đại họcthư viện công cộng sử dụng hệ thống truy hồi thông tin để cung cấp truy cập đến sách báo và các tài liệu khác. Các máy tìm kiếm trên web được coi là những ứng dụng truy hồi thông tin dễ nhận thấy nhất.

Tổng quan[sửa | sửa mã nguồn]

Quá trình truy hồi thông tin bắt đầu khi người dùng hoặc người tìm kiếm nhập một truy vấn vào hệ thống. Các truy vấn là các câu lệnh chính thức về nhu cầu thông tin, ví dụ như chuỗi tìm kiếm trong các công cụ tìm kiếm trên web. Trong truy hồi thông tin, một truy vấn không xác định duy nhất một đối tượng trong bộ sưu tập. Thay vào đó, nhiều đối tượng có thể khớp với truy vấn, có thể với các mức độ độ liên quan khác nhau.

Một đối tượng là một thực thể được đại diện bởi thông tin trong một bộ sưu tập nội dung hoặc cơ sở dữ liệu. Các truy vấn của người dùng được so khớp với thông tin cơ sở dữ liệu. Tuy nhiên, trái với các truy vấn SQL cổ điển của một cơ sở dữ liệu, trong truy hồi thông tin, kết quả trả về có thể khớp hoặc không khớp với truy vấn, vì vậy kết quả thường được xếp hạng. Việc xếp hạng kết quả này là một điểm khác biệt chính giữa tìm kiếm truy hồi thông tin so với tìm kiếm cơ sở dữ liệu[2].

Tùy thuộc vào ứng dụng, các đối tượng dữ liệu có thể là, ví dụ, tài liệu văn bản, hình ảnh[3], âm thanh[4], sơ đồ tư duy[5] hoặc video. Thường thì các tài liệu không được giữ hoặc lưu trữ trực tiếp trong hệ thống truy hồi thông tin, mà thay vào đó, chúng được đại diện trong hệ thống bằng các đại diện tài liệu hoặc siêu dữ liệu.

Hầu hết các hệ thống truy hồi thông tin tính toán một điểm số số liệu về mức độ mỗi đối tượng trong cơ sở dữ liệu khớp với truy vấn và xếp hạng các đối tượng theo giá trị này. Các đối tượng xếp hạng hàng đầu sau đó được hiển thị cho người dùng. Quá trình này sau đó có thể được lặp lại nếu người dùng muốn điều chỉnh truy vấn[6].

Tham khảo[sửa | sửa mã nguồn]

  1. ^ Luk, R. W. P. (2022). “Why is information retrieval a scientific discipline?”. Foundations of Science. 27 (2): 427–453. doi:10.1007/s10699-020-09685-x. S2CID 220506422.
  2. ^ Jansen, B. J. và Rieh, S. (2010) The Seventeen Theoretical Constructs of Information Searching and Information Retrieval Lưu trữ 2016-03-04 tại Wayback Machine. Tạp chí của Hiệp hội Khoa học Thông tin và Công nghệ Mỹ. 61(8), 1517-1534.
  3. ^ Goodrum, Abby A. (2000). “Image Information Retrieval: An Overview of Current Research”. Informing Science. 3 (2).
  4. ^ Foote, Jonathan (1999). “An overview of audio information retrieval”. Multimedia Systems. 7: 2–10. CiteSeerX 10.1.1.39.6339. doi:10.1007/s005300050106. S2CID 2000641.
  5. ^ Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf (2009). Information Retrieval On Mind Maps - What Could It Be Good For?. Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom'09). Washington, DC: IEEE. Bản gốc lưu trữ ngày 13 tháng 5 năm 2011. Truy cập ngày 13 tháng 3 năm 2012.
  6. ^ Frakes, William B.; Baeza-Yates, Ricardo (1992). Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc. ISBN 978-0-13-463837-9. Bản gốc lưu trữ ngày 28 tháng 9 năm 2013.

Liên kết ngoài[sửa | sửa mã nguồn]