Truy hồi thông tin

Truy hồi thông tin (hay còn gọi là truy vấn thông tin, truy xuất thông tin) là hoạt động thu thập các nguồn thông tin liên quan đến một thông tin cần tìm kiếm trong lĩnh vực khoa học máy tính và khoa học thông tin. Truy hồi thông tin có thể dựa trên siêu dữ liệu (metadata) và trên việc đánh chỉ mục toàn văn (hoặc dựa trên nội dung khác). Quá trình này bao gồm việc tìm kiếm thông tin trong tài liệu, tìm kiếm chính tài liệu đó, cũng như tìm kiếm siêu dữ liệu mô tả dữ liệu và cơ sở dữ liệu văn bản, hình ảnh hoặc âm thanh^[1].

Những hệ thống truy hồi thông tin tự động được sử dụng để giảm thiểu "quá tải thông tin" và giúp người dùng dễ dàng tiếp cận với sách báo và các tài liệu khác. Nhiều các trường đại học và thư viện công cộng sử dụng hệ thống truy hồi thông tin để cung cấp truy cập đến sách báo và các tài liệu khác. Các máy tìm kiếm trên web được coi là những ứng dụng truy hồi thông tin dễ nhận thấy nhất.

Tổng quan[sửa | sửa mã nguồn]

Quá trình truy hồi thông tin bắt đầu khi người dùng hoặc người tìm kiếm nhập một truy vấn vào hệ thống. Các truy vấn là các câu lệnh chính thức về nhu cầu thông tin, ví dụ như chuỗi tìm kiếm trong các công cụ tìm kiếm trên web. Trong truy hồi thông tin, một truy vấn không xác định duy nhất một đối tượng trong bộ sưu tập. Thay vào đó, nhiều đối tượng có thể khớp với truy vấn, có thể với các mức độ độ liên quan khác nhau.

Một đối tượng là một thực thể được đại diện bởi thông tin trong một bộ sưu tập nội dung hoặc cơ sở dữ liệu. Các truy vấn của người dùng được so khớp với thông tin cơ sở dữ liệu. Tuy nhiên, trái với các truy vấn SQL cổ điển của một cơ sở dữ liệu, trong truy hồi thông tin, kết quả trả về có thể khớp hoặc không khớp với truy vấn, vì vậy kết quả thường được xếp hạng. Việc xếp hạng kết quả này là một điểm khác biệt chính giữa tìm kiếm truy hồi thông tin so với tìm kiếm cơ sở dữ liệu^[2].

Tùy thuộc vào ứng dụng, các đối tượng dữ liệu có thể là, ví dụ, tài liệu văn bản, hình ảnh^[3], âm thanh^[4], sơ đồ tư duy^[5] hoặc video. Thường thì các tài liệu không được giữ hoặc lưu trữ trực tiếp trong hệ thống truy hồi thông tin, mà thay vào đó, chúng được đại diện trong hệ thống bằng các đại diện tài liệu hoặc siêu dữ liệu.

Hầu hết các hệ thống truy hồi thông tin tính toán một điểm số số liệu về mức độ mỗi đối tượng trong cơ sở dữ liệu khớp với truy vấn và xếp hạng các đối tượng theo giá trị này. Các đối tượng xếp hạng hàng đầu sau đó được hiển thị cho người dùng. Quá trình này sau đó có thể được lặp lại nếu người dùng muốn điều chỉnh truy vấn^[6].

Tham khảo[sửa | sửa mã nguồn]

^ Luk, R. W. P. (2022). “Why is information retrieval a scientific discipline?”. Foundations of Science. 27 (2): 427–453. doi:10.1007/s10699-020-09685-x. S2CID 220506422.
^ Jansen, B. J. và Rieh, S. (2010) The Seventeen Theoretical Constructs of Information Searching and Information Retrieval Lưu trữ 2016-03-04 tại Wayback Machine. Tạp chí của Hiệp hội Khoa học Thông tin và Công nghệ Mỹ. 61(8), 1517-1534.
^ Goodrum, Abby A. (2000). “Image Information Retrieval: An Overview of Current Research”. Informing Science. 3 (2).
^ Foote, Jonathan (1999). “An overview of audio information retrieval”. Multimedia Systems. 7: 2–10. CiteSeerX 10.1.1.39.6339. doi:10.1007/s005300050106. S2CID 2000641.
^ Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf (2009). Information Retrieval On Mind Maps - What Could It Be Good For?. Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom'09). Washington, DC: IEEE. Bản gốc lưu trữ ngày 13 tháng 5 năm 2011. Truy cập ngày 13 tháng 3 năm 2012.
^ Frakes, William B.; Baeza-Yates, Ricardo (1992). Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc. ISBN 978-0-13-463837-9. Bản gốc lưu trữ ngày 28 tháng 9 năm 2013.

Liên kết ngoài[sửa | sửa mã nguồn]

[luk22-1] Luk, R. W. P. (2022). “Why is information retrieval a scientific discipline?”. Foundations of Science. 27 (2): 427–453. doi:10.1007/s10699-020-09685-x. S2CID 220506422.

[2] Jansen, B. J. và Rieh, S. (2010) The Seventeen Theoretical Constructs of Information Searching and Information Retrieval Lưu trữ 2016-03-04 tại Wayback Machine. Tạp chí của Hiệp hội Khoa học Thông tin và Công nghệ Mỹ. 61(8), 1517-1534.

[goodron2000-3] Goodrum, Abby A. (2000). “Image Information Retrieval: An Overview of Current Research”. Informing Science. 3 (2).

[Foote99-4] Foote, Jonathan (1999). “An overview of audio information retrieval”. Multimedia Systems. 7: 2–10. CiteSeerX 10.1.1.39.6339. doi:10.1007/s005300050106. S2CID 2000641.

[Beel2009-5] Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf (2009). Information Retrieval On Mind Maps - What Could It Be Good For?. Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom'09). Washington, DC: IEEE. Bản gốc lưu trữ ngày 13 tháng 5 năm 2011. Truy cập ngày 13 tháng 3 năm 2012.

[Frakes1992-6] Frakes, William B.; Baeza-Yates, Ricardo (1992). Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc. ISBN 978-0-13-463837-9. Bản gốc lưu trữ ngày 28 tháng 9 năm 2013.

[1]

[2]

[3]

[4]

[5]

[6]

x t s Những lĩnh vực chính của khoa học máy tính
Các nền tảng toán học	Logic toán học · Lý thuyết tập hợp · Lý thuyết số · Lý thuyết đồ thị · Lý thuyết kiểu · Lý thuyết thể loại · Giải tích số · Lý thuyết thông tin · Đại số · Nhận dạng mẫu · Nhận dạng tiếng nói · Toán học tổ hợp · Đại số Boole · Toán rời rạc
Lý thuyết phép tính	Độ phức tạp Kolmogorov · Lý thuyết Automat · Lý thuyết tính được · Lý thuyết độ phức tạp tính toán · Lý thuyết điện toán lượng tử
Các cấu trúc dữ liệu và các giải thuật	Phân tích giải thuật · Thiết kế giải thuật · Hình học tính toán · Tối ưu hóa tổ hợp
Các ngôn ngữ lập trình và Các trình biên dịch	Các bộ phân tích cú pháp · Các trình thông dịch · Lập trình cấu trúc · Lập trình thủ tục · Lập trình hướng đối tượng · Lập trình hướng khía cạnh · Lập trình hàm · Lập trình logic · Lập trình máy tính · Lập trình mệnh lệnh · Lập trình song song · Lập trình tương tranh · Các mô hình lập trình · Prolog · Tối ưu hóa trình biên dịch
Tính song hành, Song song, và các hệ thống phân tán	Đa xử lý · Điện toán lưới · Kiểm soát song hành · Hiệu năng hệ thống · Tính toán phân tán
Công nghệ phần mềm	Phân tích yêu cầu · Thiết kế phần mềm · Các phương pháp hình thức · Kiểm thử phần mềm · Quy trình phát triển phần mềm · Các phép đo phần mềm · Đặc tả chương trình · LISP · Mẫu thiết kế · Tối ưu hóa phần mềm
Kiến trúc hệ thống	Kiến trúc máy tính · Tổ chức máy tính · Các hệ điều hành · Các cấu trúc điều khiển · Cấu trúc bộ nhớ lưu trữ · Vi mạch · Thiết kế ASIC · Vi lập trình · Vào/ra dữ liệu · VLSI design · Xử lý tín hiệu số
Viễn thông và Mạng máy tính	Audio máy tính · Chọn tuyến · Cấu trúc liên kết mạng · Mật mã học
Các cơ sở dữ liệu và Các hệ thống thông tin	Hệ quản trị cơ sở dữ liệu · Cơ sở dữ liệu quan hệ · SQL · Các giao dịch · Các chỉ số cơ sở dữ liệu · Khai phá dữ liệu · Biểu diễn và giao diện thông tin · Các hệ thống thông tin · Khôi phục dữ liệu · Lưu trữ thông tin · Lý thuyết thông tin · Mã hóa dữ liệu · Nén dữ liệu · Thu thập thông tin
Trí tuệ nhân tạo	Lập luận tự động · Ngôn ngữ học tính toán · Thị giác máy tính · Tính toán tiến hóa · Các hệ chuyên gia · Học máy · Xử lý ngôn ngữ tự nhiên · Robot học
Đồ họa máy tính	Trực quan hóa · Hoạt họa máy tính · Xử lý ảnh
Giao diện người-máy tính	Khả năng truy cập máy tính · Giao diện người dùng · Điện toán mang được · Điện toán khắp mọi nơi · Thực tế ảo
Khoa học tính toán	Cuộc sống nhân tạo · Tin sinh học · Khoa học nhận thức · Hóa học tính toán · Khoa học thần kinh tính toán · Vật Lý học tính toán · Các giải thuật số · Toán học kí hiệu
Chú ý: khoa học máy tính còn có thể được chia thành nhiều chủ đề hay nhiều lĩnh vực khác dựa theo Hệ thống xếp loại điện toán ACM.