Tóm tắt đa văn bản

Bách khoa toàn thư mở Wikipedia

Tóm tắt đa văn bản (hay còn gọi ít phổ biến hơn là tóm tắt đa tài liệu, tiếng Anh: multi-document summarization) là một thủ tục tự động nhằm mục đích trích xuất thông tin (information extraction) từ nhiều văn bản viết về cùng một chủ đề. Báo cáo kết quả tóm tắt cho phép các người dùng cá nhân, chẳng hạn như những người dùng thông tin chuyên nghiệp, nhanh chóng làm quen với thông tin chứa trong một nhóm lớn tài liệu. Theo cách đó, các hệ thống tóm tắt đa văn bản đang bổ sung cho trình đọc tin trực tuyến để thực hiện bước tiếp theo trong việc đối phó với vấn đề quá tải thông tin.

Hai cách tiếp cận nổi bật là tóm tắt trích xuất (extractive summarization) và tóm tắt trừu tượng (abstractive summarization). Các hệ thống tóm tắt trích xuất hướng đến trích xuất các đoạn trích, câu hoặc đoạn văn nổi bật từ tài liệu, trong khi hệ thống tóm tắt trừu tượng nhằm diễn giải nội dung tài liệu theo cách súc tích.[1]

Xem thêm[sửa | sửa mã nguồn]

Tham khảo[sửa | sửa mã nguồn]

  1. ^ Mani, K., Verma, I., Meisheri, H., & Dey, L. (2018, December). Multi-document summarization using distributed bag-of-words model. In 2018 IEEE/WIC/ACM International Conference on Web Intelligence (WI) (pp. 672-675). IEEE.

Liên kết ngoài[sửa | sửa mã nguồn]