Dịch máy dựa trên ví dụ

Dịch máy dựa trên ví dụ (EBMT) là một phương pháp dịch tự động, thường có cơ sở dữ liệu sử dụng ngữ liệu song ngữ với các văn bản song song. Nhìn chung, đây là một phương pháp dịch bằng phép loại suy và có thể được xem như một cách học máy triển khai phương pháp lập luận dựa trên tình huống.

Dịch bằng phép loại suy[sửa | sửa mã nguồn]

Dịch máy dựa trên ví dụ dựa trên nền tảng là ý tưởng dịch bằng phép loại suy. Đối với quá trình dịch thuật của con người, dịch loại suy bác bỏ ý tưởng rằng người dịch đã thực hiện những phân tích sâu sắc về ngôn ngữ. Thay vào đó, dịch loại suy dựa trên giả thiết rằng, trong quá trình dịch, đầu tiên người dịch phân tích một câu thành một số cụm từ nhất định, sau đó dịch các cụm từ này, cuối cùng kết hợp một cách hợp lý các đoạn này thành một câu hoàn chỉnh. Các cụm từ được dịch bằng cách so sánh loại suy với các bản dịch trước đó. Phương pháp dịch máy dựa trên ví dụ sử dụng nguyên lí của dịch ngoại suy bằng cách đưa các bản dịch mẫu vào trong cơ sở dữ liệu của hệ học máy.

Một số phương pháp dịch máy khác, bao gồm cả dịch máy thống kê, cũng sử dụng kho ngữ liệu song ngữ để học máy quá trình dịch.

Lịch sử[sửa | sửa mã nguồn]

Phương pháp dịch máy dựa trên ví dụ được đề xuất lần đầu tiên bởi Makoto Nagao năm 1984.^[1] Ông đã chỉ ra sự thích hợp đặc biệt của phương pháp này trong việc dịch hai ngôn ngữ hoàn toàn khác nhau, chẳng hạn như tiếng Anh và tiếng Nhật. Với cách này, một câu có thể được dịch thành nhiều câu với cấu trúc ngữ pháp thích hợp với một ngôn ngữ khác. Vì vậy, phương pháp phân tích ngôn ngữ sâu của dịch máy dựa trên quy tắc là không cần thiết.

Ví dụ[sửa | sửa mã nguồn]

**Ví dụ ngữ liệu song ngữ**
Tiếng Việt		Tiếng Nhật
Cái ô đỏ đó giá bao nhiêu?		Ano akai kasa wa ikura desu ka.
Máy ảnh nhỏ đó giá bao nhiêu?		Ano chiisai kamera wa ikura desu ka.

Hệ thống EBMT được "đào tạo" từ kho ngữ liệu song ngữ có chứa nhiều cặp câu song song như ví dụ trên. Các cặp câu bao gồm một câu trong ngôn ngữ này và câu đã được sịch sang ngôn ngữ khác. Ví dụ trên là một cặp tối thiểu, có nghĩa là chỉ có một phần tử khác nhau ở 2 cặp câu. Những cặp này giúp máy học bản dịch các phần của một câu một cách dễ dàng hơn. Cụ thể, một hệ thống dịch máy EMBT sẽ học được ba đơn vị dịch từ ví dụ trên:

X đó giá bao nhiêu ? tương ứng với Ano X wa ikura desu ka.
ô đỏ tương ứng với akai kasa
máy ảnh nhỏ tương ứng với chiisai kamera

Kết hợp các đơn vị dịch tương tự như trên là một chìa khoá cho phương án dịch mới mẻ và khả thi trong tương lai. Ví dụ, nếu ta đã được "huấn luyện" cách sử dụng một số văn bản có chứa các câu Tổng thống Kennedy bị bắn chết trong lễ duyệt binh. và Kẻ gây án đã bỏ trốn vào ngày 15/7, ta có thể dịch câu Kẻ gây án đã bị bắn chết trong lễ duyệt binh. bằng cách thay thế các bộ phận thích hợp của câu.

Xem thêm[sửa | sửa mã nguồn]

Tham khảo[sửa | sửa mã nguồn]

^ Makoto Nagao (1984). “A framework of a mechanical translation between Japanese and English by analogy principle” (PDF). Trong A. Elithorn and R. Banerji (biên tập). Artificial and Human Intelligence. Elsevier Science Publishers. Bản gốc (PDF) lưu trữ ngày 6 tháng 2 năm 2012. Truy cập ngày 13 tháng 10 năm 2021.

Đọc thêm[sửa | sửa mã nguồn]

Carl, Michael; Way, Andy (2003). Recent Advances in Example-Based Machine Translation. Netherlands: Springer. doi:10.1007/978-94-010-0181-6. ISBN 978-1-4020-1400-0.

Liên kết ngoài[sửa | sửa mã nguồn]

Cunei - một nền tảng mã nguồn mở cho dịch máy theo hướng cơ sở dữ liệu - phát triển từ nghiên cứu trong EBMT, nhưng cũng bao gồm những tiến bộ gần đây từ lĩnh vực dịch máy thống kê

[1] Makoto Nagao (1984). “A framework of a mechanical translation between Japanese and English by analogy principle” (PDF). Trong A. Elithorn and R. Banerji (biên tập). Artificial and Human Intelligence. Elsevier Science Publishers. Bản gốc (PDF) lưu trữ ngày 6 tháng 2 năm 2012. Truy cập ngày 13 tháng 10 năm 2021.

[1]