Bigram

Bigram hay còn gọi là digram là một dãy bao gồm hai phần tử liền kề nhau từ một chuỗi các token, chẳng hạn như các ký tự, các âm tiết hoặc các từ. Một bigram là một n-gram với n bằng 2. Phân phối tần số của mỗi bigram trong một chuỗi thường dùng cho phân tích thống kê văn bản đơn giản trong nhiều ứng dụng, bao gồm ngôn ngữ học tính toán, mật mã học, nhận dạng tiếng nói và nhiều ứng dụng khác.

Các gappy bigram hoặc các skipping bigram là các cặp từ cho phép khoảng cách (có lẽ để tránh việc nối từ, hoặc cho phép các mô phỏng phụ thuộc, dạng như trong một văn phạm phụ thuộc).

Ứng dụng

Bigram được sử dụng thành công nhất cho các mô hình ngôn ngữ để Nhận dạng tiếng nói.^[1] Các kỹ thuật tấn công tần số dạng bigram có thể dùng trong mật mã học để phá các mật mã (cryptogram). Tần số bigram cũng là một trong cách tiếp cận với nhận dạng ngôn ngữ.

Ví dụ

Từ một câu mẫu: "I go to school." sẽ cho ra nhiều dạng bigram khác nhau.

Các dạng bigram

Bigram từ: ("I", "go"), ("go", "to"), ("to", "school")
Bigram ký tự với _ thay cho khoảng trắng: ("I","_"), ("_","g"), ("g","o"), ("o","_"),...,("l",".")
Bigram token: ("I", "go"), ("go", "to"), ("to", "school"), ("school", ".")

Mã Python

Mã python dành cho trường hợp bigram theo từ vựng với việc sử dụng thư viện NLTK.

import nltk

word_data = "I go to school."
nltk_tokens = nltk.word_tokenize(word_data)  	

print(list(nltk.bigrams(nltk_tokens)))

Xem thêm

N-gram

Tham khảo

^ Collins, Michael John (ngày 24 tháng 6 năm 1996). “A new statistical parser based on bigram lexical dependencies”. Proceedings of the 34th annual meeting on Association for Computational Linguistics -. Association for Computational Linguistics. tr. 184–191. arXiv:cmp-lg/9605012. doi:10.3115/981863.981888. Truy cập ngày 9 tháng 10 năm 2018.

Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.

[1] Collins, Michael John (ngày 24 tháng 6 năm 1996). “A new statistical parser based on bigram lexical dependencies”. Proceedings of the 34th annual meeting on Association for Computational Linguistics -. Association for Computational Linguistics. tr. 184–191. arXiv:cmp-lg/9605012. doi:10.3115/981863.981888. Truy cập ngày 9 tháng 10 năm 2018.

[1]

x t s Xử lý ngôn ngữ tự nhiên
Thuật ngữ chung	Hiểu ngôn ngữ tự nhiên Ngữ liệu văn bản Ngữ liệu tiếng nói Từ dừng Mô hình túi từ AI-đầy đủ N-gram (Bigram, Trigram)
Khai thác văn bản	Phân đoạn văn bản Gán nhãn từ loại Phân tích cú pháp sơ bộ Compound-term processing Collocation extraction Stemming Lemmatisation Nhận dạng thực thể có tên Coreference Phân tích tình cảm Khai phá khái niệm Phân tích cú pháp Nhập nhằng Ontology learning Trích xuất thuật ngữ Textual entailment Truecasing
Tóm tắt tự động	Tóm tắt đa văn bản Trích xuất câu Đơn giản hóa văn bản
Dịch tự động	Computer-assisted translation Example-based machine translation Rule-based machine translation Dịch máy bằng nơ-ron
Nhận dạng tự động và thu thập dữ liệu	Nhận dạng tiếng nói Tổng hợp giọng nói Nhận dạng ký tự quang học Sinh ngôn ngữ tự nhiên
Mô hình chủ đề	Phân bổ Pachinko Phân bổ Dirichlet tiềm ẩn Phân tích ngữ nghĩa tiềm ẩn
Xem xét với sự trợ giúp máy tính	Automated essay scoring Concordancer Sửa lỗi chính tả Predictive text Spell checker Syntax guessing
Giao diện người dùng ngôn ngữ tự nhiên	Trợ lý ảo Chatbot Interactive fiction Question answering Giao diện giọng nói người dùng