Word2vec

Word2vec là một kỹ thuật xử lý ngôn ngữ tự nhiên. Thuật toán Word2vec sử dụng một mô hình mạng thần kinh để học các liên kết từ (sự liên quan của từ) từ một kho ngữ liệu văn bản có dung lượng lớn ^[1]. Sau khi được huấn luyện, mô hình có thể phát hiện các từ đồng nghĩa hoặc gợi ý các từ bổ sung cho một phần của câu. Với cái tên nói lên tất cả, word2vec thể hiện cho mỗi từ riêng biệt với một danh sách cụ thể của các số được gọi là vectơ. Các vectơ được lựa chọn cẩn thận sao cho một hàm toán học đơn giản sẽ (độ tương tự cosin giữa các vectơ) cho biết mức độ của độ tương tự ngữ nghĩa giữa các từ được biểu diễn bằng các vectơ đó.^[2]

Phương pháp tiếp cận

Word2vec là một nhóm các mô hình có quan hệ với nhau được dùng để sản sinh các nhúng từ (word embedding). Các mô hình này là các mạng thần kinh nông hai lớp, được huấn luyện để tái tạo lại ngữ cảnh ngữ nghĩa của các từ vựng. Word2vec có dữ liệu đầu vào là một ngữ liệu văn bản lớn và đầu ra là một không gian vectơ, điển hình vài trăm chiều, với mỗi từ duy nhất trong ngôn ngữ học khối liệu (corpus linguistics) được gán cho một vectơ tương ứng trong không gian vectơ. Các vectơ từ được đặt trong không gian vectơ sao cho những từ chia sẻ chung ngữ cảnh trong kho ngữ liệu có vị trí gần nhau (tính theo độ tương tự ngữ nghĩa) trong không gian.^[3]

Lịch sử

Word2vec được tạo ra, cấp bằng sáng chế^[4] và xuất bản năm 2013 bởi một nhóm nhà nghiên cứu dẫn đầu bởi Tomas Mikolov tại Google với 2 bài báo.^[3]^[5] Hai kiến trúc mô hình điển hình được đề cập là CBOW và Skip-gram.

Các nhà nghiên cứu khác giúp ích với việc phân tích và giải thích thuật toán.^[6] Các vectơ nhúng tạo ra cách dùng thuật toán Word2vec với nhiều lợi ích so với các thuật toán trước đó^[3] chẳng hạn phân tích ngữ nghĩa tiềm ẩn.

Xem thêm

Bộ tự mã hóa
Ma trận thuật ngữ-tài liệu (document-term matrix)
Trích xuất đặc tính (feature extraction)
Học đặc tính (feature learning)
Mô hình ngôn ngữ
Mô hình không gian vectơ
Vectơ suy nghĩ (thought vector)
FastText
GloVe (học máy)
Normalized compression distance

Tham khảo

^ Word2Vec, TensorFlow]
^ Word2Vec and GloVe Vectors, APS360 Artificial Intelligence Fundamentals, Toronto University.
^ ^a ^b ^c Mikolov, Tomas (2013). "Efficient Estimation of Word Representations in Vector Space". arΧiv:1301.3781 [cs.CL].
^ Đăng ký phát minh {{{country}}} {{{number}}}, "Computing numeric representations of words in a high-dimensional space", trao vào [[{{{gdate}}}]]
^ Mikolov, Tomas (2013). “Distributed representations of words and phrases and their compositionality”. Advances in Neural Information Processing Systems. arXiv:1310.4546.
^ Goldberg, Yoav; Levy, Omer (2014). "word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method". arΧiv:1402.3722 [cs.CL].

Liên kết ngoài

Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.

[1] Word2Vec, TensorFlow]

[2] Word2Vec and GloVe Vectors, APS360 Artificial Intelligence Fundamentals, Toronto University.

[mikolov-3] Mikolov, Tomas (2013). "Efficient Estimation of Word Representations in Vector Space". arΧiv:1301.3781 [cs.CL].

[pat-4] Đăng ký phát minh {{{country}}} {{{number}}}, "Computing numeric representations of words in a high-dimensional space", trao vào [[{{{gdate}}}]]

[5] Mikolov, Tomas (2013). “Distributed representations of words and phrases and their compositionality”. Advances in Neural Information Processing Systems. arXiv:1310.4546.

[explain-6] Goldberg, Yoav; Levy, Omer (2014). "word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method". arΧiv:1402.3722 [cs.CL].

[1]

[2]

[3]

[4]

[5]

[6]

x t s Xử lý ngôn ngữ tự nhiên
Thuật ngữ chung	Hiểu ngôn ngữ tự nhiên Ngữ liệu văn bản Ngữ liệu tiếng nói Từ dừng Mô hình túi từ AI-đầy đủ N-gram (Bigram, Trigram)
Khai thác văn bản	Phân đoạn văn bản Gán nhãn từ loại Phân tích cú pháp sơ bộ Compound-term processing Collocation extraction Stemming Lemmatisation Nhận dạng thực thể có tên Coreference Phân tích tình cảm Khai phá khái niệm Phân tích cú pháp Nhập nhằng Ontology learning Trích xuất thuật ngữ Textual entailment Truecasing
Tóm tắt tự động	Tóm tắt đa văn bản Trích xuất câu Đơn giản hóa văn bản
Dịch tự động	Computer-assisted translation Example-based machine translation Rule-based machine translation Dịch máy bằng nơ-ron
Nhận dạng tự động và thu thập dữ liệu	Nhận dạng tiếng nói Tổng hợp giọng nói Nhận dạng ký tự quang học Sinh ngôn ngữ tự nhiên
Mô hình chủ đề	Phân bổ Pachinko Phân bổ Dirichlet tiềm ẩn Phân tích ngữ nghĩa tiềm ẩn
Xem xét với sự trợ giúp máy tính	Automated essay scoring Concordancer Sửa lỗi chính tả Predictive text Spell checker Syntax guessing
Giao diện người dùng ngôn ngữ tự nhiên	Trợ lý ảo Chatbot Interactive fiction Question answering Giao diện giọng nói người dùng