Trích xuất thuật ngữ

Trích xuất thuật ngữ (tiếng Anh: terminology extraction) là một tác vụ con của trích xuất thông tin (information extraction). Mục đích của trích xuất thuật ngữ là tự động trích xuất các thuật ngữ tương đương từ một ngữ liệu đã cho.^[1]

Trong kỷ nguyên mạng ngữ nghĩa, ngày càng nhiều cộng đồng và các doanh nghiệp có kết nối mạng bắt đầu truy cập và tương tác với nhau thông qua Internet. Việc mô hình hóa các cộng đồng này và nhu cầu thông tin tương ứng là quan trọng đối với một số ứng dụng web, như các web crawler theo chủ đề,^[2] dịch vụ web,^[3] hệ thống gợi ý,^[4]... Sự phát triển của trích xuất thuật ngữ cũng rất cần thiết đối với ngành công nghiệp ngôn ngữ.

Xem thêm

Tham khảo

^ Alrehamy, Hassan H; Walker, Coral (2018). “SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation”. Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. 650. tr. 222–235. doi:10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
^ Menczer F., Pant G. and Srinivasan P. Topic-Driven Crawlers: machine learning issues.
^ Fan J. and Kambhampati S. A Snapshot of Public Web Services, in ACM SIGMOD Record archive Volume 34, Issue 1 (March 2005).
^ Yan Zheng Wei, Luc Moreau, Nicholas R. Jennings. A market-based approach to recommender systems, in ACM Transactions on Information Systems (TOIS), 23(3), 2005.

Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.

[1] Alrehamy, Hassan H; Walker, Coral (2018). “SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation”. Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. 650. tr. 222–235. doi:10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.

[2] Menczer F., Pant G. and Srinivasan P. Topic-Driven Crawlers: machine learning issues.

[3] Fan J. and Kambhampati S. A Snapshot of Public Web Services, in ACM SIGMOD Record archive Volume 34, Issue 1 (March 2005).

[4] Yan Zheng Wei, Luc Moreau, Nicholas R. Jennings. A market-based approach to recommender systems, in ACM Transactions on Information Systems (TOIS), 23(3), 2005.

[1]

[2]

[3]

[4]

x t s Xử lý ngôn ngữ tự nhiên
Thuật ngữ chung	Hiểu ngôn ngữ tự nhiên Ngữ liệu văn bản Ngữ liệu tiếng nói Từ dừng Mô hình túi từ AI-đầy đủ N-gram (Bigram, Trigram)
Khai thác văn bản	Phân đoạn văn bản Gán nhãn từ loại Phân tích cú pháp sơ bộ Compound-term processing Collocation extraction Stemming Lemmatisation Nhận dạng thực thể có tên Coreference Phân tích tình cảm Khai phá khái niệm Phân tích cú pháp Nhập nhằng Ontology learning Trích xuất thuật ngữ Textual entailment Truecasing
Tóm tắt tự động	Tóm tắt đa văn bản Trích xuất câu Đơn giản hóa văn bản
Dịch tự động	Computer-assisted translation Example-based machine translation Rule-based machine translation Dịch máy bằng nơ-ron
Nhận dạng tự động và thu thập dữ liệu	Nhận dạng tiếng nói Tổng hợp giọng nói Nhận dạng ký tự quang học Sinh ngôn ngữ tự nhiên
Mô hình ngữ nghĩa phân phối	BERT Document-term matrix Explicit semantic analysis fastText GloVe Mô hình ngôn ngữ (lớn) Phân tích ngữ nghĩa tiềm ẩn Seq2seq Vectơ từ Word2vec
Mô hình chủ đề	Phân bổ Pachinko Phân bổ Dirichlet tiềm ẩn Phân tích ngữ nghĩa tiềm ẩn
Xem xét với sự trợ giúp máy tính	Automated essay scoring Concordancer Sửa lỗi chính tả Predictive text Spell checker Syntax guessing
Giao diện người dùng ngôn ngữ tự nhiên	Trợ lý ảo Chatbot Interactive fiction Question answering Giao diện giọng nói người dùng