Nhận dạng thực thể có tên
Nhận dạng thực thể có tên (Named-entity recognition - NER) (còn gọi là xác định thực thể hoặc trích xuất thực thể) là một nhiệm vụ con của trích xuất thông tin mà tìm kiếm và phân loại các thành phần nguyên tử trong văn bản vào những loại xác định trước như là tên người, tổ chức, địa điểm, thời gian, số lượng, giá trị tiền tệ, phần trăm v.v.
Hầu hết các nghiên cứu về hệ thống NER có dạng nhận vào một khối văn bản chưa được chú thích ví dụ như dưới đây:
- Jim bought 300 shares of Acme Corp. in 2006.
và tạo ra một khối văn bản được chú thích như sau:
- <ENAMEX TYPE="PERSON">Jim</ENAMEX> bought <NUMEX TYPE="QUANTITY">300</NUMEX> shares of <ENAMEX TYPE="ORGANIZATION">Acme Corp.</ENAMEX> in <TIMEX TYPE="DATE">2006</TIMEX>.
Trong ví dụ này, các chú thích có thẻ ENAMEX được phát triển cho Hội thảo Hiểu Thông điệp (MUC) vào những năm 1990.
Các hệ thống tiên tiến cho tiếng Anh có hiệu năng gần bằng con người. Ví dụ, hệ thống tốt nhất tham gia MUC-7 đạt điểm 93.39% của F-measure trong khi người chú thích được 97.60% và 96.95%.[1][2] These algorithms had roughly twice the error rate (6.61%) of human annotators (2.40% and 3.05%).
Mục lục |
Các cách tiếp cận [sửa]
Các hệ thống NER được tạo ra bằng kỹ thuật ngữ pháp cũng như thống kê. Các hệ thống dựa trên ngữ pháp xây dựng bằng tay thường đạt độ chính xác cao hơn nhưng lại kém recall và tốn nhiều tháng làm việc của các chuyên gia ngôn ngữ có kinh nghiệm. Các hệ thống NER thống kê thường yêu cầu một lượng lớn dữ liệu huấn luyện được chú thích bằng tay.
Các phạm vi bài toán [sửa]
Nghiên cứu chỉ ra rằng kể cả các hệ thống tiên tiến nhất cũng giòn, nghĩa là một hệ thống phát triển cho một lĩnh vực thường không làm việc tốt với các lĩnh vực khác.[3] Người ta đang nỗ lực để tinh chỉnh các hệ thống NER để hoạt động tốt với những lĩnh vực mới; kể cả hệ thống dựa ngữ pháp và thống kê.
Early work in NER systems in the 1990s was aimed primarily at extraction from journalistic articles. Attention then turned to processing of military dispatches and reports. Later stages of the automatic content extraction (ACE) evaluation also included several types of informal text styles, such as weblogs and text transcripts from conversational telephone speech conversations. Since about 1998, there has been a great deal of interest in entity identification in the molecular biology, bioinformatics, and medical natural language processing communities. The most common entity of interest in that domain has been names of genes and gene products.
Các loại thực thể có tên [sửa]
Trong thuật ngữ thực thể có tên, từ có tên giới hạn nhiệm vụ trong những thực thể mà một hoặc nhiều rigid designators, theo định nghĩa của Kripke, tham chiếu đến. Ví dụ, công ty ô tô sáng lập bởi Henry Ford năm 1903 được đề cập là Ford hoặc công ty ô tô Ford. Rigid designators bao gồm cả tên riêng và các khái niệm tự nhiên nhất định như các loài sinh học hoặc các chất.
Các ngữ biểu thị thời gian và số (tiền tệ, phần trăm, v.v.) được thống nhất đưa vào trong ngữ cảnh của nhiệm vụ NER. Trong khi một số trường hợp của các loại trên là ví dụ tốt cho rigid designator (ví dụ: năm 2011), có rất nhiều các trường hợp không hợp lệ (ví dụ: Tôi đi nghỉ vào tháng Sáu). Trong trường hợp đầu, năm 2001 đề cập đến năm thứ 2001 của Dương lịch. Trong trường hợp sau, tháng Sáu có thể nói đến tháng của một năm không xác định (tháng Sáu năm ngoái, tháng Sáu năm tới, tháng Sáu nắm 2020, v.v.). Định nghĩa thực thể có tên có được nới lỏng trong các trường hợp trên để phù hợp với thực tiễn hay không là vấn đề tranh cãi. Do đó định nghĩa của thuật ngữ thực thể có tên không chặt chẽ và thường được cắt nghĩa lại trong ngữ cảnh nó được sử dụng.[4].
Có ít nhất là hai phân cấp phân loại thực thể có tên đã được đề xuất trong các tài liệu. Phân loại BBN, đề xuất năm 2002, được sử dụng cho bài toán trả lời câu hỏi và bao gồm 29 kiểu, 64 kiểu con.[5] Phân cấp mở rộng của Sekine, đề xuất năm 2001, tạo bởi 200 kiểu con.[6]
NER evaluation forums [sửa]
Evaluation of NER systems is critical to scientific progress of this field.
Most evaluation of these systems has been performed at conferences or contests put on by government organizations, sometimes acting in concert with contractors or academics.
| Conference | Acronym | Language(s) | Year(s) | Sponsor | Archive Site |
|---|---|---|---|---|---|
| Message Understanding Conference | MUC | English | 1987–1999 | DARPA | [1] |
| Multilingual Entity Task Conference | MET | Chinese and Japanese | 1998 | US | [2] |
| Automatic Content Extraction Program | ACE | English | 2000–2008 | NIST | [3] |
| Conference on Computational Natural Language Learning | CoNLL | Spanish and Dutch / German and English | 2002–2003 | [4] | |
| Evaluation contest for named entity recognizers in Portuguese | HAREM | Portuguese | 2004–2008 | Linguateca | [5] |
| Information Retrieval and Extraction Exercise | IREX | Japanese | 1998–1999 | [6] | |
| ACL Special Interest Group in Chinese | SIGHan | Chinese | 2006 | [7] | |
| TAC Knowledge Base Population Evaluation | TAC/KBP | English | 2009– | NIST | [8] |
Chú thích [sửa]
- ^ Elaine Marsh, Dennis Perzanowski, "MUC-7 Evaluation of IE Technology: Overview of Results", 29 April 1998 PDF
- ^ MUC-07 Proceedings (Named Entity Tasks)
- ^ Poibeau, Thierry and Kosseim, L. (2001) Proper Name Extraction from Non-Journalistic Texts. Proc. Computational Linguistics in the Netherlands.
- ^ http://www.webknox.com/blog/2010/09/named-entity-definition/
- ^ http://www.ldc.upenn.edu/Catalog/docs/LDC2005T33/BBN-Types-Subtypes.html
- ^ http://nlp.cs.nyu.edu/ene/
Xem thêm [sửa]
Liên kết ngoài [sửa]
- Named entity recognition for Arabic – Issues and challenges in morphologically rich languages such as Arabic