Nhận dạng thực thể có tên
Nhận dạng thực thể có tên (tiếng Anh: named-entity recognition, viết tắt NER, còn gọi là nhận dạng thực thể định danh, xác định thực thể hoặc trích xuất thực thể) là một nhiệm vụ con của trích xuất thông tin, trong đó tìm kiếm và phân loại các thành phần nguyên tử trong văn bản vào những loại xác định trước như là tên người, tổ chức, địa điểm, thời gian, số lượng, giá trị tiền tệ, phần trăm và nhiều loại giá trị khác.
Hầu hết các nghiên cứu về hệ thống NER nhận dạng một khối văn bản chưa được chú thích như ví dụ như dưới đây:
- Jim bought 300 shares of Acme Corp. in 2006.
và tạo ra một khối văn bản được chú thích như sau:
- <ENAMEX TYPE="PERSON">Jim</ENAMEX> bought <NUMEX TYPE="QUANTITY">300</NUMEX> shares of <ENAMEX TYPE="ORGANIZATION">Acme Corp.</ENAMEX> in <TIMEX TYPE="DATE">2006</TIMEX>.
Trong ví dụ này, các chú thích có thẻ ENAMEX được phát triển cho Hội thảo Hiểu Thông điệp (MUC) vào những năm 1990.
Các hệ thống tiên tiến cho tiếng Anh có hiệu năng gần bằng con người. Ví dụ, hệ thống tốt nhất tham gia MUC-7 đạt điểm 93.39% của F-measure trong khi người chú thích được 97.60% và 96.95%.[1][2]
Các cách tiếp cận
[sửa | sửa mã nguồn]Các hệ thống NER được tạo ra bằng kỹ thuật ngữ pháp cũng như thống kê. Các hệ thống dựa trên ngữ pháp xây dựng bằng tay thường đạt độ chính xác cao hơn nhưng lại kém recall và tốn nhiều tháng làm việc của các chuyên gia ngôn ngữ có kinh nghiệm. Các hệ thống NER thống kê thường yêu cầu một lượng lớn dữ liệu huấn luyện được chú thích bằng tay.
Các phạm vi bài toán
[sửa | sửa mã nguồn]Nghiên cứu chỉ ra rằng kể cả các hệ thống tiên tiến nhất cũng giòn, nghĩa là một hệ thống phát triển cho một lĩnh vực thường không làm việc tốt với các lĩnh vực khác.[3] Người ta đang nỗ lực để tinh chỉnh các hệ thống NER để hoạt động tốt với những lĩnh vực mới; kể cả hệ thống dựa ngữ pháp và thống kê.
Các loại thực thể có tên
[sửa | sửa mã nguồn]Trong thuật ngữ thực thể có tên, từ có tên giới hạn nhiệm vụ trong những thực thể mà một hoặc nhiều rigid designator, theo định nghĩa của Kripke, tham chiếu đến. Ví dụ, công ty ô tô sáng lập bởi Henry Ford năm 1903 được đề cập là Ford hoặc công ty ô tô Ford. Rigid designator bao gồm cả tên riêng và các khái niệm tự nhiên nhất định như các loài sinh học hoặc các chất.
Các ngữ biểu thị thời gian và số (tiền tệ, phần trăm,...) được thống nhất đưa vào trong ngữ cảnh của nhiệm vụ NER. Trong khi một số trường hợp của các loại trên là ví dụ tốt cho rigid designator (ví dụ: năm 2011), có rất nhiều các trường hợp không hợp lệ (ví dụ: Tôi đi nghỉ vào tháng Sáu). Trong trường hợp đầu, năm 2001 đề cập đến năm thứ 2001 của Dương lịch. Trong trường hợp sau, tháng Sáu có thể nói đến tháng của một năm không xác định (tháng Sáu năm ngoái, tháng 6 năm tới, tháng Sáu nắm 2020, v.v.). Định nghĩa thực thể có tên có được nới lỏng trong các trường hợp trên để phù hợp với thực tiễn hay không là vấn đề tranh cãi. Do đó định nghĩa của thuật ngữ thực thể có tên không chặt chẽ và thường được cắt nghĩa lại trong ngữ cảnh nó được sử dụng.[4].
Có ít nhất là hai phân cấp phân loại thực thể có tên đã được đề xuất trong các tài liệu. Phân loại BBN, đề xuất năm 2002, được sử dụng cho bài toán trả lời câu hỏi và bao gồm 29 kiểu, 64 kiểu con.[5] Phân cấp mở rộng của Sekine, đề xuất năm 2001, tạo bởi 200 kiểu con.[6]
Xem thêm
[sửa | sửa mã nguồn]- Coreference
- Entity linking (aka named entity normalization, entity disambiguation)
- Information extraction
- Knowledge extraction
- Từ vựng được kiểm soát
- Onomastics
- Record linkage
- Smart tag (Microsoft)
Tham khảo
[sửa | sửa mã nguồn]- ^ Elaine Marsh, Dennis Perzanowski, "MUC-7 Evaluation of IE Technology: Overview of Results", ngày 29 tháng 4 năm 1998 PDF
- ^ MUC-07 Proceedings (Named Entity Tasks)
- ^ Poibeau, Thierry and Kosseim, L. (2001) Proper Name Extraction from Non-Journalistic Texts. Proc. Computational Linguistics in the Netherlands.
- ^ “WebKnox: Blog”. Truy cập 3 tháng 10 năm 2015.
- ^ “Bản sao đã lưu trữ”. Bản gốc lưu trữ ngày 9 tháng 11 năm 2011. Truy cập ngày 15 tháng 11 năm 2011.
- ^ http://nlp.cs.nyu.edu/ene/