Mạng từ

Bách khoa toàn thư mở Wikipedia
Bước tới: menu, tìm kiếm

Mạng từ là một cơ sở dữ liệu từ vựng tiếng Anh.[1] Nó nhóm các từ tiếng Anh thành các tập hợp đồng nghĩa gọi là loạt đồng nghĩa, cung cấp các định nghĩa ngắn gọn và các ví dụ sử dụng, và ghi lại số lượng các quan hệ giữa các loạt đồng nghĩa này hay các thành viên của chúng. Theo cách đó Mạng từ có thể được xem như là một sự kết hợp của từ điển và từ điển đồng nghĩa và phản nghĩa. Trong khi người sử dụng có thể truy cập nó thông qua trình duyệt web, cách sử dụng trước hết của nó là trong phân tích văn bản tự động và các ứng dụng trí tuệ nhân tạo. Cơ sở dữ liệu và các công cụ phần mềm đã được tung ra thị trường/ phát hành dưới dạng giấy phép kiểu loại BSD (BSD style license) và được tự do tải về từ trang web của Mạng từ. Cả dữ liệu từ vựng (tài liệu của nhà Từ điển học) và trình biên soạn (được gọi là mài giũa) (grind) để tạo ra dữ liệu phát hành đều có. 

Lịch sử và các thành viên của nhóm[sửa | sửa mã nguồn]

Mạng từ được xây dựng tại Phòng thí nghiệm Khoa học tri nhận của Đại học Princeton dưới sự lãnh đạo của Giáo sư Tâm lý học George Armitage Miller từ năm 1985 và dưới sự lãnh đạo của Christiane Fellbaum trong những năm gần đây. Dự án đã nhận được sự tài trợ từ các cơ quan chính phủ bao gồm Quỹ Khoa học Quốc gia (National Science Foundation), DARPA, Văn phòng Công nghệ Khai phá (Disruptive Technology Office) (trước đây là Hoạt động Nghiên cứu và Phát triển Nâng cao), và REFLEX. George Miller và Christiane Fellbaum đã được nhận Giải thưởng Antonio Zampolli năm 2006 vì công việc của họ dành cho Mạng từ.

Nội dung cơ sở dữ liệu[sửa | sửa mã nguồn]

Ví dụ mục từ "Hamburger" trong Mạng từ

Cho đến tháng 11 năm 2012, phiên bản trực tuyến mới nhất của Mạng từ là 3.1 [2]. Cơ sở dữ liệu bao gồm 155.287 từ được tổ chức thành 117.659 loạt đồng nghĩa với tổng số 206.941 cặp nghĩa-từ; ở dạng nén, nó khoảng 12 megabytes.[3]

Mạng từ bao gồm các phạm trù từ vựng danh từ, động từ, tính từ và trạng từ và bỏ qua giới từ, hạn định từ và các từ chức năng khác. 

Các từ thuộc cùng một phạm trù từ vựng đồng nghĩa tương đối với nhau được nhóm lại thành loạt đồng nghĩa. Loạt đồng nghĩa bao gồm các từ đơn cũng như các tổ hợp như "eat out" (ăn ở ngoài) và "car pool" (nhóm đi chung xe). Các nghĩa khác nhau của từ đa nghĩa được quy gán cho các loạt đồng nghĩa khác nhau. Nghĩa của một loạt đồng nghĩa được làm rõ hơn nhờ một chú giải xác định ngắn gọn và một hay hơn một ví dụ cách sử dụng. Một loạt đồng nghĩa tính từ điển hình như sau:

good, right, ripe – (most suitable or right for a particular purpose; "a good time to plant tomatoes"; "the right time to act"; "the time is ripe for great sociological changes")

Tất cả các loạt đồng nghĩa được kết nối với các loạt đồng nghĩa khác nhờ các quan hệ ngữ nghĩa. Những mối quan hệ này, không giống nhau ở tất cả các phạm trù từ vựng, bao gồm: 

  • Danh từ
    • bao: Y là bao của X nếu mọi X là (một loại của) Y (canine (họ Chó) là bao của dog (chó)) 
    • thuộc: Y là thuộc của X nếu mọi Y là (một loại của) X (dog (chó) là thuộc của canine (họ Chó)) 
    • thuật ngữ ngang hàng: Y là thuật ngữ ngang hàng của X nếu X và Y cùng chung một từ bao (wolf (chó sói) là thuật ngữ ngang hàng của dog (chó), và dog (chó) là thuật ngữ ngang hàng của wolf (chó sói)) 
    • phân: Y là phân của X nếu Y là một phần của X (window (cửa sổ) là phân của building (toà nhà)) 
    • tổng: Y là tổng của X nếu X là một phần của Y (building (toà nhà) là tổng của window (cửa sổ)) 
  • Động từ
    • bao: động từ Y là bao của động từ X nếu hành động X là (một loại của) Y (to perceive (nhận thức) là bao của to listen (nghe)) 
    • cách: động từ Y là cách của động từ X nếu hành động Y thực hiện X theo một cách nào đó (to lisp (nói ngọng) là cách của to talk (nói)) 
    • suy ra: động từ Y được suy ra từ X nếu khi thực hiện X bạn phải thực hiện Y (to sleep (ngủ) được suy ra từ to snore (ngáy)) 
    • thuật ngữ ngang hàng: những động từ này có chung từ bao (to lisp (nói ngọng) và to yell (la hét)) 

Những quan hệ ngữ nghĩa này diễn ra giữa các thành viên của các loạt đồng nghĩa có kết nối với nhau. Các thành viên của loạt đồng nghĩa đơn lẻ (các từ) cũng có thể được nối kết với các quan hệ ngữ nghĩa. Chẳng hạn, (một nghĩa của) danh từ "director" (người điều khiển, người chỉ huy) được nối với (một nghĩa của) động từ "direct" (điều khiển, chỉ huy) từ chỗ nó bắt nguồn thông qua một đường kết nối hình thái ngữ nghĩa 

Các chức năng hình thái học của phần mềm phân phối dữ liệu cố gắng truy tìm (deduce) thân từ (lemma) hay gốc từ (stem) của một từ từ sự nhập liệu của người sử dụng. Các dạng thức bất quy tắc được lưu thành một danh sách, và khi tra từ "ate" (ăn) sẽ được dẫn tới "eat" (ăn), chẳng hạn.

Cấu trúc tri thức[sửa | sửa mã nguồn]

Cả danh từ và động từ đều được tổ chức thành tầng bậc, được xác định bằng các quan hệ bao thuộc hay các mối quan hệ IS A. Chẳng hạn, một nghĩa của từ dog (chó) được tìm thấy trong hệ thống thứ bậc bao thuộc sau; các từ ở cùng một thứ bậc đại diện cho các thành viên của loạt đồng nghĩa. Mỗi nhóm đồng nghĩa có duy nhất một chú dẫn (index).  

dog, domestic dog, Canis familiaris
    => canine, canid
       => carnivore
         => placental, placental mammal, eutherian, eutherian mammal
           => mammal
             => vertebrate, craniate
               => chordate
                 => animal, animate being, beast, brute, creature, fauna
                   =>...

Ở đỉnh, hệ thống thứ bậc này được tổ chức thành 25 “cây” gốc (beginner) cho danh từ và 15 cho động từ (được gọi là tài/ tư liệu từ vựng ở mức duy trì. Tất cả được nối với một loạt đồng nghĩa gốc duy nhất, “thực thể” (entity). Hệ thống thứ bậc của danh từ sâu hơn hệ thống thứ bậc của động từ.

Tính từ không được tổ chức thành cây thứ bậc. Thay vào đó, 2 “trung tâm” trái nghĩa như “nóng” (hot) và “lạnh” (cold) hình thành nên hai cực sóng đôi, trong khi các loạt đồng nghĩa “vệ tinh” như “steaming" (nổi giận) và "chilly” (lạnh lùng”) kết nối với cực tương ứng của chúng thông qua các quan hệ “tương tự” (similarity). Các tính từ có thể được trực quan theo cách này như "hình quả tạ” (dumbbells) hơn là “hình cây” (tree). 

Khía cạnh Ngôn ngữ học tâm lý của Mạng từ[sửa | sửa mã nguồn]

Mục đích ban đầu của dự án Mạng từ là xây dựng một cơ sở dữ liệu từ vựng phù hợp với lý thuyết bộ nhớ ngữ nghĩa của con người (human semantic memory) phát triển cuối những năm 1960. Các thực nghiệm tâm lý chỉ ra rằng người nói đã sắp xếp tri thức của họ về nhận thức theo hệ thống thứ bậc, tiết kiệm. Thời gian truy hồi cần thiết để truy cập tri thức khái niệm dường như quan hệ trực tiếp với số tầng bậc mà người nói cần “vượt qua” để tiếp cận tri thức. Do vậy, người nói có thể kiểm tra nhanh hơn chim hoàng yến (canaries) có thể hót vì chim hoàng yến là loài chim biết hót (“hót” (sing) là một thuộc tính được lưu trữ ở cùng một bậc với “chim hoàng yến”), nhưng đòi hỏi nhiều thời gian hơn một chút để kiểm tra xem chim hoàng yến có thể bay được hay không (nơi họ phải truy cập khái niệm “chim” (bird) ở bậc trên) và thậm chí cần nhiều thời gian hơn để kiểm tra xem chim hoàng yến có da hay không (cần phải tra cứu qua nhiều cấp bậc bao thuộc, tới tận “động vật” (animal).[4] Trong khi những thực nghiệm và các lý thuyết cơ bản là chủ đề để bình phẩm, một vài tổ chức của Mạng từ thì phù hợp với chứng cứ thực nghiệm. Chẳng hạn, chứng mất ngôn ngữ không có mục đích (anomic aphasia) ảnh hưởng một cách có chọn lựa tới khả năng tạo từ của người nói từ một phạm trù ngữ nghĩa cụ thể, hệ thống thứ bậc của Mạng từ. Các tính từ trái nghĩa (các tính từ trung tâm của Mạng từ trong cấu trúc hình quả tạ) được thấy xảy ra đồng thời thường xuyên hơn là ngẫu nhiên, một thực tế đã được thấy trong nhiều ngôn ngữ.

Mạng từ như là một thực thể từ vựng[sửa | sửa mã nguồn]

Mạng từ thỉnh thoảng được gọi là thực thể, thuộc tính bền vững mà không do người sáng tạo ra nó tạo ra. Các mối quan hệ bao/thuộc giữa các loạt đồng nghĩa danh từ có thể được diễn giải như là các mối quan hệ được chuyên biệt hoá giữa các phạm trù khái niệm. Nói một cách khác, Mạng từ có thể được diễn giải và sử dụng như là một thực thể từ vựng theo cái nghĩa của khoa học máy tính. Tuy nhiên, một thực thể như vậy thông thường nên được sửa chữa trước khi được sử dụng vì nó chứa hàng trăm sự đối lập ngữ nghĩa cơ bản như (i) sự tồn tại của sự chuyên biệt hoá phổ biến cho các phạm trù đơn nhất (exclusive) và (ii) sự dư thừa trong hệ thống thứ bậc chuyên biệt hoá. Hơn nữa, cải biến Mạng từ thành thực thể từ vựng có thể sử dụng được để biểu thị tri thức thông thường cũng nên bao gồm (i) sự phân biệt các quan hệ chuyên biệt hoá thành các quan hệ tiểu loại Của (Of) và trường hợp Của (Of), và (ii) liên kết các sự nhận dạng đơn nhất về mặt trực giác với mỗi phạm trù. Mặc dù những sự sửa chữa và cải biến như vậy đã được thực hiện và chứng minh bằng tài liệu như là một phần của sự tích hợp của Mạng từ 1.7 cơ sở tri thức có thể cập nhật được có tính chất cộng tác của WebKB-2,[5] (một cách điển hình, truy hồi thông tin định hướng tri thức (knowledge-oriented information retrieval), một cách đơn giản sử dụng lại nó một cách trực tiếp. Mạng từ cũng đã bị biến đổi thành một sự chuyên biệt hoá chính thức, bằng các phương tiện của phương pháp lai ghép đảo lộn từ trên xuống dưới để trích rút một cách tự động các mối quan hệ liên kết từ Mạng từ, và diễn giải các mối liên kết này bằng thuật ngữ của một loạt các quan hệ nhận thức, được định nghĩa chính thức trong thực thể nền tảng DOLCE (DOLCE foundational ontology).[6]

Trong phần lớn các công trình khẳng định đã hoà nhập Mạng từ vào các thực thể, nội dung của Mạng từ vẫn chưa được chỉnh sửa một cách đơn giản khi mà nó dường như là rất cần thiết; để thay thế, Mạng từ đã được diễn giải lại một cách nặng nề và cập nhật bất cứ khi nào thích hợp. Đây là trường hợp khi mà, chẳng hạn, thực thể ở mức đỉnh của Mạng từ được cấu trúc lại [7] tuỳ theo sự tiếp cận dựa trên OntoClean hay là khi Mạng từ được sử dụng như là nguồn chính yếu để xây dựng các lớp thấp hơn của thực thể SENSUS. 

Hạn chế[sửa | sửa mã nguồn]

Mạng từ không bao gồm các thông tin về từ nguyên hay cách phát âm của từ và nó chỉ chứa các thông tin rất hạn chế về cách dùng. Mạng từ nhằm bao phủ phần lớn tiếng Anh hàng ngày và không bao gồm nhiều thuật ngữ cụ thể của một lĩnh vực nào.  

Mạng từ là từ điển máy tính tiếng Anh được sử dụng phổ biến nhất để khử nhập nhằng nghĩa từ (word sense disambiguation (WSD)), một nhiệm vụ nhằm quy gán nghĩa thích hợp với ngữ cảnh (nghĩa là các thành viên của loạt đồng nghĩa) cho từ trong một văn bản.[8] Tuy nhiên, vẫn còn ý kiến bàn cãi rằng Mạng từ mã hoá sự phân biệt nghĩa đã được làm mịn. Sự tranh cãi này ngăn cản hệ thống khử nhập nhằng nghĩa từ đạt được mức độ biểu đạt có thể so sánh được với con người, kẻ luôn không đồng ý khi đương đầu với nhiệm vụ lựa chọn nghĩa từ một từ điển mà nghĩa đó làm cho một từ hợp với một ngữ cảnh. Vấn đề có tính hạt nhân này đã được khắc phục bằng phương pháp nhóm các đề xuất (proposingclustering) đã tự động nhóm các nghĩa tương tự của cùng một từ vào với nhau.[9][10][11]

Mạng từ có phép hay Mạng từ mở[sửa | sửa mã nguồn]

Sau đó, một số mạng từ đã được xây dựng cho các ngôn ngữ khác. Một cuộc điều tra năm 2012 đã lập ra danh sách các mạng từ và tính khả dụng của nó.[12] Trong một nỗ lực truyền bá cách sử dụng của Mạng từ, cộng đồng Mạng từ toàn cầu đã dần dần cấp phép lại cho các Mạng từ của họ tới một miền mở nơi mà các nhà nghiên cứu và phát triển có thể dễ dàng truy cập và sử dụng Mạng từ như là tài nguyên ngôn ngữ để cung cấp tri thức từ vựng và thực thể trong nhiệm vụ Xử lý ngôn ngữ tự nhiên (Natural Language Processing). 

Mạng từ đa ngôn ngữ mở (The Open Multilingual WordNet) [13] cung cấp sự truy cập cho các mạng từ được cấp phép mở bằng đủ loại ngôn ngữ, tất cả được nối với Mạng từ tiếng Anh của Princeton (PWN). Mục đích là để việc sử dụng các mạng từ bằng nhiều ngôn ngữ trở nên dễ dàng. 

Ứng dụng[sửa | sửa mã nguồn]

Mạng từ được sử dụng cho một số các mục đích khác nhau trong hệ thống thông tin, bao gồm khử nhập nhằng nghĩa từ, truy hồi thông tin, phân loại văn bản tự động, tóm tắt văn bản tự động, dịch máy và thậm chí lập các bảng trò chơi ô chữ tự động. 

Cách sử dụng phổ biến của Mạng từ là xác định sự tương tự giữa các từ. Nhiều thuật toán khác nhau đã được đề xuất, và các thuật toán này bao gồm cả việc đo đạc khoảng cách giữa các từ và các loạt đồng nghĩa trong cấu trúc đồ hoạ của Mạng từ, như là tính toán số cạnh giữa các loạt đồng nghĩa. Trực quan là hai từ hay loạt đồng nghĩa càng gần nhau thì nghĩa của chúng càng gần nhau. Số lượng các thuật toán từ tương tự dựa vào Mạng từ được thực hiện trong gói Perl được gọi là Sự tương tự Mạng từ (WordNet::Similarity),[14] và trong gói Python được gọi là NLTK. Những kĩ thuật tương tự dựa trên Mạng từ phức tạp hơn khác gồm ADW,[15] cái mà sự thực hiện nó chỉ có giá trị trong Java. Mạng từ cũng có thể được sử dụng để kết nối chéo các bảng từ vựng khác.[16]

Giao diện[sửa | sửa mã nguồn]

Princeton duy trì một danh sách các dự án liên quan [17] bao gồm các kết nối tới một vài giao diện lập trình ứng dụng đã được sử dụng rộng rãi sẵn sàng cho việc truy cập Mạng từ sử dụng các ngôn ngữ và môi trường lập trình khác nhau. 

Các dự án và phát triển mở rộng liên quan[sửa | sửa mã nguồn]

Mạng từ được kết nối với nhiều cơ sở dữ liệu của trang Web ngữ nghĩa (Semantic Web). Mạng từ cũng được tái sử dụng phổ biến thông qua các ánh xạ giữa các loạt đồng nghĩa của Mạng từ và các phạm trù từ các thực thể. Thông thường nhất, chỉ các phạm trù ở mức đỉnh của Mạng từ mới được ánh xạ. 

Hiệp hội Mạng từ toàn cầu[sửa | sửa mã nguồn]

Hiệp hội Mạng từ toàn cầu (The Global WordNet Association (GWA)) [18] là tổ chức phi thương mại và công cộng (public) đã cung cấp một diễn đàn để thảo luận, chia sẻ và kết nối các mạng từ cho tất cả các ngôn ngữ trên thế giới. Hiệp hội Mạng từ toàn cầu cũng xúc tiến sự chuẩn hoá của các mạng từ thông qua các ngôn ngữ khác nhau để đảm bảo sự thống nhất trong việc liệt kê danh sách các loạt đồng nghĩa khác nhau trong ngôn ngữ của nhân loại. Hiệp hội Mạng từ toàn cầu giữ danh sách của các mạng từ đã phát triển trên khắp thế giới.[19]

Ngôn ngữ khác[sửa | sửa mã nguồn]

  • CWN (Mạng từ tiếng Trung Quốc (Chinese Wordnet hay 中文詞彙網路)) do Trường Đại học Quốc gia Đài Loan tài trợ.[20] 
  • WOLF (Mạng từ Tự do tiếng Pháp (WordNet Libre du Français)), phiên bản tiếng Pháp của Mạng từ.[21] 
  • JAWS (Just Another WordNet Subset), phiên bản tiếng Pháp khác của Mạng từ [22] được xây dựng bằng cách sử dụng Wiktionary và khoảng trống ngữ nghĩa 
  • IndoWordNet [23] là cơ sở tri thức từ vựng đã được kết nối của các mạng từ của 18 ngôn ngữ đã được sắp xếp của Ấn Độ. 
  • Dự án MultiWordNet,[24] Mạng từ đa ngôn ngữ nhằm xây dựng Mạng từ tiếng Italia được liên kết chặt chẽ với Mạng từ Princeton. 
  • Dự án EuroWordNet [25] đã xây dựng Mạng từ cho nhiều ngôn ngữ châu Âu và đã kết nối chúng với nhau nhưng chúng không miễn phí. Dự án Mạng từ toàn cầu cố gắng sắp xếp việc xây dựng và kết nối của “các mạng từ” cho tất cả các ngôn ngữ.[26] Nhà in Đại học Oxford (Oxford University Press), Nhà xuất bản Từ điển tiếng Anh Oxford, đã có những kế hoạch xây dựng đối thủ trực tuyến của chính họ với WordNet. [cần dẫn nguồn] 
  • Dự án BalkaNet [27] đã xây dựng Mạng từ cho sáu ngôn ngữ châu Âu (Bulgaria, Czech, Hi Lạp, Romania, Thổ Nhĩ Kì và Serbia). Đối với dự án này, trình soạn thảo Mạng từ dựa trên XML dựng sẵn một cách tự do đã được phát triển. Trình soạn thảo này – VisDic – không còn nằm trong sự phát triển tích cực nữa, nhưng vẫn tiếp tục được sử dụng để xây dựng nhiều Mạng từ. Thế hệ tiếp theo của nó, DEBVisDic, là ứng dụng máy khách-máy chủ và hiện được sử dụng để soạn thảo nhiều Mạng từ (Tiếng Hà Lan trong dự án Cornetto, tiếng Phần Lan, tiếng Hungaria, một số ngôn ngữ châu Phi, tiếng Trung Quốc). 
  • UWN là cơ sở tri thức từ vựng đa ngôn ngữ được xây dựng một cách tự động mở rộng Mạng từ để bao phủ hơn một triệu từ trong nhiều ngôn ngữ khác nhau.[28]
  • Những dự án như BalkaNet và EuroWordNet làm cho việc xây dựng những mạng từ độc lập được nối kết với mạng từ gốc trở nên khả thi. Một trong số những dự án đó là Mạng từ tiếng Nga (Russian WordNet) do Đại học Giao thông vận tải bang Petersburg (Petersburg State University of Means of Communication) [29] tài trợ hay Mạng tiếng Nga (Russnet) [30] do Đại học bang Saint Petersburg (Saint Petersburg State University) tài trợ. 
  • FinnWordNet là phiên bản tiếng Phần Lan của Mạng từ mà ở đó tất cả các mục từ của Mạng từ tiếng Anh gốc đều được dịch ra.[31] 
  • GermaNet là phiên bản tiếng Đức của Mạng từ do Đại học Tübingen [32] phát triển. 
  • OpenWN-PT là phiên bản tiếng Bồ Đào Nha Braxin của Mạng từ gốc luôn có thể tải về một cách tự do theo giấy phép CC-BY-SA.[33] 
  • plWordNet [34] là phiên bản tiếng Ba Lan của Mạng từ do Đại học Công nghệ Wrocław (Wrocław University of Technology) phát triển. 
  • PolNet [35] là phiên bản tiếng Ba Lan của Mạng từ do Đại học Adam Mickiewicz ở Poznań (Adam Mickiewicz University) phát triển (phát hành theo giấy phép CC BY-NC-ND 3.0). 
  • BulNet là phiên bản tiếng Bulgaria của Mạng từ được phát triển tại Khoa Ngôn ngữ học máy tính của Viện Ngôn ngữ Bulgaria (Institute for Bulgarian Language), Viện Hàn lâm Khoa học Bulgaria (Bulgarian Academy of Sciences).[36] 

Dữ liệu kết nối[sửa | sửa mã nguồn]

  • BabelNet,[37] một mạng ngữ nghĩa đa ngôn ngữ rất lớn với hàng triệu khái niệm thu được từ sự tích hợp Mạng từ và Wikipedia dựa trên thuật toán ánh xạ tự động. 
  • Bản thể học (ontology) SUMO [38] đã tạo ra sự ánh xạ giữa tất cả các loạt đồng nghĩa của Mạng từ, (bao gồm danh từ, động từ, tính từ và trạng từ), và các lớp SUMO (SUMO classes). Sự bổ sung gần nhất của việc ánh xạ cung cấp các kết nối cho tất cả các thuật ngữ chuyên biệt hơn trong MId-Level Ontology (MILO), cái đã phát triển SUMO. 
  • OpenCyc,[39] cơ sở tri thức và bản thể học mở của các tri thức ngữ nghĩa thông thường hàng ngày, gồm 12.000 thuật ngữ được kết nối với các nhóm đồng nghĩa của Mạng từ. 
  • DOLCE,[40] là module đầu tiên của Thư viện thực thể nền tảng của WonderWeb (WonderWeb Foundational Ontologies Library (WFOL)). Thực thể bậc cao này đã được phát triển dưới ánh sáng của các nguyên tắc bản thể học nghiêm ngặt đã được truyền cảm hứng từ truyền thống triết học với một định hướng rõ ràng hướng về ngôn ngữ và tri nhận. OntoWordNet [41] là kết quả của một nỗ lực thực nghiệm để sắp ngang hàng bậc cao của Mạng từ với DOLCE. Sự sắp hàng như vậy gợi ra ý rằng nó có thể dẫn tới một Mạng từ “ngọt ngào một cách bản thể”, nghĩa là nghiêm ngặt hơn về mặt khái niệm, rõ ràng hơn về mặt tri nhận, và có thể khai thác được một cách hiệu quả hơn trong nhiều ứng dụng. 
  • DBpedia,[42] một cơ sở dữ liệu về thông tin cấu trúc, cũng được kết nối với Mạng từ. 
  • eXtended WordNet [43] là dự án của Đại học Texas ở Dallas (University of Texas) nhằm cải thiện Mạng từ bằng cách phân tích từ loại các chú giải về mặt ngữ nghĩa, từ đó làm cho thông tin chứa trong các định nghĩa này có giá trị cho hệ thống xử lý tri thức tự động. Nó cũng miễn phí với một sự cho phép tương tự như của Mạng từ. 
  • Dự án GCIDE đã xây dựng từ điển bằng cách kết hợp Từ điển của Webster đã hết quyền sở hữu trí tuệ từ năm 1913 với một vài định nghĩa Mạng từ và các dữ liệu do các tình nguyện viên cung cấp. Nó được phát hành theo giấy phép GPL được tự do phát hành bản sao chép và sửa chữa phiên bản với điều kiện các quyền tương tự sẽ được bảo lưu trong các công trình sao chép (copyleft license GPL). 
  • ImageNet là cơ sở dữ liệu hình ảnh được tổ chức theo tầng bậc của Mạng từ (hiện nay chỉ có danh từ), trong đó mỗi một nút của tầng bậc được mô tả bởi hàng trăm và hàng nghìn hình ảnh.[44] Hiện nay nó có trung bình hơn năm trăm hình ảnh mỗi nút. 
  • BioWordnet, phần mở rộng về y sinh của mạng từ đã bị bỏ rơi vì vấn đề về sự ổn định qua các phiên bản.[45] 
  • WikiTax2WordNet, sự ánh xạ giữa các loạt đồng nghĩa Mạng từ và các phạm trù Wikipedia.[46] 
  • WordNet++, nguồn tài nguyên gồm hàng triệu cạnh ngữ nghĩa thu được từ Wikipedia và các cặp kết nối của các loạt đồng nghĩa Mạng từ.[47] 
  • SentiWordNet, nguồn tài nguyên cho các ứng dụng khai thác quan điểm người ủng hộ đã thu được bằng cách gán nhãn tất cả các loạt đồng nghĩa của WordNet 3.0 tuỳ theo mức độ đánh giá tích cực, tiêu cực và trung hoà của họ.[48] 
  • ColorDict, là một ứng dụng của Android cho điện thoại di động sử dụng cơ sở dữ liệu mạng từ và các dữ liệu khác như Wikipedia. 
  • UBY-LMF, cơ sở dữ liệu của 10 nguồn tài nguyên bao gồm cả Mạng từ. 

Dự án liên quan[sửa | sửa mã nguồn]

  • FrameNet là cơ sở dữ liệu chia sẻ một số thứ tương tự với và chỉ dẫn tới Mạng từ. 
  • Lexical markup framework (LMF) là tiêu chuẩn ISO được định rõ trong ISO/TC37 nhằm xác định khung chuẩn chung cho việc xây dựng từ điển, bao gồm cả Mạng từ. Tập con (subset) của LMF dành cho Mạng từ được gọi là LMF Mạng từ (Wordnet-LMF). Một minh hoạ cụ thể đã được thực hiện trong phạm vi dự án KYOTO.[49] 
  • UNL Programme là dự án do UNO đỡ đầu nhằm thống nhất dữ liệu ngữ nghĩa từ vựng của nhiều ngôn ngữ được sử dụng trong dịch máy và các hệ thống trích rút thông tin. 

Phân bổ[sửa | sửa mã nguồn]

Cơ sở dữ liệu Mạng từ được sắp xếp như là một gói từ điển (thường là một tệp riêng lẻ) cho các phần mềm sau:

Xem thêm[sửa | sửa mã nguồn]

  • Lexical Markup Framework
  • Machine-readable dictionary
  • Synonym Ring
  • Taxonomy
  • ThoughtTreasure

Tham khảo[sửa | sửa mã nguồn]

  1. ^ G. A. Miller, R. Beckwith, C. D. Fellbaum, D. Gross, K. Miller. 1990. WordNet: An online lexical database. Int. J. Lexicograph. 3, 4, pp. 235–244.
  2. ^ "Current WordNet version". Wordnet.princeton.edu. 2012-11-09. Truy cập2014-03-11.
  3. ^ “WordNet Statistics”. Wordnet.princeton.edu. Truy cập ngày 11 tháng 3 năm 2014. 
  4. ^ Collins A., Quillian M. R. 1972. Experiments on Semantic Memory and Language Comprehension. In Cognition in Learning and Memory. Wiley, New York.
  5. ^ “Philippe Martin's home page”. 
  6. ^ Gangemi, A.; Navigli, R.; Velardi, P. (2003). The OntoWordNet Project: Extension and Axiomatization of Conceptual Relations in WordNet (PDF). Proc. of International Conference on Ontologies, Databases and Applications of SEmantics (ODBASE 2003) (Catania, Sicily (Italy)). tr. 820–838. 
  7. ^ Oltramari, A.; Gangemi, A.; Guarino, N.; Masolo, C. (2002). Restructuring WordNet's Top-Level: The OntoClean approach. OntoLex'2 Workshop, Ontologies and Lexical Knowledge Bases (LREC 2002). Las Palmas, Spain. pp. 17–26. CiteSeerX: 10.1.1.19.6574.
  8. ^ R. Navigli. Word Sense Disambiguation: A Survey, ACM Computing Surveys, 41(2), 2009, pp. 1–69
  9. ^ E. Agirre, O. Lopez. 2003. Clustering WordNet Word Senses. In Proc. of the Conference on Recent Advances on Natural Language (RANLP’03), Borovetz, Bulgaria, pp. 121–130.
  10. ^ R. Navigli. Meaningful Clustering of Senses Helps Boost Word Sense Disambiguation Performance, In Proc. of the 44th Annual Meeting of the Association for Computational Linguistics joint with the 21st International Conference on Computational Linguistics (COLING-ACL 2006), Sydney, Australia, July 17-21st, 2006, pp. 105–112.
  11. ^ R. Snow, S. Prakash, D. Jurafsky, A. Y. Ng. 2007. Learning to Merge Word Senses, In Proc. of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Republic, pp. 1005–1014.
  12. ^ Francis Bond and Kyonghee Paik 2012a. A survey of wordnets and their licenses. In Proceedings of the 6th Global WordNet Conference (GWC 2012). Matsue. 64–71
  13. ^ “Open Multilingual Wordnet”. 
  14. ^ "Ted Pedersen - WordNet::Similarity". D.umn.edu. 2008-06-16. Retrieved 2014-03-11.
  15. ^ M. T. Pilehvar, D. Jurgens and R. Navigli.Align, Disambiguate and Walk: A Unified Approach for Measuring Semantic Similarity.. Proc. of the 51st Annual Meeting of the Association for Computational Linguistics (ACL 2013), Sofia, Bulgaria, August 4–9, 2013, pp. 1341-1351.
  16. ^ Ballatore A. và đồng nghiệp (2014). “Linking geographic vocabularies through WordNet”. Annals of GIS 20 (2). 
  17. ^ "Related projects - WordNet - Related projects". Wordnet.princeton.edu. 2014-01-06. Truy cập 2014-03-11.
  18. ^ The Global WordNet Association (2010-02-04). "globalwordnet.org". globalwordnet.org. Truy cập 2014-03-11.
  19. ^ “Wordnets in the World”. Bản gốc lưu trữ ngày 21 tháng 10 năm 2011. 
  20. ^ Chinese Wordnet (中文詞彙網路) official page at National Taiwan University
  21. ^ S. Benoît, F. Darja. 2008. Building a free French wordnet from multilingual resources. In Proc. of Ontolex 2008, Marrakech, Maroc.
  22. ^ C. Mouton, G. de Chalendar. 2010.JAWS: Just Another WordNet Subset. In Proc. of TALN 2010.
  23. ^ Pushpak Bhattacharyya, IndoWordNet, Lexical Resources Engineering Conference 2010 (LREC 2010), Malta, May, 2010.
  24. ^ E. Pianta, L. Bentivogli, C. Girardi. 2002.MultiWordNet: Developing an aligned multilingual database. In Proc. of the 1st International Conference on Global WordNet, Mysore, India, pp. 21–25.
  25. ^ P. Vossen, Ed. 1998. EuroWordNet: A Multilingual Database with Lexical Semantic Networks. Kluwer, Dordrecht, The Netherlands.
  26. ^ "The Global WordNet Association". Globalwordnet.org. 2010-02-04. Truy cập2014-01-05.
  27. ^ D. Tufis, D. Cristea, S. Stamou. 2004.Balkanet: Aims, methods, results and perspectives. A general overview. Romanian J. Sci. Tech. Inform. (Special Issue on Balkanet), 7(1-2), pp. 9–43.
  28. ^ "UWN: Towards a Universal Multilingual Wordnet - D5: Databases and Information Systems (Max-Planck-Institut für Informatik)". Mpi-inf.mpg.de. 2011-08-14. Truy cập2014-01-05.
  29. ^ "Русский WordNet". Pgups.ru. Retrieved2014-01-05.
  30. ^ "RussNet: Главная страница". Project.phil.spbu.ru. Truy cập 2014-03-11.
  31. ^ "FinnWordNet – The Finnish WordNet - Department of General Linguistics". Ling.helsinki.fi. Retrieved 2014-01-05.
  32. ^ "GermaNet". Sfs.uni-tuebingen.de. Retrieved2014-03-11.
  33. ^ "arademaker/openWordnet-PT ¡ GitHub". Github.com. Truy cập 2014-01-05.
  34. ^ “Słowosieć”. Truy cập 7 tháng 10 năm 2015. 
  35. ^ “PolNet”. 
  36. ^ "BulNet". dcl.bas.bg. Retrieved 2015-05-07.
  37. ^ R. Navigli, S. P. Ponzetto. BabelNet: Building a Very Large Multilingual Semantic Network. Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010), Uppsala, Sweden, July 11–16, 2010, pp. 216–225.
  38. ^ A. Pease, I. Niles, J. Li. 2002. The suggested upper merged ontology: A large ontology for the Semantic Web and its applications. In Proc. of the AAAI-2002 Workshop on Ontologies and the Semantic Web, Edmonton, Canada.
  39. ^ S. Reed and D. Lenat. 2002. Mapping Ontologies into Cyc. In Proc. of AAAI 2002 Conference Workshop on Ontologies For The Semantic Web, Edmonton, Canada, 2002
  40. ^ Masolo, C., Borgo, S., Gangemi, A., Guarino, N., Oltramari, A., Schneider, L.S. 2002.WonderWeb Deliverable D17. The WonderWeb Library of Foundational Ontologies and the DOLCE ontology. Report (ver. 2.0, 15-08-2002)
  41. ^ Gangemi, A., Guarino, N., Masolo, C., Oltramari, A. 2003 Sweetening WordNet with DOLCE. In AI Magazine 24(3): Fall 2003, pp. 13–24
  42. ^ C. Bizer, J. Lehmann, G. Kobilarov, S. Auer, C. Becker, R. Cyganiak, S. Hellmann, DBpedia – A crystallization point for the Web of Data. Web Semantics, 7(3), 2009, pp. 154–165
  43. ^ S. M. Harabagiu, G. A. Miller, D. I. Moldovan. 1999. WordNet 2 – A Morphologically and Semantically Enhanced Resource. In Proc. of the ACL SIGLEX Workshop: Standardizing Lexical Resources, pp. 1–8.
  44. ^ J. Deng, W. Dong, R. Socher, L. Li, K. Li, L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In Proc. of 2009 IEEE Conference on Computer Vision and Pattern Recognition
  45. ^ M. Poprat, E. Beisswanger, U. Hahn. 2008.Building a BIOWORDNET by Using WORDNET’s Data Formats and WORDNET’s Software Infrastructure – A Failure Story. InProc. of the Software Engineering, Testing, and Quality Assurance for Natural Language Processing Workshop, pp. 31–39.
  46. ^ S. Ponzetto, R. Navigli. Large-Scale Taxonomy Mapping for Restructuring and Integrating Wikipedia, In Proc. of the 21st International Joint Conference on Artificial Intelligence (IJCAI 2009), Pasadena, California, July 14-17th, 2009, pp. 2083–2088.
  47. ^ S. P. Ponzetto, R. Navigli. Knowledge-rich Word Sense Disambiguation rivaling supervised systems. In Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), 2010, pp. 1522–1531.
  48. ^ S. Baccianella, A. Esuli and F. Sebastiani.SentiWordNet 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining. In Proceedings of the 7th Conference on Language Resources and Evaluation (LREC'10), Valletta, MT, 2010, pp. 2200–2204.
  49. ^ Piek Vossen, Claudia Soria, Monica Monachini: Wordnet-LMF: a standard representation for multilingual wordnets, in LMF Lexical Markup Framework, edited by Gil Francopoulo ISTE / Wiley 2013 (ISBN 978-1-84821-430-9)
  50. ^ “Babylon WordNet”. Babylon.com. Truy cập ngày 11 tháng 3 năm 2014. 
  51. ^ “GoldenDict - Browse /dictionaries at Sourceforge.net”. Sourceforge.net. Ngày 1 tháng 12 năm 2010. Truy cập ngày 5 tháng 1 năm 2014. 
  52. ^ “Lingoes WordNet”. Lingoes.net. Ngày 16 tháng 11 năm 2007. Truy cập ngày 11 tháng 3 năm 2014. 

Liên kết ngoài[sửa | sửa mã nguồn]