WordNet

Le WordNet est un lexique sémantique pour l'anglais . Il groupe des mots anglais en jeux de synonymes appelés le Synsets de , fournit sous peu, des définitions générales, et des disques que les relations sémantiques du divers entre les ces le synonyme place. Le but est double : pour produire une combinaison du dictionnaire et du thesaurus qui est plus intuitivement utilisable, et soutenir des applications d'analyse automatique des textes et d'intelligence artificielle . Les outils logiciels de base de données et ont été libérés sous un permis de modèle de schéma de et peuvent être téléchargés et employés librement. La base de données peut également être le passé en revue en ligne.

WordNet a été créé et est maintenu au laboratoire de la Science cognitive de l'Université de Princeton sous la direction du George A. Miller du professeur de la psychologie . Le développement a commencé dans le 1985 . Au cours des années, le projet a reçu environ $3 millions de placement, principalement des organismes gouvernementaux intéressés à la traduction automatique . Ces dernières années, le Dr. Christiane Fellbaum a surveillé le développement de WordNet.

Contenu de base de données

Le en date de 2006 , la base de données contient environ 150.000 mots organisés dans plus de 115.000 que le Synsets pour un total de 207.000 mot-sentent des paires ; dans le forme comprimée de , c'est environ 12 méga-octets dans la taille.

WordNet distingue les noms , les verbes , les adjectifs et les adverbes parce qu'ils suivent différentes règles grammaticales. Chaque synset contient un groupe de mots ou de collocations synonymes (une collocation de est un ordre des mots qui vont ensemble former une signification spécifique, telle que le " ; " du carpool ;); les différents sens d'un mot sont dans différents synsets. La signification des synsets est encore clarifiée avec le short définissant les lustres de (des définitions et/ou des phrases d'exemple). Un synset typique d'exemple avec le lustre est :

bon, droit, mûr -- (le plus approprié ou droit pour un but particulier ; " ; un bon temps pour planter le tomatoes" ; ; " ; le bon moment à l'act" ; ; " ; le moment est venu pour le grand changes" sociologique ;)

La plupart des synsets sont reliés à d'autres synsets par l'intermédiaire d'un certain nombre de relations sémantiques. Ces relations varient basé sur le type de mot, et incluent :
Noms ** Hypernyms de ': Le de Y est un hypernym de de X si chaque de X est d'a (sorte de) Y
Hyponyms de ': Le Y est un hyponym du X si chaque Y est le X d'a (sorte de)
limites du même rang de : Le Y est une limite du même rang du X si le X et le Y partagent un hypernym
holonym : Le Y est un holonym du X si le X est une partie de Y
meronym : Le Y est un meronym du X si le Y est une partie de X
Verbes ** hypernym de : le Y de verbe est un hypernym du X de verbe si le X d'activité est le Y (voyage d'a (sorte de) de à mouvement de )
troponym de : le Y de verbe est un troponym du X de verbe si le Y d'activité fait le X d'une façon quelconque (le blèsent à l'entretien de )
entailment de : le Y de verbe est nécessité par le X si en faisant le X vous devez faire le Y (sommeil de par de ronflement)
limites du même rang de : ces verbes partageant un hypernym commun
Adjectifs ** noms relatifs de
participe de du verbe
Adverbes ** adjectifs de racine de

Tandis que les relations sémantiques s'appliquent à tous les membres d'un synset parce qu'elles partagent une signification mais sont toutes mutuellement des synonymes de que des mots de peut également être relié à d'autres mots par des relations lexicologiques, y compris les antonymes (opposúx de de l'un l'autre) et derivationally connexe, aussi bien.

WordNet fournit également le compte de polysémie de d'un mot : le nombre de synsets qui contiennent le mot. Si un mot participe à plusieurs synsets (c. a plusieurs sens) alors typiquement que quelques sens sont beaucoup plus communs que d'autres. WordNet mesure ceci par les points de fréquence de : dans ce que plusieurs textes témoin ont tous les mots sémantiquement étiquetés avec le synset correspondant, et puis un compte fourni indiquant combien de fois un mot apparaît dans un sens spécifique.

Les fonctions de morphologie du logiciel distribué avec l'essai de base de données pour déduire le lemme ou la forme de la racine d'un mot de l'entrée de l'utilisateur ; seulement la forme de racine est stockée dans la base de données à moins qu'elle ait les formes fléchies irrégulières.

Structure de la connaissance

Des noms et les verbes sont organisés en hiérarchies, définies par le hypernym ou le EST des rapports d'A . Par exemple, le premier sens du chien mot aurait la hiérarchie suivante de hypernym ; les mots au même niveau sont des synonymes de l'un l'autre : un certain sens du chien de est synonyme de quelques autres sens du chien domestique de et des familiaris de Canis de , et ainsi de suite. Chaque ensemble de synonymes (synset de ), a un index unique et partage ses propriétés, telles qu'une définition de lustre (ou dictionnaire).

chien, chien domestique, familiaris de Canis canine de =>, canid carnivore de => => placentaire, mammifère placentaire, mammifère eutherian et eutherian mammifère de => vertébré de =>, craniate chordate de => animal de =>, être animé, bête, brute, créature, faune =>…

Au niveau supérieur, ces hiérarchies sont organisées en types de base de , 25 groupes primitifs pour des noms, et 15 pour des verbes. Ces groupes forment les dossiers lexicographiques de à un niveau d'entretien. Ces groupes primitifs sont reliés à un noeud de racine abstrait qui ont été pendant quelque temps assumés par les diverses applications qui emploient WordNet.

Dans le cas des adjectifs, l'organisation est différente. Deux sens « principaux » opposés fonctionnent en tant que poteaux binaires, alors que les synonymes « satellites » se relient à chacune des têtes par l'intermédiaire des relations de synonymie. Ainsi, les hiérarchies, et le concept impliqué des dossiers lexicographiques, n'appliquent pas ici la même manière qu'elles font pour des noms et des verbes.

Le réseau des noms est bien plus profond que celui des autres parties du discours. Les verbes ont une structure plus touffue du lointain , et des adjectifs sont organisés en beaucoup de faisceaux distincts. Des adverbes sont définis en termes d'adjectifs qu'ils sont dérivés de, et héritent ainsi de leur structure de cela des adjectifs.

Justification psychologique

Le but de WordNet était de développer un système qui serait compatible à la connaissance acquise au cours des années au sujet de la façon dont les êtres humains traitent la langue. L'aphasie anomique , par exemple, crée une condition qui semble encombrer sélectivement la capacité des individus d'appeler des objets ; ceci prend la décision pour diviser les parties du discours dans des hiérarchies distinctes plus d'une décision de principes qu'arbitraire.

Dans le cas du hyponymy , les expériences psychologiques ont indiqué que les individus peuvent accéder à des propriétés des noms plus rapidement selon quand une caractéristique devient une propriété de définition. C'est-à-dire, les individus peuvent rapidement vérifier que les canaris de peuvent chanter parce qu'un canari est un oiseau chanteur (seulement un niveau du hyponymy), mais ont besoin de légèrement plus d'heure de vérifier que les canaris de peuvent piloter (deux niveaux de hyponymy) et bien plus d'heure de vérifier des canaris de ont la peau (niveaux multiples de hyponymy). Ceci suggère que nous stockions aussi l'information sémantique d'une manière dont est tout comme WordNet, parce que nous maintenons seulement l'information la plus spécifique requise pour différencier un concept particulier des concepts semblables.

WordNet comme ontology

Les rapports de hypernym/hyponym parmi les synsets de nom peuvent être interprétés comme relations de spécialisation entre les catégories conceptuelles. En d'autres termes, WordNet peut être interprété et employé comme ontology lexicologique dans le sens de l'informatique du . Cependant, un tel ontology devrait normalement être corrigé avant d'être employée puisqu'il contient des centaines de contradictions sémantiques de base telles que (i) l'existence des spécialisations communes pour des catégories exclusives et (ii) des redondances dans la hiérarchie de spécialisation. En outre, WordNet de transformation dans un ontology lexicologique utilisable pour la représentation de connaissance devrait normalement également impliquer (i)  ; distinction des relations de spécialisation dans des relations de subtypeOf et d'instanceOf, et (ii)  ; association des marques uniques intuitives à chaque catégorie. Bien que de telles corrections et transformations aient été exécutées et documentées en tant qu'élément de l'intégration de WordNet  ; 1.7 dans la base de connaissance coopérativement pouvant être mise à jour de WebKB-2, la plupart des projets prétendant réutiliser WordNet pour des applications basées sur la connaissance (typiquement, de recherche documentaire connaissance-orienté) le réutilisent simplement en soi.

Un exemple de l'utilisation en avant WordNet, car il est, car un ontology est de déterminer la similitude entre les mots. De divers algorithmes ont été proposés, et ceux-ci incluent vu la distance entre les catégories conceptuelles de ces mots, aussi bien que considérer la structure hiérarchisée de l'ontology de WordNet. Un certain nombre de ces algorithmes WordNet-basés de similitude de mot sont mis en application dans un Perl WordNet appelé par paquet de : : Similitude.

Voir la section connexe par des projets pour plus.

Limitations

À la différence d'autres dictionnaires, WordNet n'inclut pas des informations sur l'étymologie , la prononciation et les formes des verbes irréguliers et ne contient pas seulement des informations limitées sur l'utilisation.

L'information lexicographique et sémantique réelle est maintenue dans les dossiers de lexicographe de , qui sont alors traités par un outil appelé le morcellement de pour produire la base de données répartie. Le morcellement et les dossiers de lexicographe sont librement disponibles dans une distribution séparée, mais la modification et le maintien de la base de données exige l'expertise.

Bien que WordNet contienne un suffisamment d'éventail de mots communs, il ne couvre pas le vocabulaire spécial de domaine. Puisqu'il est principalement conçu pour agir en tant que base de données fondamentale pour différentes applications, ces applications ne peuvent pas être employées dans les domaines spécifiques qui ne sont pas couverts par WordNet.

Interfaces identifiées par Princeton

Princeton maintient une liste de projets relatifs qui inclut des liens à certaines des interfaces de programmation API pour commandes Tempus-link employées couramment disponibles pour accéder à WordNet using de divers langages et environnements de programmation.

D'autres interfaces

Le projet de mâchoire fournit un Java api aux données de WordNet 2. Le code source est libéré sous le permis de MIT de .

La trousse à outils de langage naturel fournit un python api de au WordNet 3.

Lingua : : Wordnet fournit une interface de Perl à WordNet.

Dictionnaire : : CozyEnglish a mis en application une interface de WordNet 3.0 cette des ingtegrates avec le WordPress . Les propriétaires de blog et de site Web peuvent inclure cet api par l'intermédiaire d'un ensemble de code de HTML.

Le thesaurus visuel est une application commerciale abonnement-basée qui présente des données de WordNet par une interface innovatrice et facile à utiliser.

Projets relatifs

Un projet à l'université de Brown de a commencé par le Jeff Stibel , James A. Anderson , Steve Reiss et d'autres le laboratoire appelé de connaissance appliqué par ont créé un désambiguisateur using WordNet en 1998. Le projet morphed plus tard dans une compagnie appelée le Simpli , qui est maintenant possédé par le ValueClick . George Miller a joint la compagnie en tant que membre du comité consultatif. Simpli a établi un Search Engine d'Internet qui a utilisé une base de connaissances principalement basée sur WordNet pour désambiguïser et augmenter des mots-clés et des synsets pour aider à rechercher l'information en ligne. WordNet a été augmenté au moment pour ajouter la dimensionnalité accrue, telle que l'intentionality (utilisé pour x), personnes ( Albert Einstein ) et terminologie familière plus concernant la recherche d'Internet (c., blogging, commerce électronique). Les algorithmes du réseau neurologique ont recherché le WordNet augmenté des limites relatives pour désambiguïser les mots-clés de recherche (Java, dans le sens du café) et pour augmenter le synset de recherche (café, boisson, Joe) pour améliorer des résultats de Search Engine. Avant que la compagnie ait été acquise, elle a exécuté des recherches à travers des moteurs de recherche tels que le Google , Yahoo ! , Ask.

Le EuroWordNet de projet a produit WordNets pour plusieurs langues européennes et les a liées ensemble ; ce ne sont pas librement disponibles cependant. Le projet global de Wordnet essaye de coordonner la production et l'enchaînement des wordnets pour toutes les langues. La presse d'Université d'Oxford de , les éditeurs du dictionnaire de l'anglais d'Oxford de ont exprimé des plans pour produire leur propre WordNet en ligne.

Le WordNet prolongé par est un projet à l'Université du Texas de à Dallas qui vise à améliorer WordNet en analysant sémantiquement les lustres, de ce fait faisant l'information contenue dans ces définitions disponibles pour les systèmes de traitement automatiques de la connaissance. Il est également librement disponible sous un permis semblable à WordNet.

Le projet du GCIDE produit un dictionnaire en combinant un dictionnaire de Webster de du public domain à partir du 1913 avec des certains définitions et matériel de WordNet fournis par des volontaires. Il est libéré sous le GPL de permis de Copyleft .

WordNet est également généralement réutilisé par l'intermédiaire des tracés entre les catégories de WordNet et les catégories d'autres ontologies. Le plus souvent, seulement les catégories supérieures de WordNet sont tracées. Cependant, les auteurs de l'ontology de la SUMO ont produit une cartographie entre tous les synsets de WordNet, (noms y compris, verbes, adjectifs et adverbes), et les classes de SUMO de l'addition la plus récente des tracés fournit des liens à toutes les limites plus spécifiques en Ontology à mi-niveau (MILO), qui prolonge la SUMO. L'ontology supérieur d'OpenCyc est également lié à une partie de WordNet.

Dans la plupart des travaux qui prétendent avoir intégré WordNet dans d'autres ontologies, le contenu de WordNet n'a pas été simplement corrigé quand des problèmes sémantiques ont été produits ; au lieu de cela, WordNet a été employé comme source d'inspiration mais fortement réinterprété et mis à jour toutes les fois qu'approprié. C'était le cas quand, par exemple, l'ontology supérieur de WordNet a été restructuré selon l'approche basée par d'OntoClean de ou quand WordNet a été employé comme source primaire pour construire les classes inférieures avec de l'ontology de SENSUS.

Le FrameNet est un projet semblable à WordNet. Il se compose d'un lexique qui est basé sur annoter plus de 100.000 phrases avec leurs propriétés sémantiques. l'unité au foyer est l'armature lexicologique de , un type d'état ou événement ainsi que les propriétés liées à elle.

Un projet indépendant intitulé wordNet avec une première lettre minuscule W est un projet continu aux mots et aux expressions de liens par l'intermédiaire d'un chercheur Web fait sur commande .

Le cadre lexicologique (LMF) de marge bénéficiaire bénéficiaire de est des travaux en cours dans le ISO/TC37 afin de définir un cadre normalisé commun pour la construction des lexiques, y compris WordNet.

Random links:Copie de salmonelles | Ventilation de pression positive | MPE pour la Grèce 2004-2009 | Wang Hsing-ching | Anshan (Perse) | WordNet