Lemmatisation
Dans le calculant , la lemmatisation est le processus de déterminer le lemme pour un mot donné. Puisque le processus implique de déterminer la partie du discours d'un mot dans une phrase, il exige la connaissance de la grammaire d'une langue, et ce peut donc être beaucoup de travail pour mettre en application un lemmatiser pour une nouvelle langue.
Dans beaucoup de langues, les mots apparaissent sous plusieurs formes '' fléchies '' de . Par exemple, en anglais, le verbe « à marcher » peut apparaître en tant que « promenade », « marché », des « promenades », « marchant ». La forme de base, la « promenade », qui on pourrait rechercher dans un dictionnaire, s'appelle le lemme de pour le mot. La combinaison de la forme de base avec la partie du discours s'appelle souvent le lexème de du mot.
La lemmatisation est étroitement liée au refoulant . La différence est qu'un stemmer opère un mot simple sans connaissance du contexte, et ne peut pas donc distinguer entre les mots qui ont différentes significations selon la partie du discours. Cependant, il est en général plus facile mettre en application et courir des stemmers plus rapidement, et l'exactitude réduite peut pas sujet pour quelques applications.
Par exemple :
le " de mot ; better" ; a le " ; good" ; en tant que son lemme, mais ceci est manqué dans la provenance.
Les analyseurs comme Lucene Snowball stockent le format refoulé bas du mot sans connaissance de la signification, mais de tenir compte de la sémantique de la formation de mot seulement. Le mot refoulé lui-même ne pourrait pas être valide. (voir le lazi ci-dessous)
Le de
org.SnowballAnalyzer :
rapide de Fox du de
.
| Random links: | Télégraphie sans fil | Landau de Martin | Les vengeurs (bande) | Bob Dornan | Chris Leathley | Lematización |