Corpus des textes

Dans la linguistique , un corpus (corpus pluriels de de ) ou le corpus des textes de est un grand et structuré ensemble de textes (maintenant habituellement électroniquement stocké et traité). Il est employé pour faire l'analyse statistique, vérifiant des occurrences ou validant des règles linguistiques sur un univers spécifique.

Un corpus peut contenir des textes dans des données unilingues (corpus monolingue de ) ou des textes dans des langues multiples (corpus multilingue de ). Des corpus multilingues qui ont été particulièrement composés pour la comparaison side-by-side s'appellent les corpus parallèles alignés par .

Afin de rendre les corpus plus utiles pour faire la recherche linguistique, ils sont souvent soumis à un processus connu sous le nom d'annotation . Un exemple d'annoter un corpus est partie du discours de étiquetant , ou le de Position-étiquetage, dans lequel des informations sur la partie du discours de chaque mot (verbe, nom, adjectif, etc.) sont ajoutées au corpus sous forme d'étiquettes de . Un autre exemple indique la forme (de base) du lemme de chaque mot. Quand la langue du corpus n'est pas une langue de travail des chercheurs qui l'emploient, le interlinéaire annotant est employé pour faire le bilingue d'annotation.

Les corpus sont la base de connaissance principale dans la linguistique de corpus . L'analyse et le traitement de divers types de corpus sont également le sujet de beaucoup de travail en linguistique computationnelle , la reconnaissance de la parole et la traduction automatique , où elles sont employées souvent pour créer les modèles de Markov cachés par pour étiquetage Position-et autre. Les corpus et les listes de fréquence de que a dérivées de eux sont utiles pour l'enseignement des langues .

Corpus archéologiques

Des corpus des textes sont également employés dans l'étude des documents historiques par exemple dans les tentatives aux manuscrits antiques du déchiffrement , ou dans la bourse biblique . Quelques corpus archéologiques peuvent être d'une telle durée qu'ils fournissent un instantané à temps. Un des corpus les plus courts à temps, peut être les textes des lettres d'Amarna de de 15-30 ans ( 1350 AVANT JÉSUS CHRIST ). Le corpus de d'une ville antique, (par exemple le " ; Kültepe Texts" de la Turquie), peut passer par une série de corpus, déterminée par leur emplacement de trouvaille date.

Quelques corpus notables des textes

Anglais :
Corpus national américain
Banque de anglais
Corpus national britannique
Corpus de Brown de
Corpus de l'anglais d'Oxford de
Corpus écossais de des textes et de la parole
Linguae Graecae (le grec ancien) de thesaurus de
Projet Néo--Assyrien de corpus des textes de
Le Amarna marque avec des lettres , (pour Akkadian , Egyptien, Sumerogram 's, etc.) D'autres langues :
Corpus national croate
De de Persan corpus aujourd'hui
Corpus de Hamshahri de qu'un corpus persan contemporain pour l'IR recherche
Corpus de Bijankhan de qu'un corpus persan contemporain pour NLP recherche

Voir également

concordance
Linguistique de corpus
Consortium de données linguistiques de
Traitement de langage naturel
Trousse à outils de langage naturel
Alignement des textes parallèles de
Moteurs de recherche de : ils accèdent au " ; corpus" de Web ;.
Mémoire de traduction
Treebank
Texte bruyant

.

Random links:Tampon de coton | Réseau d'écoulement | Luboš Kubík | Rockstar Toronto | Rue John de Powell | Recopilación_de_texto