Stylometry

Le Stylometry est l'application du l'étude du modèle linguistique , habituellement à la langue écrite. En dernières années il avec succès a été appliqué également à la musique et aux peintures de fin-art.

Stylometry est employé souvent pour attribuer la profession d'auteur au anonyme ou aux documents contestés. Il a légal aussi bien que des applications scolaires et littéraires, s'étendant du la question de la profession d'auteur des travaux de Shakespeare à la linguistique légale .

Histoire

Stylometry s'est développé hors des techniques plus tôt d'analyser des textes pour l'évidence de l'authenticité, de l'identité authorial, et d'autres questions. Un exemple tôt est le preuve du 1439 de s de Valla Lorenzo 'que la donation de de Constantine était un contrefaçon , un argument basé en partie sur une comparaison du latin avec cela utilisé dans les 4èmes documents du siècle authentique.

La pratique moderne de la discipline a reçu l'impulsion principale de l'étude des problèmes de profession d'auteur dans le drame anglais de la Renaissance. Les chercheurs et les lecteurs ont observé que quelques dramaturges de l'ère ont eu les modèles distinctifs des préférences de langue, et essayé d'employer ces modèles pour identifier des auteurs dans les travaux incertains ou de collaboration. Les efforts tôt n'étaient pas toujours réussis : en 1901, un chercheur a essayé d'employer la préférence de de John Fletcher de pour le " ; ils, " ; la forme de contractional de " ; ils, " ; comme marqueur à distinguer Fletcher et Philip Massinger dans leur collaborations&mdash ; mais il a de manière erronée utilisé une édition des travaux de Massinger dans lesquels le rédacteur avait augmenté tous les exemples de " ; them" ; au " ; them." ;

Le développement des ordinateurs et de leurs capacités pour analyser de grandes quantités de données a augmenté ce type d'effort par des ordres de grandeur. La grande capacité d'ordinateurs pour l'analyse de données, cependant, n'a pas garanti le rendement de qualité. Au début des années 60, Rev. Morton a produit une analyse par ordinateur des quatorze épîtres du nouveau testament attribué à la rue Paul, qui a prouvé que six auteurs différents avaient écrit ce corps de travail. Un contrôle de sa méthode, appliqué aux travaux du James Joyce , a donné le résultat que le Ulysse de a été écrit par cinq individus séparés, aucun de qui a eu n'importe quelle partie dans le un portrait de l'artiste en tant que jeune homme .

À temps, cependant, et avec la pratique, les chercheurs et les disciples ont raffiné leurs approches et méthodes, pour donner de meilleurs résultats. Un succès tôt de notable était la résolution de la profession d'auteur contestée dans douze des papiers de fédéraliste de par Frederick Mosteller et David Wallace. Tandis que les questions des prétentions et de la méthodologie initiales se posent toujours (et, peut-être, toujours), peu contestent maintenant les lieux de base que l'analyse linguistique des textes écrits peut produire l'information valable et la perspicacité. (En effet, c'était évident même avant l'arrivée des ordinateurs : l'application réussie d'approche textuelle/linguistique au canon de Fletcher du Hoy et d'autres de Cyrus de a donné des résultats clairs vers la fin des années 50 et du début des années soixante.) Un exemple d'une étude moderne est l'analyse le les commentaires par radio de s de Ronald Reagan de 'de la profession d'auteur incertaine.

Méthodes

Stylometry moderne dessine fortement sur l'aide des ordinateurs pour l'analyse statistique , l'intelligence artificielle et l'accès au corpus croissant des textes disponibles par l'intermédiaire de l'Internet . Les systèmes logiciels tels que la signature (freeware produit par Dr. Peter Millican d'Université d'Oxford) rendent son utilisation de plus en plus faisable, même pour le non-expert.

Considérant que dans le passé, stylometry a souligné le plus rare ou les éléments les plus saisissants d'un texte, des techniques contemporaines peuvent isoler identifier des modèles même dans des parties du discours communes.

Auteur invariable

voient également :

invariable de l'auteur

La méthode stylometric primaire est l'auteur invariable de : une propriété d'un texte qui est le invariable de son auteur. Un exemple d'un auteur invariable est fréquence des mots de fonction employés par l'auteur.

Dans une telle méthode, le texte est analysé pour trouver les 50 mots les plus communs. Le texte est alors cassé dans 5.000 morceaux de mot et chacun des morceaux est analysé pour trouver la fréquence de ces 50 mots dans ce morceau. Ceci produit d'une marque unique de 50 nombres pour chaque morceau. Ces nombres placent chaque morceau de texte dans un point dans un espace 50 dimensionnel. Cet espace 50 dimensionnel est aplati dans un avion using l'analyse (l'APC) de composants principaux de . Ceci a comme conséquence un affichage des points qui correspondent à un modèle d'auteur. Si deux littéraires fonctionne sont placés sur le même avion, le modèle en résultant peut montrer si les deux travaux étaient par le mêmes auteur ou différents auteurs.

Réseaux neurologiques

Les réseaux neurologiques sont employés pour analyser la profession d'auteur des textes. Un tel réseau a été établi avec les liens ayant des forces aléatoires. Le réseau a été présenté avec des textes de formation de profession d'auteur connue. Quand le réseau a deviné inexactement, il a ajusté les forces de ses liens jusqu'à ce que le réseau pourrait correctement identifier les textes connus. Une fois que la période de formation est complète, le réseau peut correctement déterminer la profession d'auteur des textes par des auteurs qu'il avait été formé dessus précédemment.

Algorithmes génétiques

L'algorithme génétique est une autre technique d'intelligence artificielle utilisée dans stylometry. Une méthode commence par un ensemble de règles. Une règle d'exemple pourrait être, " ; Si le mais apparaît plus de 1.7 fois dans chaque mille mots, alors le texte est X" auteur ;. Le programme est présenté avec le texte et emploie les règles pour déterminer la profession d'auteur. Les règles sont examinées contre un ensemble de textes connus et chaque règle est donnée des points de forme physique. Les 50 règles avec les plus bas points sont jetées. Les 50 règles demeurantes sont données de petits changements et 50 nouvelles règles sont présentées. Ceci est répété jusqu'à ce que les règles évoluées attribuent correctement les textes.

Paires rares

Une méthode pour identifier le modèle s'appelle le " ; pairs" rare ; , et compte sur différentes habitudes de la collocation . L'utilisation de certains mots peut, pour un auteur particulier, idiosyncratique nécessiter l'utilisation d'autre, mots prévisibles.
Random links:Payette, Idaho | Banlieue noire d'aigle chauve, Pennsylvanie | Lui, elle et lui | Bataille de Longewala | Kuo élégant | Stylometry