Soundex

le

cet article est au sujet de l'algorithme phonétique. Pour la bande d'âme de n de roche, voir le le SoundEx . Le Soundex est un algorithme phonétique pour des noms d'indexation par le bruit, comme prononcé dans le anglais. Le but est pour des noms avec la même prononciation à coder à la même représentation de sorte qu'ils puissent être assortis en dépit des différences mineures pour orthographier ces règles de codage soient fournis par NARA, sur demande, sous forme de feuillet 55 d'informations générales, " ; Using le recensement Soundex" ;.

Règles

Le code de Soundex pour un nom se compose d'une lettre suivie de trois nombres : la lettre est la première lettre du nom, et les nombres codent les consonnes restantes. La part de retentissement semblable de consonnes le même nombre ainsi, par exemple, le labial B, F, P et V tous sont codées en tant que voyelles 1. peut affecter le codage, mais n'est directement jamais codée à moins qu'ils apparaissent au début du nom.

L'algorithme exact est comme suit : Maintenir la première lettre du

  • de corde Enlever toutes les occurrences des lettres suivantes, à moins que ce soit la première lettre : a, e, h, I, o, u, W,
  • de y Assigner les nombres aux lettres restantes (après la première) comme suit :
  • * b, f, p, v = 1
  • C, g, j, k, q, s, x, z =
  • 2 * d, t =
  • 3 * l =
  • 4 * m, n =
  • 5 * r =
  • 6 Si deux lettres ou plus avec le même nombre étaient adjacentes dans le nom original (avant étape 1), ou adjacent excepté tout h intervenant et W (recensement américain seulement), alors omettre tout sauf le premier.
  • Renvoyer les quatre premiers caractères, droit-remplissage avec des zéros s'il y a moins de quatre.

    Using cet algorithme, les deux " ; Robert" ; et " ; Rupert" ; renvoyer le même " de corde ; R163" ; tandis que " ; Rubin" ; rapporte le " ; R150" ;.

    Variantes de Soundex

    Un algorithme semblable a appelé le " ; Soundex" renversé ; met en tête la dernière lettre du nom au lieu de la première.

    L'algorithme du NYSIIS a été présenté par le système d'identification et d'intelligence de l'état de New-York comme amélioration à l'algorithme de Soundex. NYSIIS manipule quelques N-grammes de multi-caractère et maintient la voyelle relative plaçant, tandis que Soundex ne fait pas.

    L'algorithme de Soundex amélioré par Celko a été présenté par le Joe Celko dans son SQL de livre pour des Smarties : SQL avancé programmant .

    Comme réponse aux insuffisances dans l'algorithme de Soundex, le Lawrence Philips a développé l'algorithme de Metaphone pour le même but. Philips plus tard a développé une amélioration à Metaphone, qu'il a appelé Double-Metaphone . Double-Metaphone inclut une règle beaucoup plus grande de codage réglée que son prédécesseur, manipule un sous-ensemble de caractères non-Latins, et renvoie un codage primaire et secondaire pour expliquer différentes prononciations d'un mot simple en anglais.

    Le Daitch-Mokotoff Soundex (DM Soundex) a été développé par le genealogist Gary Mokotoff et plus tard amélioré par le genealogist Daitch excité en raison des problèmes qu'ils ont rencontrés tout en essayant d'appliquer Russell Soundex aux juifs avec les noms de famille germaniques ou slaves (tels que Moskowitz contre Moskovitz ou Levine contre Lewin). DM Soundex désigné parfois sous le nom du " ; Soundex" juif ; ou " ; Oriental - Soundex" européen ; , bien que les auteurs découragent l'utilisation de ces surnoms. L'algorithme de DM Soundex peut renvoyer l'autant d'en tant que 32 différents codages phonétiques pour un nom simple. Des résultats de DM Soundex sont retournés dans un format tout-numérique entre 100000 et 999999. Cet algorithme est beaucoup plus complexe que Russell Soundex.

    Voir également


    Metaphone
    Identification de l'état de New-York de et système d'intelligence

  • .

    Random links:USS intrépide | Prix Grammy pour le meilleur & de pays ; Enregistrement occidental | Formations de roche en Roumanie | Le Pist | Porteur Gestational | Soundex