Search Engine de Web

Le des moteurs de recherche de de Web de fournissent une interface pour rechercher l'information sur le World Wide Web . L'information peut se composer des pages Web, des images et d'autres types de dossiers.

Certains recherchent des moteurs extraient également des données disponibles dans les newsgroup, les bases de données, ou les annuaires ouverts . À la différence des annuaires de Web de , qui sont maintenus par les rédacteurs humains, les moteurs de recherche fonctionnent algorithmiquement ou sont un mélange d'entrée algorithmique et humaine.

Histoire des moteurs populaires de recherche de Web

Le tout premier outil utilisé pour rechercher sur l'Internet était archie . Le nom représente le " ; archive" ; sans " ; vee" ;. Il a été créé en 1990 par le Alan Emtage , un étudiant à l'université de McGill de à Montréal. Le programme a téléchargé les listes d'annuaire de tous les dossiers localisés sur les emplacements publics d'Anonymous FTP (File Transfer Protocol ), créant une base de données rechercheable des noms de dossier ; cependant, l'archie n'a pas indexé le contenu de ces dossiers.

L'élévation de Gopher (créé en 1991 par marque McCahill à l'université de du Minnesota ) a mené à deux nouveaux programmes de recherche, Veronica et Jughead . Comme l'archie, ils ont recherché les noms de dossier et les titres stockés dans le Gopher indexent des systèmes. Veronica (ndex et-large ery de I riented par N O d'odent- de R d'asy de E V aux rchives de omputerized par A C) a fourni une recherche par mot-clé de la plupart des titres de menu de Gopher dans les listes entières de Gopher. Le Jughead ( ierarchy niversal D de ND de A de xcavation de E H d'opher de G du U des onzy de J isplay) était un outil pour obtenir l'information de menu des serveurs spécifiques de Gopher. Tandis que le nom du " de Search Engine ; " d'archie ; n'était pas une référence à la série de la bande dessinée d'archie de , " ; " de Veronica ; et " ; " du Jughead ; sont les caractères de la série, de ce fait mettant en référence leur prédécesseur.

Google

Environ 2001, le Search Engine de Google a monté à la proéminence. Son succès a été basé en partie sur le concept de la popularité et du PageRank de lien. Le nombre d'autres sites Web et pages Web qui lient à une page donnée est pris en compte avec PageRank, sur les lieux que de bonnes ou souhaitables pages sont lié à plus que d'autres. Le PageRank de lier des pages et le nombre de liens à ces pages contribuent au PageRank de la page liée. Ceci permet à Google pour commander ses résultats par combien de sites Web lient à chacun la page trouvée. L'interface utilisateurs minimaliste de Google est très populaire avec des utilisateurs, et a depuis engendré un certain nombre d'imitateurs.

Google et la plupart des autres moteurs de Web utilisent non seulement PageRank mais plus de 150 critères pour déterminer la pertinence. Le " d'algorithme ; remembers" ; là où il a été et indexe le nombre de réticulations et rapporte ces derniers dans des groupements. PageRank est basé sur l'analyse de citation de qui a été développée dans les années 50 par Eugene Garfield à l'Université de Pennsylvanie. Les fondateurs de Google citent le travail de Garfield en leur papier original. De cette façon les communautés virtuelles des pages Web sont trouvées. La technologie de la recherche de Teoma emploie une approche de communautés dans son algorithme de rang. L'institut de recherche de recherche de NEC a travaillé à la technologie semblable. L'analyse de lien de Web a été développée la première fois par Jon Kleinberg et son équipe tout en travaillant sur le projet INTELLIGENT au centre de recherches d'Almaden d'IBM. Google est actuellement le Search Engine de Web le plus populaire.

Yahoo! Recherche

Les deux fondateurs de Yahoo! , David Filo et Jerry Yang, candidats de Ph. dans l'électrotechnique à l'Université de Stanford, ont commencé leur guide dans un bas de page de campus en février 1994 comme manière de maintenir leurs intérêts personnels sur l'Internet. D'ici peu ils passaient plus de temps sur leurs listes home-brewed de liens préférés que sur leurs dissertations doctorales. Par la suite, les listes de Jerry et de David sont devenues trop longues et difficiles à manier, et elles les ont divisées dehors en catégories. Quand les catégories sont devenues trop pleines, elles ont développé des sous-catégories… et le concept de noyau derrière Yahoo! était né. En 2002, Yahoo! Inktomi acquis et en 2003, Yahoo! ouverture acquise, qui a possédé AlltheWeb et AltaVista. En dépit de posséder son propre Search Engine, Yahoo! au commencement gardé using Google pour fournir à ses utilisateurs la recherche résulte sur son site Web principal Yahoo. Cependant, en 2004, Yahoo! a lancé son propre Search Engine basé sur les technologies combinées de ses acquisitions et de fournir un service qui a donné la prééminence au Search Engine de Web au-dessus de l'annuaire.

Microsoft

Le Search Engine principal le plus récent est la recherche du MSN (transformé en recherche de phase ), possédée par le Microsoft , qui s'est précédemment fondé sur d'autres pour ses listes de Search Engine. En 2004, il debuted une bêta version de ses propres résultats, actionnée par son propre chercheur Web (appelé le Msnbot ). Début 2005, il a commencé à donner ses propres résultats de phase, et a cessé d'employer des résultats à partir de Inktomi , maintenant possédé par le Yahoo! . En 2006, Microsoft a émigré à une nouvelle plate-forme de recherche - la recherche de phase , retirant le " ; MSN Search" ; nom dans le processus.

Baidu

Le Baidu a été lancé en 2000 et est le Search Engine chinois du principal , fournissant un index de plus de 740 millions de pages Web, 80 millions d'images, et 10 millions de dossiers de multimédia. Son interface est très semblable au Google 'S.

Défis relevés par des moteurs de recherche de Web


Le Web se développe beaucoup plus rapidement que n'importe quel Search Engine d'actuel-technologie peut probablement indexer (voir le Web distribué par de rampement).
Une page Web doit être réindexée chaque fois que elle est changée.
La recherche de Web questionne un peut faire sont actuellement limitées à rechercher les mots-clés, qui peuvent avoir comme conséquence beaucoup dactylographient I et type positifs d'erreur d'II, particulièrement using la recherche d'entier-page de défaut. De meilleurs résultats pourraient être réalisés en employant une option de recherche de proximité avec une rechercher-parenthèse aux allumettes de limite dans un paragraphe ou l'expression, plutôt que des mots aléatoires assortis a dispersé à travers de grandes pages. Une autre alternative emploie les opérateurs humains pour faire la recherche pour les utilisateurs « organiques » de Search Engine.
Les emplacements dynamiquement produits peuvent être lents ou difficiles à indexer, ou peuvent avoir comme conséquence des résultats excessifs, peut-être produisant de 500 fois plus de pages Web que la moyenne. Exemple : pour une page Web dynamique qui change content basé sur des entrées s'est inséré d'une base de données, un Search Engine pourrait être demandé d'indexer 50.000 les pages Web statiques pour 50.000 valeurs de paramètre différentes passées à cette page Web dynamique. L'indexation est nombreuse dans les pages Web dynamiques, elles peut également être montrée par la pensée logique : si une paramètre-valeur produit de 1 page Web répertoriée, 10 se produisent 10, et 1.000 paramètre-valeurs produisent de 1. En outre, quelques sites Web de dictionnaire-page sont indexés using les pages dynamiques : par exemple, la recherche de page-compte des URL contenant des variations de " ; dictionary.*" ; et observer les page-totaux rapportés par les moteurs de recherche, peut-être au-dessus de 50.
Beaucoup de sites Web dynamiquement produits ne sont pas indexables par des moteurs de recherche ; ce phénomène est connu comme Web invisible . Quelques moteurs de recherche se spécialisent dans le contenu dynamique de rampement sur le Web invisible qui est mot de passe protégé ou exigent des formes d'être complétées.
Pertinence : parfois un moteur ne peut pas trouver ce que la personne recherche. Il peut donner une liste d'emplacements non désirés et non pertinents, le Spam électronique , ou le Sauter-lève .
Quelques moteurs de recherche ne rangent pas des résultats par pertinence, mais par la somme d'argent payée par des sites Web pour apparaître dans les résultats.
L'utilisation de beaucoup de sites Web dupe pour s'assurer qu'ils sont énumérés plus haut dans des résultats de recherche, pour de nombreux mots-clés. Ceci peut mener aux résultats de Search Engine étant pollués avec les pages de linkspam ou d'amorce-et-commutateur de qui contiennent peu ou pas d'informations sur les expressions assorties. Les pages Web véritablement appropriées sont d'autres listes poussées de résultats de bas. Par exemple, beaucoup d'inondateurs créent des sites Web contenant des ordres aléatoires des mots-clés du haut-trafic, souvent avec des fautes d'orthographe afin d'attirer un rang plus élevé sur un Search Engine.
Le contenu bloqué accueilli sur des URL du HTTPS lance un défi pour les chenilles que ne peut pas passer en revue le contenu pour des raisons techniques ou ne l'indexera pas pour des raisons d'intimité.

Comment les moteurs de recherche de Web fonctionnent

Un Search Engine fonctionne, dans le d'ordre suivant
  • de rampement du Web
  • de l'indexation recherchant

    Les moteurs de recherche de Web fonctionnent à côté de stocker des informations sur un grand nombre de pages Web qu'ils recherchent du WWW lui-même. Ces pages sont recherchées par un &mdash du chercheur Web (parfois également connu sous le nom d'araignée) ; un web browser automatisé qui suit chaque lien il voit. Des exclusions peuvent être faites en employant le Robots. Le contenu de chaque page est alors analysé pour déterminer comment ce devrait être répertorié par (par exemple, des mots sont extraits à partir des titres, des titres, ou des champs spéciaux appelés les étiquettes de méta de ). Des données au sujet des pages Web sont stockées dans une base de données d'index pour l'usage dans des questions postérieures. Certains recherchent des moteurs, tels que le Google , l'ensemble ou une partie de magasin de la page de source (désignée sous le nom d'une cachette ) aussi bien que des informations sur les pages Web, tandis que d'autres, tel que le AltaVista , stockent chaque mot de chaque page qu'elles trouvent. Cette page cachée stocke toujours le texte réel de recherche puisqu'elle est celle qui a été indexée réellement, ainsi il peut être très utile quand le contenu de la page courante a été mis à jour et les limites de recherche ne sont plus dans elle. Ce problème pourrait être considéré une forme douce de Linkrot , et la manipulation de Google de elle augmente la rentabilité par les espérances satisfying d'utilisateur de que les limites de recherche seront sur la page Web retournée. Ceci satisfait le principe de de moindre étonnement puisque l'utilisateur s'attend à ce que normalement les limites de recherche soient aux pages retournées. La pertinence accrue de recherche rend ces pages cachées très utiles, même au delà du fait qu'elles peuvent contenir les données qui peuvent plus n'être disponibles ailleurs.

    Quand un utilisateur entre une question dans un Search Engine (typiquement en employant les mots clés , le moteur examine son index et fournit à une liste des pages Web meilleur-correspondantes selon ses critères, habituellement un résumé court contenant le titre et parfois les pièces du document du texte. La plupart des moteurs de recherche soutiennent l'utilisation des opérateurs booléens ET, OU et pour ne pas spécifier plus loin la question de recherche de . Quelques moteurs de recherche fournissent un dispositif avancé appelé la recherche de proximité de qui permet à des utilisateurs de définir la distance entre les mots-clés.

    L'utilité d'un Search Engine dépend de la pertinence du résultat réglé de qu'il restitue. Tandis qu'il peut y avoir des millions de pages Web qui incluent un mot ou une expression particulier, quelques pages peuvent être plus appropriées, populaires, ou bien fondées que d'autres. La plupart des moteurs de recherche utilisent des méthodes au grade les résultats pour fournir le " ; best" ; résultats d'abord. Comment un Search Engine décide quelles pages sont les meilleures allumettes, et quelles ordre les résultats devraient être montré dedans, varie considérablement d'un moteur à l'autre. Les méthodes changent également avec le temps pendant que l'utilisation d'Internet change et les nouvelles techniques évoluent. La plupart des moteurs de recherche de Web sont des entreprises commerciales soutenues par le annonçant le revenu de et, en conséquence, certains utilisent la pratique controversée de permettre à des annonceurs de payer l'argent pour avoir leurs listes se sont rangés plus haut dans des résultats de recherche. Ceux recherchent les moteurs qui n'acceptent pas l'argent pour leurs résultats de Search Engine gagnent l'argent en courant les annonces connexes par recherche à côté des résultats réguliers de Search Engine. Les moteurs de recherche gagnent l'argent chaque fois que quelqu'un clique dessus une de ces annonces.

    La grande majorité de moteurs de recherche sont courues par les entreprises privées anonymes using des algorithmes de propriété industrielle et des bases de données fermées, bien que le un certain soient source ouverte.

    moteurs Geospatially-permis de recherche de Web

    voient également :

    local de recherche de (Internet) Un perfectionnement récent à la technologie de Search Engine est l'addition du Geocoding et du Geoparsing au traitement des documents ingérés étant indexés, pour permettre la recherche dans une localité spécifique (ou la région). Geoparsing en essaye d'assortir des références trouvées aux endroits et aux endroits à une armature de Geospatial de de la référence , tel qu'une adresse de rue, des endroits du dictionnaire géographique , ou à un secteur (tel qu'une frontière polygonale pour une municipalité). Par ce processus geoparsing, les latitudes et les longitudes sont assignées aux endroits trouvés, et ces latitudes et longitudes sont répertoriés par pour la question spatiale postérieur et la récupération. Ceci peut augmenter le processus de recherche énormément en permettant à un utilisateur de rechercher des documents dans une ampleur donnée de carte, ou réciproquement, tracer l'endroit des documents assortissant un mot-clé donné pour analyser l'incidence et le groupant , ou n'importe quelle combinaison des deux. Voir la liste de des moteurs de recherche pour des exemples des compagnies qui offrent ce feature.< ! -- Une compagnie qui a développé ce type de technologie est MetaCarta, qui rend sa technologie de recherche également disponible car un service de Web de du XML pour permettre l'intégration profonde dans des applications existantes. -->

    Recherche sociale de Web

    voient également :

    social de la recherche Les moteurs sociaux de recherche de sont un type de Search Engine vertical trouvé sur beaucoup de sites Web.

    Voir également

    style=" de

    Liste de des moteurs de recherche
    Recherche fédérée par
    Index inversé
    Moteur de Metasearch de
    Recherche organique
    Hijacking de page de
    Vente de Search Engine de
    La recherche de a orienté l'architecture
    Index de (Search Engine)
    Spamdexing
    Recherche verticale
    Search Engine visuel
    Indexation de Web de
    Question de recherche de Web de
  • .

    Random links:Coptology | Isopod géant | Gytheio | Search_Engine_del_Web