Nutch
Le Nutch est un effort d'établir un Search Engine de la source ouverte basé sur le Lucene Java pour le composant de recherche et d'index. Le fetcher (" ; robot" ; ou " ; " du chercheur Web ;) a été écrit à partir de zéro seulement pour ce projet. Nutch a une architecture fortement modulaire permettant à des lotisseurs de créer des connexions pour les activités suivantes : analyse de milieu-type, extraction de données, question et groupement. En date du juin 2005, Nutch a reçu un diplôme de l'incubateur d'Apache de , et est maintenant un sous-projet de Lucene. Il est codé complètement dans le langage de programmation de Java , mais des données sont écrites dans des formats language-independent. En juin 2003, il y avait 100 millions de système réussi de démo de page. Pour rencontrer le multimachine traitant les besoins des tâches de rampement et d'index, le projet de Nutch a également mis en application un service et un système de fichiers distribué de MapReduce . Ces deux équipements ont été tournés dehors dans leur propre sous-projet appelé le Hadoop .
Évolutivité
IBM recherchent a étudié l'exécution de Nutch/Lucene en tant qu'élément de son à l'échelle commerciale projeter (CSO) dehors . Leurs résultats étaient que Nutch/Lucene pourrait réaliser un niveau des performances sur un faisceau des lames qui n'était pas réalisable sur le tout mesurent-vers le haut l'ordinateur tel que le Power5 .
Projets relatifs
Hadoop - cadre de Java qui soutient des applications réparties fonctionnant sur de grands faisceaux nutchWAX - utilisations Nutch de rechercher des archives de Web
Moteurs de recherche construits avec Nutch
MozDex Krugle
Wikiasari
.
| Random links: | Oliver Neuville | Stewart Lee | Base aérienne de Hanscom | William Murray Nairne | Discographie de Ricky Martin | Nutch |