Crawl-Anywhere

Crawl-anywhere est à l’origine un pur crawler web qui est devenu très rapidement un ensemble complet de briques permettant de mettre en place un moteur de recherche vertical.

Crawl-Anywhere inclut :

  • Un crawler web doté d’une interface d’administration simple à prendre en main et couvrant l’ensemble des paramètres liés aux différentes possibilités lors du crawle de sites web
  • Un pipeline qui chaine des opérations sur les documents crawlés : extraction du texte, détection de la langue, normalisation des content-type, …
  • Un indexer Solr
  • Une application web complète et personnalisable de recherche dans les données crawlées et indexées.

Pour en savoir plus sur Crawl-Anywhere vous pouvez vous rendre sur le site qui lui est dédié. Vous y trouverez un descriptif complet de ses fonctionnalités et de ses différents composants .