Services

Consulting Solr et Lucene

Lucene est un moteur de recherche qui se présente sous la forme d’une librairie Java et qui permet d’indexer et de rechercher du texte. Lucene est la brique de base du moteur d’indexation et de recherche Solr. Lucene et Solr sont des projets open-source de la Fondation Apache. Alors que Lucene se présente sous la forme d’une API Java, Solr fournit une API XML et JSON via HTTP (RESTFull) et inclut des fonctionnalités telles que :

  • Indexation dans un grand nombre de langues avec le support du stemming
  • Recherche booléenne et floue
  • Mise en évidence des termes recherchés
  • Navigations par facettes
  • Corrections orthographiques et suggestions (did you mean ?)
  • Cache
  • Réplication
  • Administration web

Notre contribution à vos projets Lucene et Solr couvre les aspects suivants :

  • Architecture
  • Tuning
  • Fonctions étendues comme la recherche spatiale
  • Développement de composants spécifiques (Filtres, Search handlers, …)
  • Connexion à des sources de données

Moteurs de recherche verticaux

Un moteur de recherche vertical est un moteur de recherche de type Google mais spécialisé dans un domaine particulier (droits de l’Homme, médical, tourisme, emplois, …). Lors de la mise en place d’un moteur vertical, on a parfois un accès privilégié aux sources d’informations indexées (base de données, référentiel de sites web enrichi de meta-données, …). On dispose donc d’informations très précises et qualifiées sur les données à indexer (titre, auteur, date de publication, prix, évaluations, …) et on peut ainsi mettre en place une interface de recherche très poussée qui fournie des résultats très pertinents.

Les étapes de la mise en place d’une solution de recherche verticale sont :

  • Crawl des sites web ou autres sources d’information à indexer
  • Enrichissement des données
  • Gestion de la sécurité
  • Indexation initiale et incrémentale
  • Recherche

Les problématiques à résoudre peuvent être :

  • Complexité des sites web à crawler (liens javascript, ajax, authentification, nettoyage des pages, stratégie d’inclusion et d’exclusion de pages, …)
  • Connexion aux sources de données
  • Sécurité
  • Détection et traitement de la langue
  • Intégration à une application web existants
  • Maintenance (évolution des sources à indexer)

Nous avons créé Crawl-Anywhere qui permet de résoudre simplement les problématiques spécifiques au crawl et à l’indexation des sites web (internet ou intranet). Nous vous assistons dans sa mise en œuvre.

Hurisearch est un moteur de recherche vertical spécialisé dans les droits de l’Homme et est un excellent exemple de la mise en œuvre de Crawl-Anywhere. Il crawle 5500 sites web pour un total de plus de 6 millions de pages indexées.

Centre Ressources est un autre exemple de site web proposant un moteur de recherche vertical spécialisé dans l’emploi entre particuliers et utilisant Solr et Crawl-Anywhere.

Moteurs de recherche d’entreprise

Un moteur de recherche d’entreprise a pour but d’indexer des données de l’entreprise. Il peut s’agir d’une ou plusieurs sources d’informations afin de fournir une fonctionnalité de recherche fédérée dans un intranet par exemple. Les problématiques à résoudre sont entre autres la connexion aux sources d’informations et la gestion de la sécurité.

Hébergement de serveurs Solr

Afin de répondre au besoin de nombreux webmaster qui souhaitent utiliser les plugins Solr de leurs CMS ou Blog, mais qui n’ont pas le temps ou les ressources pour installer et administrer leur propre serveur Solr, nous vous proposons le service My Solr Server. Pour de plus gros besoins d’indexation et de recherche, My Solr Server héberge également des instances Solr sur des serveurs dédiés.