Expertise Lucene, Solr, SolrCould et elasticsearch

Lucene est un moteur de recherche qui se présente sous la forme d’une librairie Java et qui permet d’indexer et de rechercher du texte. Lucene est la brique de base des moteurs d’indexation et de recherche Solr et elasticsearch. Alors que Lucene se présente sous la forme d’une API Java, Solr et elasticsearch fournissent une API XML et JSON via HTTP (RESTFull) et incluent des fonctionnalités telles que :

  • Indexation dans un grand nombre de langues avec le support du stemming
  • Recherche booléenne et floue
  • Mise en évidence des termes recherchés
  • Navigations par facettes
  • Corrections orthographiques et suggestions (did you mean ?)
  • Cache
  • Réplication
  • Administration web

Notre contribution à vos projets Lucene, Solr et elasticsearch couvre les aspects suivants :

  • Architecture
  • Tuning
  • Fonctions étendues comme la recherche spatiale
  • Développement de composants spécifiques (Filtres, Search handlers, …)
  • Connexion à des sources de données

Moteurs de recherche verticaux

Un moteur de recherche vertical est un moteur de recherche de type Google mais spécialisé dans un domaine particulier (droits de l’Homme, médical, tourisme, emplois, …). Lors de la mise en place d’un moteur vertical, on a parfois un accès privilégié aux sources d’informations indexées (base de données, référentiel de sites web enrichi de meta-données, …). On dispose donc d’informations très précises et qualifiées sur les données à indexer (titre, auteur, date de publication, prix, évaluations, …) et on peut ainsi mettre en place une interface de recherche très poussée qui fournie des résultats très pertinents.

Les étapes de la mise en place d’une solution de recherche verticale sont :

  • Crawl des sites web ou autres sources d’information à indexer
  • Enrichissement des données
  • Gestion de la sécurité
  • Indexation initiale et incrémentale
  • Recherche

Les problématiques à résoudre peuvent être :

  • Complexité des sites web à crawler (liens javascript, ajax, authentification, nettoyage des pages, stratégie d’inclusion et d’exclusion de pages, …)
  • Connexion aux sources de données
  • Sécurité
  • Détection et traitement de la langue
  • Intégration à une application web existants
  • Maintenance (évolution des sources à indexer)

 

Moteurs de recherche d’entreprise

Un moteur de recherche d’entreprise a pour but d’indexer des données de l’entreprise. Il peut s’agir d’une ou plusieurs sources d’informations afin de fournir une fonctionnalité de recherche fédérée dans un intranet par exemple. Les problématiques à résoudre sont entre autres la connexion aux sources d’informations et la gestion de la sécurité.