Dans cet article, je présente une solution afin de générer un nuage de tags (ou nuage de mots clefs) à partir d’un flux de données textuelles. Pour l’exemple, il s’agit de titres d’articles stockés dans un fichier texte. Le but est d’afficher les mots ou expressions de 2 ou 3 termes les plus fréquents dans [...]
Suite au premier article Présentation de Lucene Solr, je commence aujourd’hui une série d’articles sur la mise en oeuvre de ce moteur de recherche. Les différents sujets abordés seront : L’installation La configuration L’indexation La recherche Cette première partie a pour but l’installation et la configuration minimum afin de pouvoir rechercher dans les documents d’exemple [...]
Dans mon article Présentation de Lucene Solr, j’ai expliqué quelques concepts de Solr et indiqué une liste de liens vers des tutoriaux. Voici une série de 3 articles (toujours en anglais) d’une très grande qualité écrit par Grant Ingersoll. Les 2 premiers articles sont une présentation détaillée de Solr et le troisième présente les nouveautés [...]
La nouvelle version 1.3.0 de Solr est enfin disponible. Elle était très attendue des développeurs car la précédente version officielle datait déjà du 6 juin 2007 soit plus d’un an. Comme beaucoup, je travaillais avec les build nocturnes depuis déjà un certain temps. Cette sortie est l’occasion de présenter Solr à ceux qui ne le [...]
J’ai regardé avec intérêt une vidéo très didactique de présentation faite par Camille Roux sur « l’art du référencement« . On y trouve des informations sur le fonctionnement des moteurs de recherche et notamment les différents éléments qui rentrent en ligne de compte dans le positionnement d’un article dans le résultat d’une recherche (pertinence, notoriété). Les points [...]
J’ai lu cette semaine sur le blog de Cédric Champeau un article très intéressant (en anglais) sur Lucene. Cédric explique tout d’abord comment Lucene est utilisé chez Lingway comme brique de base de leur solution de recherche sémantique. Cédric confirme que Lucene est une bonne librairie Java permettant de mettre en place des outils de [...]
Hurisearch est un moteur de recherche multilingue spécialisé sur la thématique des Droits de l’Homme. Il a été mis en place par Huridocs (Human Rigths Information and Documentation System), une association internationale qui cherche à renforcer les capacités des organisations qui utilisent des techniques de documentation, des méthodes de surveillance, des systèmes de gestion de [...]
Pour la plupart des internautes, « moteur de recherche » est synonyme de Google ou Yahoo. En fait, je les appellerais plutôt « sites de recherche ». Un moteur de recherche est en fait un outil ou ensemble d’outils permettant de construire par exemple ces « sites de recherche », mais également d’ajouter des fonctionnalités de recherche à divers types d’applications [...]
Lucene est une librairie open source en Java (mais il existe de nombreux portages) permettant d’ajouter des fonctionnalités de recherche plein-texte à vos applications. Le projet Lucene est chapeauté par « The Apache Software Foundation ». D’autres projets très connus et de grande qualité de la fondation sont : Apache HTTP server, Tomcat, Cocoon, Ant, … Il [...]