Créer un nuage de tags avec Lucene

décembre 30, 2008 1 commentaire

Dans cet article, je présente une solution afin de générer un nuage de tags (ou nuage de mots clefs) à partir d’un flux de données textuelles. Pour l’exemple, il s’agit de titres d’articles stockés dans un fichier texte. Le but est d’afficher les mots ou expressions de 2 ou 3 termes les plus fréquents dans [...]

Introduction à Solr – Installation et configuration (1)

décembre 8, 2008 Aucun commentaire

Suite au premier article Présentation de Lucene Solr, je commence aujourd’hui une série d’articles sur la mise en oeuvre de ce moteur de recherche. Les différents sujets abordés seront : L’installation La configuration L’indexation La recherche Cette première partie a pour but l’installation et la configuration minimum afin de pouvoir rechercher dans les documents d’exemple [...]

Solr présenté par Grant Ingersoll

novembre 8, 2008 Aucun commentaire

Dans mon article Présentation de Lucene Solr, j’ai expliqué quelques concepts de Solr et indiqué une liste de liens vers des tutoriaux. Voici une série de 3 articles (toujours en anglais) d’une très grande qualité écrit par Grant Ingersoll. Les 2 premiers articles sont une présentation détaillée de Solr et le troisième présente les nouveautés [...]

Présentation de Lucene Solr

septembre 18, 2008 5 commentaires

La nouvelle version 1.3.0 de Solr est enfin disponible. Elle était très attendue des développeurs car la précédente version officielle datait déjà du 6 juin 2007 soit plus d’un an. Comme beaucoup, je travaillais avec les build nocturnes depuis déjà un certain temps. Cette sortie est l’occasion de présenter Solr à ceux qui ne le [...]

L’art du référencement web par Camille Roux

septembre 1, 2008 1 commentaire

J’ai regardé avec intérêt une vidéo très didactique de présentation faite par Camille Roux sur « l’art du référencement« . On y trouve des informations sur le fonctionnement des moteurs de recherche et notamment les différents éléments qui rentrent en ligne de compte dans le positionnement d’un article dans le résultat d’une recherche (pertinence, notoriété). Les points [...]

Lucene, le meilleur choix ?

août 26, 2008 Aucun commentaire

J’ai lu cette semaine sur le blog de  Cédric Champeau un article très intéressant (en anglais) sur Lucene. Cédric explique tout d’abord comment Lucene est utilisé chez Lingway comme brique de base de leur solution de recherche sémantique. Cédric confirme que Lucene est une bonne librairie Java permettant de mettre en place des outils de [...]

HuriSearch – Un moteur de recherche spécialisé sur les Droits de l’Homme

août 25, 2008 Aucun commentaire

Hurisearch est un moteur de recherche multilingue spécialisé sur la thématique des Droits de l’Homme. Il a été mis en place par Huridocs (Human Rigths Information and Documentation System), une association internationale qui cherche à renforcer les capacités des organisations qui utilisent des techniques de documentation, des méthodes de surveillance, des systèmes de gestion de [...]

Les moteurs de recherche

août 11, 2008 1 commentaire

Pour la plupart des internautes, « moteur de recherche » est synonyme de Google ou Yahoo. En fait, je les appellerais plutôt « sites de recherche ». Un moteur de recherche est en fait un outil ou ensemble d’outils permettant de construire par exemple ces « sites de recherche », mais également d’ajouter des fonctionnalités de recherche à divers types d’applications [...]

Introduction à Lucene

août 6, 2008 22 commentaires

Lucene est une librairie open source en Java (mais il existe de nombreux portages) permettant d’ajouter des fonctionnalités de recherche plein-texte à vos applications. Le projet Lucene est chapeauté par « The Apache Software Foundation ». D’autres projets très connus et de grande qualité de la fondation sont : Apache HTTP server, Tomcat, Cocoon, Ant, … Il [...]

Page 2 sur 212

Navigation

Categories
  •  Technique (35)
  •  Lucene / Solr (21)
  •  Moteur de recherche (19)
  •  Sites à découvrir (12)
  •  Web 2.0 (12)
  •  Productivité (10)
  •  Debian (6)
  •  Flux RSS (6)
  •  Web (6)
  •  Hébergement (3)
  •  Non classé (3)
  •  Wordpress (3)
  •  Freelance (2)
  •  Référencement (2)
  •  vmware (2)
  •  Mac OS (1)
  •  Réseaux (1)
  • Tags
  •  Solr (14)
  •  Lucene / Solr (11)
  •  RSS (5)
  •  Wordpress (5)
  •  java (5)
  •  tomcat (4)
  •  vmware (4)
  •  Crawler (3)
  •  Debian (3)
  •  OPML (3)
  •  Crossfeeds (2)
  •  PHP (2)
  •  Plugins (2)
  •  apt (2)
  •  mercurial (2)
  •  moteur de recherche (2)
  •  mysql (2)
  •  Agrégateur (1)
  •  Bitbucket (1)
  •  CAS (1)
  •  Debugbar (1)
  •  ESXi (1)
  •  Emilie Ogez (1)
  •  Fast (1)
  •  Firebug (1)
  •  Firefox (1)
  •  Flux RSS (1)
  •  Freelance (1)
  •  Google Chrome (1)
  •  Huridocs (1)
  •  Hurisearch (1)
  •  IE (1)
  •  IETester (1)
  •  Migration Day 2008 (1)
  •  Ogez (1)
  •  Poll (1)
  •  Référencement (1)
  •  SEO (1)
  •  Savoirs en réseau (1)
  •  Sondage (1)
  •  SurveyGizmo (1)
  •  WP-Poll (1)
  •  aiderss (1)
  •  ant (1)
  •  apache (1)
  •  aptitude (1)
  •  backup (1)
  •  bande passante (1)
  •  base de registre (1)
  •  catégorie (1)
  •  configuration (1)
  •  curl (1)
  •  dell (1)
  •  detection langue (1)
  •  dojo (1)
  •  débit (1)
  •  etch (1)
  •  extjs (1)
  •  framwork (1)
  •  gateway (1)
  •  git (1)
  •  google (1)
  •  hg (1)
  •  hosted (1)
  •  hosting (1)
  •  iis (1)
  •  indeed (1)
  •  javascript (1)
  •  jdk (1)
  •  jquery (1)
  •  log (1)
  •  magpie (1)
  •  mg4j (1)
  •  mod_auth_cas (1)
  •  mod_cas (1)
  •  mootools (1)
  •  morphologique (1)
  •  n-gram (1)
  •  ngp (1)
  •  ngram (1)
  •  ngramj (1)
  •  nightly build (1)
  •  nuage de tags (1)
  •  openSSL (1)
  •  openSUSE (1)
  •  optimisation (1)
  •  pagerank (1)
  •  patch (1)
  •  performances (1)
  •  perl (1)
  •  phpCAS (1)
  •  ping (1)
  •  pipeline (1)
  •  podcast (1)
  •  presse-papier (1)
  •  prototype (1)
  •  saas (1)
  •  scriptaculous (1)
  •  serveur (1)
  •  shrink (1)