Lucene / Solr Archive
Dans un précédent article, j’ai présenté l’Elastic Open Web Crawler et montré comment collecter des publications issues de sites de presse. J’ai proposé quelques post-traitements simples avant l’indexation dans elasticsearch afin d’extraire un contenu plus propre et des informations comme …
Dans un environnement de production, Solr peut être soumis à des charges de requêtes concurrentes intenses, d’autant plus lorsque des opérations d’indexation et de recherche sont réalisées simultanément. Sans mécanisme de contrôle, ces situations peuvent entraîner une saturation critique des …
Un de nos clients manipule des collections de plus ou moins 1 milliards de documents. Ces documents sont constitués principalement de méta-données. Ces volumes commencent à devenir conséquents pour des recherches et du facetting mais également pour des exports massifs …
Réaliser des recherches NRT (Near Real Time Search) dans une collection SolrCloud constituée uniquement de replicas TLOG
Le CDCR disparaît dans la version 9 de Solr. Dans cet article, nous proposons une solution alternative afin de permettre la gestion des Disaster Recovery
Une des questions les plus fréquentes concernant la gestion au quotidien des index Solr est le traitement des documents supprimés. En effet, certains cas d’usages qui nécessitent des suppressions ou des modifications régulières ou massives de documents peuvent amener à …
Le monitoring d’un environnement SolrCloud en production est essentiel afin d’anticiper les problèmes de performances et le cas échéant en comprendre l’origine. Cet article décrit comment mettre en place un monitoring de SolrCloud au moyen de Prometheus et Grafana. Principe …
Une question fréquente est comment sauvegarder les données d’une collection et les restaurer au besoin. Dans cet article nous décrivons pour différents cas de figure comment restaurer partiellement ou totalement une collection Solr. Pourquoi peut-il être nécessaire de sauvegarder les …
Cet article décrit la procédure et les bonnes pratiques pour une installation en mode standard ou en mode SolrCloud de Solr version 7 ou plus.
Dans cet article, je vais aborder un sujet qui est bien documenté pour Solr, mais moins pour elasticsearch : le développement et l’installation d’un token filter. La structure du projet Maven doit permettre de packager le token filter aussi bien pour Lucene …