Technique Archive
Dans un précédent article, j’ai présenté l’Elastic Open Web Crawler et montré comment collecter des publications issues de sites de presse. J’ai proposé quelques post-traitements simples avant l’indexation dans elasticsearch afin d’extraire un contenu plus propre et des informations comme …
Elastic Open Web Crawler est le nouveau Crawler en version Beta proposé par Elastic et dont le code et la documentation sont disponibles sous Github. Dans cet article, je vais décrire les étapes de mise en œuvre de Elastic Open …
Dans un environnement de production, Solr peut être soumis à des charges de requêtes concurrentes intenses, d’autant plus lorsque des opérations d’indexation et de recherche sont réalisées simultanément. Sans mécanisme de contrôle, ces situations peuvent entraîner une saturation critique des …
Dans cet article nous abordons l’installation sous Linux d’un cluster elasticsearch et non pas d’une infrastructure ELK complète. L’installation de Kibana qui est néanmoins indispensable pour à minima l’administration du cluster sera décrite dans un autre article. La procédure d’installation …
Un de nos clients manipule des collections de plus ou moins 1 milliards de documents. Ces documents sont constitués principalement de méta-données. Ces volumes commencent à devenir conséquents pour des recherches et du facetting mais également pour des exports massifs …
Réaliser des recherches NRT (Near Real Time Search) dans une collection SolrCloud constituée uniquement de replicas TLOG
Le CDCR disparaît dans la version 9 de Solr. Dans cet article, nous proposons une solution alternative afin de permettre la gestion des Disaster Recovery
Une des questions les plus fréquentes concernant la gestion au quotidien des index Solr est le traitement des documents supprimés. En effet, certains cas d’usages qui nécessitent des suppressions ou des modifications régulières ou massives de documents peuvent amener à …
Le monitoring d’un environnement SolrCloud en production est essentiel afin d’anticiper les problèmes de performances et le cas échéant en comprendre l’origine. Cet article décrit comment mettre en place un monitoring de SolrCloud au moyen de Prometheus et Grafana. Principe …
Une question fréquente est comment sauvegarder les données d’une collection et les restaurer au besoin. Dans cet article nous décrivons pour différents cas de figure comment restaurer partiellement ou totalement une collection Solr. Pourquoi peut-il être nécessaire de sauvegarder les …