Extraction d’entités nommées pour une indexation dans elasticsearch ou Solr
7 juillet 2025
elasticsearch, Lucene / Solr, Technique
Dans un précédent article, j’ai présenté l’Elastic Open Web Crawler et montré comment collecter des publications issues de sites de presse. J’ai proposé quelques post-traitements simples avant l’indexation dans elasticsearch afin d’extraire un contenu plus propre et des informations comme …