Open innovation : Geneea innove en « géo-documentant » les contenus de France Bleu Drôme Ardèche
21 février 2022 par Juliette Eugène

Open innovation : Geneea innove en « géo-documentant » les contenus de France Bleu Drôme Ardèche

Fondée en 2014, Geneea est une ex-jeune pousse, qui, en quelques années, s’est développée sur son marché et à l’international. D’origine tchèque, et spécialisée dans le traitement automatique du langage, Geneea a déjà travaillé pour divers médias européens. De l’écriture automatique d’articles de journaux à la recommandation de photographies pertinentes pour illustrer un article, le champ d’application de leur application Frida est large. En 8 années d’existence, la scale-up a bien grandi. Passée de 4 à 15 employés, elle collabore avec des entreprises de plusieurs pays européens. En qualité de membre du réseau européen Future Media Hubs, Radio France a proposé à Geneea d’initier un projet Sandbox pour accélérer leur technologie de reconnaissance d’entités nommées et permettre aux équipes de France Bleu Drôme Ardèche de produire une cartographie des lieux mentionnés sur quatre émissions de son antenne.

En quoi consistent les tests menés avec France Bleu Drôme Ardèche ?

Geneea a analysé 4 émissions de France Bleu Drôme Ardèche : Cap en Drôme-Ardèche, On cuisine ensemble, et les journaux quotidiens de 8h et de 18h. Chaque épisode des émissions est ainsi retranscrit avec les outils standards d’Amazon que Geneea personnalise et affine dans le cadre de cette expérimentation. Les transcriptions ont ensuite été analysées par Frida. Les informations sont enfin combinées avec des données externes, comme le code officiel géographique de l’INSEE, le nombre d’habitants en Drôme et en Ardèche, ou encore les provenances des appels d’auditeurs à la locale. Grâce à ces différentes données, les résultats de cette analyse permettent de produire plusieurs cartographies, pour situer les lieux les plus souvent mentionnés en Drôme, en Ardèche et plus globalement en France. Sans surprise, les villes les plus peuplées sont les plus mentionnées (Valence, Aubenas, Privas…), mais on découvre également quelques zones qui font moins l’actualité de la région mais dont proviennent un nombre conséquent d’appels d’auditeurs. Au-delà d’une meilleure connaissance de son public, les cartes produites participent à la mise en place d’actions éditoriales concrètes par la locale, grâce à ces jeux de données. Au total, près de 200 épisodes ont été analysés, et plus de 3000 lieux identifiés en tant qu’entités nommées.

Carte de la région Drôme-Ardèche représentant le nombre de fois où une commune a été mentionnée dans les émissions analysées. Ici, Anonnay a été mentionnée 35 fois, dont 26 dans des documents. Sa population est de 16920 habitants et 622 auditeurs ont appelé depuis cette commune
Carte de la région Drôme-Ardèche représentant la concentration de la population dans cette région. Ici, Anonnay a été mentionnée 35 fois, dont 26 dans des documents. Sa population est de 16920 habitants et 622 auditeurs ont appelé depuis cette commune

Frida met également en évidence d’autres entités nommées au sein des transcriptions réalisées : on peut ainsi analyser les personnalités publiques, les organisations, les dates et événements, etc.

Résultats d'une analyse de l'article de France Bleu intitulé : "Rassemblement devant le palais de justice de Valence". Certains mots sont surlignés dans le texte sur la gauche et répertoriés comme "entités" puis classés dans des catégories selon un code couleur (personne, organisation, localisation, général, pays, région, district, ville) dans un tableau sur la droite.

Quelles finalités pour ce Sandbox ?

Pour Geneea, intégrer le Sandbox Radio France a permis d’améliorer leur solution Frida, notamment en automatisant le logiciel pour qu’il produise des résultats quotidiens. Cette application a aussi bénéficié des retours des parties prenantes de Radio France impliquées dans cette expérimentation, par exemple pour corriger plus rapidement les erreurs et imprécisions de transcription en Français, une langue difficile à appréhender par les applications de traitement automatique du langage.

Le dispositif Sandbox Radio France a aussi permis à la scale-up de travailler sur la « data visualization » : la représentation graphique des données analysées. Ainsi, Frida peut désormais générer des cartes pour mieux représenter les résultats, une option que Geneea ne possédait pas avant l’expérimentation.

Pour en savoir plus

Visitez le site de Geneea.

Rejoignez le Sandbox, dispositif d’open innovation Radio France pour les startups audio et média.