Rapport de recherche Analyse automatique de corpus de revues SHS

Ce rapport est conjointement publié sur le site du HN Lab qui a dirigé la présente expérimentation. Celle-ci s’inscrit dans la conclusion du projet Revue2.0 – Repenser les revues savantes en SHS porté par la Chaire de recherche du Canada sur les écritures numériques.

Dans le cadre des expérimentations de la phase 2 du projet, le HN Lab a lancé un chantier d’analyse sur les corpus de trois revues savantes afin de répondre aux problématiques suivantes :

Quel est l’apport scientifique d’une revue ?

Quels sont les concepts qui ont traversé l’histoire d’une revue ?

Comment situer une revue scientifique dans son champ de recherche ?

Pour traiter de ces questions complexes, l’expérimentation consistait à éprouver et à comparer différentes méthodes d’analyse automatique de textes, notamment les méthodes de machine et deep learning (ML/DL), méthodes qui ont permis d’apporter quelques éléments de réponses.

L’expérimentation a également été l’occasion de confronter ces méthodes ML/DL aux propres méthodes d’analyse et d’enrichissements sémantiques employées par ISIDORE, le moteur de recherche pour les SHS, et d’évaluer leur potentiel pour les services Huma-Num.

Pour mener cette expérimentation, le HN Lab a missionné l’entreprise DSI Global Services, mobilisant le data scientist Albeiro De Jesus Espinal Pulgarin. La société a proposé une démarche d’exploration en profondeur selon une approche progressive en dialogue avec l’équipe du HN Lab et en articulation avec les équipes des revues. La problématique scientifique initiale a été transposée en une sous-problématique adaptée à une approche d’analyse automatique : quels sont les concepts les plus pertinents et les plus caractéristiques d’un corpus donné ? En effet, établir une chaîne de traitement solide pour l’identification de ces concepts pertinents constitue un socle préalable pour élaborer une série d’analyses comparatives, quantitatives et qualitatives à différentes échelles. Ce sont sur ces bases que des éléments de réponse aux problématiques initiales sont susceptibles d’émerger. Cette recherche des concepts les plus pertinents a été systématiquement menée sur trois niveaux éditoriaux : l’article, le numéro (ou le dossier) et la revue elle-même. Ces paliers documentaires ont ouvert des échelles d’analyse tout à fait pertinentes, par exemple pour comprendre l’évolution du champ conceptuel d’une revue dans le temps.

Résultats

L’expérimentation a donné lieu à plusieurs résultats de nature et d’échelles diverses.

En premier lieu, le projet a permis de construire une chaîne complète et détaillée de traitement et d’analyse des corpus étudiés, en expérimentant plusieurs algorithmes de prédictions, et en explorant de manière poussée des voies d’amélioration de ces algorithmes. La chaîne est composée de différents modules sous forme de notebooks Python, articulant ainsi l’algorithmique et sa documentation.

En second lieu, la proposition de DSI s’est attachée à mettre en place une évaluation systématique de la chaîne de traitement selon trois dimensions, chacune comportant une série de métriques quantitatives.

  1. la dimension Machine/Deep Learning, dédiée à l’évaluation de la qualité des prédictions des concepts pertinents et à l’évaluation des vectorisations de mots existantes (word embeddings).
  2. la dimension Données, dédiée à l’évaluation de la pertinence d’ISIDORE pour l’application spécifique : exactitude, précision, consistance et intégralité, pour lesquelles ont été conçues des métriques de qualité pour l’ensemble des documents disponibles.
  3. la dimension Système, dédiée à l’évaluation des performances du système, en particulier la consommation en ressources des principaux modules du système (CPU, espace disque), du temps de traitement des articles et de la traçabilité des données.

Ces métriques ont permis de quantifier les améliorations progressives de la chaîne tout au long du projet.

En troisième lieu, le projet a mis en production une infrastructure complète, déployée sous docker et comprenant différentes plateformes pour le traitement des données (Jupyter Hub/Lab), l’annotation de corpus (Doccano), la visualisation des données analysées (Kibana basé sur Elastic Search) et la gestion des flux de données (Apache Airflow). Un espace Sharedocs interconnecté à l’infrastructure (via RCLONE) a permis la gestion des données et des données intermédiaires. À cette infrastructure s’ajoute un mini-site à destination des éditeurs et éditrices ayant participé aux évaluations « métiers » des prédictions de la machine.

Enfin, le projet a produit une grande quantité de données intermédiaires, issues des transformations du corpus, de leurs analyses terminologiques, de leurs vectorisations. Une partie de ces données est exploitée par la plateforme Kibana offrant des visualisations pré-paramétrées (dashboards) et un outil pour en produire de nouvelles. Ce dernier résultat constitue en fait le début d’une nouvelle phase d’analyse qualitative qui sera menée avec les éditeurs et éditrices des revues participantes.

En lien avec la mission du HN Lab au sein de l’IR*, l’expérimentation permet de formuler des pistes de travail pour l’IR* et plus particulièrement pour ISIDORE et sa chaîne d’indexation et d’enrichissement.

Chaîne de traitement

Le développement de la chaîne a été structuré en 5 étapes pour le traitement automatique de corpus de revue :

  1. Analyse des données
  2. Extraction des données
  3. Préparation des données
  4. Modélisation des données
  5. Évaluation des résultats

Chaîne

Illustration simplifiée de la chaîne d’analyse menée lors de l’expérimentation Revue 2.01

Analyse des données

L’expérimentation a porté sur les corpus de trois revues partenaires du projet Revue 2.0, Études Françaises, Intermédialités et Sens Public, dont les archives ont été fournies par Érudit au format XML Erudit.

Le développement réalisé fournit un ensemble de librairies, fonctions et approches utilisées pour l’analyse du corpus d’articles de chaque revue.

L’ensemble de notebooks développés permettent d’exécuter les actions suivantes à partir du corpus spécifique :

Pour synthétiser, ces différents modules permettent de parcourir les principales dimensions du corpus de revue et d’identifier des possibles sources de bruit (générées le plus souvent lors du processus d’océrisation) susceptibles de réduire le niveau de performance des modèles Machine/Deep learning utilisés pour l’analyse approfondie des corpus.

Livrables

Extraction des données

Le corpus de données initial a été livré par Érudit dans une structure arborescente de fichiers au format XML Erudit organisant les articles par dossier ou par numéro selon la revue. L’extraction a consisté à transformer chaque corpus en objets facilitant son traitement et l’automatisation de l’analyse, toujours selon la granularité éditoriale en article, numéro/dossier et revue. Cette étape a également permis d’estimer le niveau de qualité de traitement du corpus dans son format natif Érudit et de détecter des opportunités d’amélioration pour une description plus précise de la revue.

Les notebooks développés dans ce module permettent finalement de :

Livrables

Préparation des données

Le module de préparation des données permet à un utilisateur ou une utilisatrice de réaliser les actions suivantes :

En d’autres mots, le module développé permet d’exporter l’ensemble des données pour l’analyse de la revue à partir d’un moteur de bases de données centralisant les différents éléments à grande échelle. Cette exportation permet aussi à l’utilisateur ou l’utilisatrice de réaliser des analyses plus approfondies et personnalisées à partir de l’outil de visualisation Kibana.

Livrables

Modélisation

L’étape de modélisation offre un ensemble de notebooks qui permettent de représenter les champs sémantiques de chaque revue selon différentes méthodes Machine/Deep learning. Sur la base des notebooks réalisés, un utilisateur ou une utilisatrice peut réaliser les actions suivantes :

En synthèse, le module de modélisation permet d’explorer plus en profondeur le contenu de chaque revue et de représenter leurs connaissances sous le concept de champ sémantique afin de permettre à un expert ou à une experte d’interpréter et de décrire quels ont été les principaux apports de la revue en termes de connaissances dans son domaine spécifique.

Livrables

Définir les modèles machine/deep learning pour la prédiction de la pertinence de termes/concepts par article/revue:

Définir les modèles machine/deep learning pour la discrimination de champs sémantiques. Formalisation du concept de champ sémantique:

Formaliser le concept de champ sémantique par article, par revue, par champ disciplinaire et par le référentiel ISIDORE:

Évaluation

Le module d’évaluation rassemble les différentes évaluations effectuées sur le projet, en lien avec les experts ou expertes mobilisé·e·s (éditeurs et éditrices des revues). Dans ce module, le rôle de l’expert ou de l’experte est essentiel pour évaluer et contrôler tout au long de son cycle de vie la qualité du système. Ce module comprend les actions suivantes :

Le module d’évaluation constitue une base pour l’évaluation du système tout au long de sa durée de vie. L’intervention humaine régulière (experts métiers et experts techniques) est fondamentale pour suivre la qualité du système dans son intégralité sur la base 1) de tests générés aléatoirement et 2) d’un ensemble de métriques de qualité définies pour les différentes dimensions de la chaîne de traitement.

Livrables

Définir les métriques de qualité pour l’évaluation de l’ensemble de modules du système:

Définir le protocole d’évaluation:

Évaluation du module d’extraction des données:

Évaluation de la pertinence des principaux référentiels d’ISIDORE par rapport à la problématique métier:

Évaluation des modèles IA:

Évaluation

Dimension Machine/Deep Learning

Cette dimension se consacre à l’évaluation de la qualité des prédictions des concepts pertinents et à l’évaluation des vectorisations de mots existantes (word embeddings).

Évaluation finale sur la dimension _Machine/Deep Learning_

Évaluation finale sur la dimension Machine/Deep Learning

Dimension Données

Cette dimension se consacre à l’évaluation de la pertinence d’ISIDORE pour l’application spécifique : exactitude, précision, consistance et intégralité, pour lesquelles ont été conçues des métriques de qualité pour l’ensemble des documents disponibles.

Évaluation finale sur la dimension Données

Évaluation finale sur la dimension Données

Dimension Système

Cette dimension se consacre à l’évaluation des performances du système, en particulier la consommation en ressources des principaux modules du système (CPU, espace disque), du temps de traitement des articles et de la traçabilité des données.

Évaluation finale sur la dimension Système

Évaluation finale sur la dimension Système

Infrastructure

Schéma de l’infrastructure docker

Schéma de l’infrastructure Docker

L’architecture du système consiste à une infrastructure Docker constituée par les composantes suivantes :

Le système peut être installé sur un serveur Apache (expérimentations online) ou sur une machine locale (expérimentations offline).

Intérêts et transferts pour les services de la TGIR Huma-Num

L’expérimentation menée par le HN Lab avec la collaboration de l’équipe de DSI Groups permet de formuler des pistes de travail et d’amélioration des propres services de la TGIR, en particulier pour les chaînes d’enrichissements multilingues des métadonnées et données traitées dans ISIDORE. Cette expérimentation a permis de confronter les enrichissements effectués dans ISIDORE, qui ont une vocation documentaire (car calculé avec des référentiels sur des métadonnées), à une extraction de connaissances par apprentissage de contenus scientifiques (ou « &nbps;contenus métiers&nbps; ») directement depuis le texte intégral des revues. L’intérêt de ce type de travaux est aussi de mesurer l’impact qu’il peut avoir sur un écosystème fondé sur l’usage d’API. L’API d’ISIDORE ayant été fortement sollicitée, l’expérimentation a permis d’alimenter les réflexions et les travaux d’Huma-Num, notamment dans le cadre d’Huma-Num Science Ouverte (HNSO), pour en améliorer les performances.

Ces travaux ont fait l’objet d’une réunion commune entre DSI Groups, le HN Lab et le pôle Accès de la TGIR Huma-Num pour partager l’expérience accumulée.

  1. Tous les visuels ont été créés par Albeiro De Jesus Espinal Pulgarin, data scientist sur le projet.