Projet ANR ARCHIVAL – Chaire Unesco ITEN

Valorisation d’archives multimédia : Compréhension automatique multimodale du langage pour de nouvelles interfaces intelligentes de médiation et de transmission des savoirs.

CE38 Révolution numérique : rapports au savoir et à la culture

La chaire UNESCO ITEN (FMSH – Université Paris8) est coordinatrice du projet de recherche collaborative – entreprise (PRCE) ARCHIVAL, aux côtés de L’IRISA (Institut de Recherche en Informatique et Systèmes Aléatoires) à Rennes avec le LIS LAB (Laboratoire d’informatique et systèmes) à Marseille avec Orange Labs à Lannion. Il a été labellisé par le pôle de compétitivité CapDigital.

QUESTIONNEMENTS SIC DU PROJET ARCHIVAL

● Quels rôles peuvent jouer les méthodes de Compréhension par les machines dans la réinterprétation de fonds d’archives thématiques ?

● Selon quelles modalités des interfaces génériques de médiation des contenus peuvent-elles exploiter des résultats générés par les méthodes actuelles d’Intelligence Artificielle (IA) ?

CONTEXTE DU PROJET ARCHIVAL

● Corpus multimodal : fonds archivistique et documentaire « Autogestion » de la Bibliothèque FMSH + audios-vidéos issus de la vidéothèque numérique Canal-U FMSH.

Depuis 1960, un fonds mixte (archives et documentation), plurilingue et pluridisciplinaire de 25 000 pièces : livres, revues, brochures, mémoires, rapports, tracts, comptes rendus de réunions, correspondances… a été constitué par la Bibliothèque de la FMSH

Une partie du fonds a récemment été labellisé CollEx (Collection d’Excellence) dans le cadre de l’AMI CollEx-Persée.

Ce fonds sera progressivement enrichi des fonds documentaires « Autogestion » de Gallica, des vidéos de l’INA et du département audiovisuel de la BNF.

● L’autogestion accompagne aujourd’hui de manière sous-jacente, les notions de démocratie radicale, de confédéralisme, d’économie sociale et solidaire, de développement durable.

● Source d’innovation sociale, l’autogestion se conjugue au présent dans le monde entier et interroge les modèles de développement économiques et sociétaux.

● Les méthodes de Compréhension Automatique du Langage (Natural Language Understanding) permettent de :

> structurer l’information
> générer des cartographies de l’espace sémantique (un maillage de l’information) > dépasser la simple extraction de termes (mots clés, entités, triplets RDF)
> viser la prise en compte du sens d’un document (la science latente)

● Les méthodes d’Apprentissage Automatique par des Réseaux de Neurones Profonds (Deep Learning) permettent :

> d’apprendre directement des représentations (projections dans des espaces numériques) en fonction d’une tâche de l’utilisateur final (détecter des concepts ou entités, classer des documents, etc…)

● Les méthodes de Compréhension de Document par les Machines (Machine Reading Comprehension) permettent :

> d’interroger les documents par des questions « naturelles » afin d’en découvrir des extraits pertinents

OBJECTIFS SCIENTIFIQUES MAJEURS DU PROJET ARCHIVAL

● Réaliser cette Compréhension de Documents de manière multimodale (paroles, textes, images fixes et vidéos).

● Permettre grâce aux méthodes d’IA de type «End-to-end»

> une optimisation globale de la chaîne de traitement
> des perspectives de collaboration inédites entre chercheurs en SHS, STIC et Informatique, en plaçant l’utilisateur final au cœur du processus d’apprentissage machine.

● Appréhender un document au prisme :

> des relations qu’il entretient avec d’autres documents,
> des questions « naturelles » portant sur son contenu,
> des synthèses (résumés, réécritures, cartographies) qui peuvent être générées dynamiquement suite à son analyse.

● Structurer dynamiquement une interface de résultats de requête pour redécouvrir le plaisir de feuilleter ou d’approfondir