Fanny Jourdan a soutenu sa thèse sur « L’équité dans le traitement automatique des langues : des méthodes traditionnelles vers l’explicabilité »

Le 28 juin 2024, Fanny Jourdan a soutenu sa thèse à l’IRIT (Institut de Recherche en Informatique de Toulouse) à Toulouse. Cette thèse a été préparée à l’EDMITT (Ecole Doctorante de Mathématiques, Informatique et Télécommunications de Toulouse). Durant sa thèse, Fanny faisait partie de l’équipe du projet DEEL au sein d’ANITI.


A PROPOS DE sa thèse

 » L’équité dans le traitement automatique des langues : des méthodes traditionnelles vers l’explicabilité « 

L’étude débute avec la présentation d’un algorithme novateur, conçu pour réduire les biais algorithmiques dans les classifieurs neuronaux multiclasses. Cette approche, adaptée aux applications de TAL à haut risque conformément aux réglementations européennes, surpasse les méthodes traditionnelles en matière de réduction des biais et de précision prédictive. Elle offre également une flexibilité dans l’ajustement des niveaux de régularisation pour chaque catégorie de sortie, se distinguant ainsi des limitations des techniques antérieures de débiaisage basées sur des modèles binaires.

Un aspect essentiel de cette recherche est l’analyse empirique du jeu de données Bios, comprenant des biographies LinkedIn et les professions correspondantes. Cette étude met en évidence l’effet de la taille du jeu de données d’entraînement sur les biais discriminatoires, tout en exposant les lacunes et incohérences des métriques d’équités standards, particulièrement dans le contexte des petits jeux de données. La nature imprévisible des biais, ainsi que leur dépendance vis-à-vis des métriques choisies, soulignent les limites actuelles des métriques d’équités pour appréhender de manière exhaustive le spectre des biais inhérents aux systèmes d’Intelligence Artificielle (IA). Cette prise de conscience a mené à des explorations dans le domaine de l’IA explicable, en quête d’une compréhension plus approfondie des biais, là où les métriques traditionnelles se révèlent insuffisantes.

Une réalisation centrale de cette thèse est la création de COCKATIEL, une méthode post-hoc d’explicabilité agnostique du modèle pour les modèles de TAL. Cette approche innovante intègre distinctement la découverte de concepts, leur classement et interprétation, s’harmonisant efficacement avec les explications conceptualisées par les humains, tout en restant fidèle aux principes fondamentaux des modèles. Les expériences menées dans des tâches d’analyse de sentiment ont montré la capacité supérieure de COCKATIEL à découvrir des concepts qui s’alignent sur ceux des humains dans les modèles Transformers sans aucune supervision.

Illustration of the method

De plus, la thèse contribue à créer un pont entre l’équité et l’explicabilité en introduisant TaCo, une nouvelle méthode pour neutraliser les biais dans les embeddings des modèles Transformers. En utilisant la stratégie d’explicabilité basée sur les concepts de COCKATIEL, cette approche identifie et élimine efficacement les concepts influençant principalement la prédiction de variables sensibles, produisant ainsi des embeddings moins biaisés. Cette méthode illustre le double rôle de l’explicabilité comme outil de compréhension et comme mécanisme pour renforcer l’équité dans les modèles d’IA.

En conclusion, cette thèse représente une contribution interdisciplinaire significative, alliant explicabilité et équité pour remettre en question et remodeler les paradigmes actuels de l’équité dans le TAL. Les méthodologies et critiques présentées ici contribuent profondément au discours en cours sur l’équité dans l’apprentissage automatique, offrant des solutions et des perspectives d’action pour la création de systèmes d’IA plus équitables et responsables. Les implications de cette recherche sont vastes et sont destinées à influencer les trajectoires de recherche futures et à guider le développement de technologies de TAL plus justes et responsables.

Publications scientifiques

  • Fanny Jourdan, Laurent Risser, Jean-Michel Loubes, Nicholas Asher, « Are fairness metric scores enough to assess discrimination biases in machine learning? », in Proceedings of Third Workshop on Trustworthy Natural Language Processing (TrustNLP ACL2023).
  • Fanny Jourdan, Titon Tshiongo Kaninku, Nicholas Asher, Jean-Michel Loubes, Laurent Risser, »How Optimal Transport Can Tackle Gender Biases in Multi-Class Neural Network Classifiers for Job Recommendations », in Algorithms, 16.3, p. 174.
  • Fanny Jourdan, Agustin Picard, Thomas Fel, Laurent Risser, Jean-Michel Loubes, Nicholas Asher, « COCKATIEL: COntinuous Concept ranKed ATtribution with Interpretable ELements for explaining neural net classifiers on NLP tasks » in Proceedings of Findings of the Association for Computational Linguistics (ACL 2023).
  • Fanny Jourdan, Louis Bethune, Agustin Picard, Laurent Risser, and Nicholas Asher, « TaCo: Targeted Concept removal in output embeddings for nlp via information theory and explainability » preprint.
a propos du projet DEEL
JURY
M. Emiliano LoriniPrésident du juryCNRS Occitanie Ouest
Mme Serena VillataRapporteureCNRS Côte d’Azur
Mme Céline HudelotExaminatriceCentrale Supélec
M. Jackie CheungExaminateurMcGill University
M. Nicholas AsherDirecteur de thèseCNRS Occitanie Ouest
M. Laurent RisserCo-directeur de thèseCNRS Occitanie Ouest
Fanny Jourdan a soutenu sa thèse sur « L’équité dans le traitement automatique des langues : des méthodes traditionnelles vers l’explicabilité »
Retour en haut