Le 28 juin 2024, Fanny Jourdan a soutenu sa thèse à l’IRIT (Institut de Recherche en Informatique de Toulouse) à Toulouse. Cette thèse a été préparée à l’EDMITT (Ecole Doctorante de Mathématiques, Informatique et Télécommunications de Toulouse). Durant sa thèse, Fanny faisait partie de l’équipe du projet DEEL au sein d’ANITI.
A PROPOS DE sa thèse
» L’équité dans le traitement automatique des langues : des méthodes traditionnelles vers l’explicabilité «
Contexte
Le domaine en plein essor du Traitement Automatique des Langues (TAL) se trouve à un tournant critique où l’intégration de l’équité dans ses structures est devenue impérative. Cette thèse de doctorat se penche sur ces questions, soulignant que l’équité dans ce domaine ne constitue pas uniquement un défi technique, mais également une exigence morale et éthique. Elle nécessite un examen approfondi des interactions entre ces technologies et les diverses populations humaines, ainsi que de leur impact sur ces dernières. À travers cette perspective, cette thèse propose une étude détaillée sur l’élaboration de méthodologies de TAL équitables et sur l’évaluation des biais présents dans les systèmes actuels.
L’étude débute avec la présentation d’un algorithme novateur, conçu pour réduire les biais algorithmiques dans les classifieurs neuronaux multiclasses. Cette approche, adaptée aux applications de TAL à haut risque conformément aux réglementations européennes, surpasse les méthodes traditionnelles en matière de réduction des biais et de précision prédictive. Elle offre également une flexibilité dans l’ajustement des niveaux de régularisation pour chaque catégorie de sortie, se distinguant ainsi des limitations des techniques antérieures de débiaisage basées sur des modèles binaires.
Un aspect essentiel de cette recherche est l’analyse empirique du jeu de données Bios, comprenant des biographies LinkedIn et les professions correspondantes. Cette étude met en évidence l’effet de la taille du jeu de données d’entraînement sur les biais discriminatoires, tout en exposant les lacunes et incohérences des métriques d’équités standards, particulièrement dans le contexte des petits jeux de données. La nature imprévisible des biais, ainsi que leur dépendance vis-à-vis des métriques choisies, soulignent les limites actuelles des métriques d’équités pour appréhender de manière exhaustive le spectre des biais inhérents aux systèmes d’Intelligence Artificielle (IA). Cette prise de conscience a mené à des explorations dans le domaine de l’IA explicable, en quête d’une compréhension plus approfondie des biais, là où les métriques traditionnelles se révèlent insuffisantes.
Une réalisation centrale de cette thèse est la création de COCKATIEL, une méthode post-hoc d’explicabilité agnostique du modèle pour les modèles de TAL. Cette approche innovante intègre distinctement la découverte de concepts, leur classement et interprétation, s’harmonisant efficacement avec les explications conceptualisées par les humains, tout en restant fidèle aux principes fondamentaux des modèles. Les expériences menées dans des tâches d’analyse de sentiment ont montré la capacité supérieure de COCKATIEL à découvrir des concepts qui s’alignent sur ceux des humains dans les modèles Transformers sans aucune supervision.
Illustration of the method
De plus, la thèse contribue à créer un pont entre l’équité et l’explicabilité en introduisant TaCo, une nouvelle méthode pour neutraliser les biais dans les embeddings des modèles Transformers. En utilisant la stratégie d’explicabilité basée sur les concepts de COCKATIEL, cette approche identifie et élimine efficacement les concepts influençant principalement la prédiction de variables sensibles, produisant ainsi des embeddings moins biaisés. Cette méthode illustre le double rôle de l’explicabilité comme outil de compréhension et comme mécanisme pour renforcer l’équité dans les modèles d’IA.
En conclusion, cette thèse représente une contribution interdisciplinaire significative, alliant explicabilité et équité pour remettre en question et remodeler les paradigmes actuels de l’équité dans le TAL. Les méthodologies et critiques présentées ici contribuent profondément au discours en cours sur l’équité dans l’apprentissage automatique, offrant des solutions et des perspectives d’action pour la création de systèmes d’IA plus équitables et responsables. Les implications de cette recherche sont vastes et sont destinées à influencer les trajectoires de recherche futures et à guider le développement de technologies de TAL plus justes et responsables.
Publications scientifiques
- Fanny Jourdan, Laurent Risser, Jean-Michel Loubes, Nicholas Asher, « Are fairness metric scores enough to assess discrimination biases in machine learning? », in Proceedings of Third Workshop on Trustworthy Natural Language Processing (TrustNLP ACL2023).
- Fanny Jourdan, Titon Tshiongo Kaninku, Nicholas Asher, Jean-Michel Loubes, Laurent Risser, »How Optimal Transport Can Tackle Gender Biases in Multi-Class Neural Network Classifiers for Job Recommendations », in Algorithms, 16.3, p. 174.
- Fanny Jourdan, Agustin Picard, Thomas Fel, Laurent Risser, Jean-Michel Loubes, Nicholas Asher, « COCKATIEL: COntinuous Concept ranKed ATtribution with Interpretable ELements for explaining neural net classifiers on NLP tasks » in Proceedings of Findings of the Association for Computational Linguistics (ACL 2023).
- Fanny Jourdan, Louis Bethune, Agustin Picard, Laurent Risser, and Nicholas Asher, « TaCo: Targeted Concept removal in output embeddings for nlp via information theory and explainability » preprint.
a propos du projet DEEL
Le projet DEEL (DEpendable Explainable Learning) implique des partenaires académiques et industriels dans le développement de briques technologiques d’intelligence artificielle fiables, robustes, explicables et certifiables appliquées à des systèmes critiques. Le projet couvre 5 thèmes : Explicabilité, Biais, Quantification de l’Incertitude, Hors Distribution et Apprentissage par Renforcement.
JURY
M. Emiliano Lorini | Président du jury | CNRS Occitanie Ouest |
Mme Serena Villata | Rapporteure | CNRS Côte d’Azur |
Mme Céline Hudelot | Examinatrice | Centrale Supélec |
M. Jackie Cheung | Examinateur | McGill University |
M. Nicholas Asher | Directeur de thèse | CNRS Occitanie Ouest |
M. Laurent Risser | Co-directeur de thèse | CNRS Occitanie Ouest |