Contributions a l'analyse de données multivoie: algorithmes et applications

Olga Gisela LECHUGA LOPEZ
Soutenance de thèse de doctorat le 3 Juillet 2017, 14h00 à CentraleSupelec (Gif-sur-Yvette) Amphi Blondel

Des méthodes statistiques telles que l'analyse discriminante, la régression logistique, la régression de Cox, et l'analyse canonique généralisée regularisée sont étendues au contexte des données multivoie, pour lesquelles, chaque individu est décrit par plusieurs instances de la même variable. Les données ont ainsi naturellement une structure tensorielle. Contrairement à leur formulation standard, une contrainte structurelle est imposée. L'intérêt de cette contrainte est double: d'une part elle permet une étude séparée de l'influence des variables et de l'influence des modalités, conduisant ainsi à une interprétation facilité des modèles. D'autre part, elle permet de restreindre le nombre de coefficients à estimer, et ainsi de limiter à la fois la complexité calculatoire et le phénomene de sur-apprentissage. Des stratégies pour gérer les problèmes liés au grande dimension des données sont également discutés. Ces différentes méthodes sont illustrées sur deux jeux de données réelles: (i) des données de spectroscopie et (ii) des données d'imagerie par résonance magnétique multi-modales pour prédire le rétablissement à long terme des patients après traumatisme cranien. Dans ces deux cas les méthodes proposées offrent de bons résultats en comparaison des résultats obtenus avec les approches standards.

Mots-clés :  Analyse de données, multiway, classification

Composition du jury proposé
M. Arthur TENENHAUS     CentraleSupélec   Directeur de thèse
M. Hervé ABDI     University of Texas   Rapporteur
M. Mohamed HANAFI     Université de Nantes   Rapporteur
M. Christophe AMBROISE     Université d'Evry   Examinateur
M. Robert SABATIER     Université de Montpellier   Examinateur
M. Remy BOYER     CentraleSupelec   Invité
M. Laurent LE BRUSQUET     CentraleSupelec   Invité