Des méthodes statistiques telles que l'analyse discriminante, la régression logistique, la régression de Cox, et l'analyse canonique généralisée regularisée sont étendues au contexte des données multivoie, pour lesquelles, chaque individu est décrit par plusieurs instances de la même variable. Les données ont ainsi naturellement une structure tensorielle. Contrairement à leur formulation standard, une contrainte structurelle est imposée. L'intérêt de cette contrainte est double: d'une part elle permet une étude séparée de l'influence des variables et de l'influence des modalités, conduisant ainsi à une interprétation facilité des modèles. D'autre part, elle permet de restreindre le nombre de coefficients à estimer, et ainsi de limiter à la fois la complexité calculatoire et le phénomene de sur-apprentissage. Des stratégies pour gérer les problèmes liés au grande dimension des données sont également discutés. Ces différentes méthodes sont illustrées sur deux jeux de données réelles: (i) des données de spectroscopie et (ii) des données d'imagerie par résonance magnétique multi-modales pour prédire le rétablissement à long terme des patients après traumatisme cranien. Dans ces deux cas les méthodes proposées offrent de bons résultats en comparaison des résultats obtenus avec les approches standards.
Mots-clés : Analyse de données, multiway, classification
M. Arthur TENENHAUS | CentraleSupélec | Directeur de thèse | |||
M. Hervé ABDI | University of Texas | Rapporteur | |||
M. Mohamed HANAFI | Université de Nantes | Rapporteur | |||
M. Christophe AMBROISE | Université d'Evry | Examinateur | |||
M. Robert SABATIER | Université de Montpellier | Examinateur | |||
M. Remy BOYER | CentraleSupelec | Invité | |||
M. Laurent LE BRUSQUET | CentraleSupelec | Invité |