Séparation aveugle de sources : de l'instantané au convolutif

Fangchen FENG
Thesis defended on October 04, 2017, 3:30 PM at CentraleSupelec (Gif-sur-Yvette) Salle des séminaires du L2S

Composition du jury

M. Matthieu KOWALSKI   Université Paris-Sud     Directeur de these
M. Laurent GIRIN              Grenoble-INP, Gipsa-Lab  Rapporteur
M. Emmanuel VINCENT   Inria Grand-Est, Loria     Rapporteur
M. Roland BADEAU      Télécom ParisTech     Examinateur
M. Laurent DAUDET      Univ Paris-Diderot             Examinateur
M. Alexandre GRAMFORT   Inria Saclay, Neurospin     Examinateur 

Mots-clés :  Séparation aveugle de sources, Parcimonie, Représentation de Gabor, Factorisation en matrices nonnégatives, Problème inverse, Optimisation

Résumé : 
La séparation aveugle de source consiste à estimer les signaux de sources uniquement à partir des mélanges observés. Le problème peut être séparé en deux catégories en fonction du modèle de mélange: mélanges instantanés, où le retard et la réverbération (effet multi-chemin) ne sont pas pris en compte, et des mélanges convolutives qui sont plus généraux mais plus compliqués. De plus, le bruit additif au niveaux des capteurs et le réglage sous-déterminé, où il y a moins de capteurs que les sources, rendent le problème encore plus difficile. Dans cette thèse, tout d'abord, nous avons étudié le lien entre deux méthodes existantes pour les mélanges instantanés: analyse des composants indépendants (ICA) et analyse des composant parcimonieux (SCA). Nous avons ensuite proposé une nouveau formulation qui fonctionne dans les cas déterminés et sous-déterminés, avec et sans bruit. Les évaluations numériques montrent l'avantage des approches proposées. Deuxièmement, la formulation proposés est généralisés pour les mélanges convolutifs avec des signaux de parole. En intégrant un nouveau modèle d'approximation, les algorithmes proposés fonctionnent mieux que les méthodes existantes, en particulier dans des scénarios bruyant et / ou de forte réverbération. Ensuite, on prend en compte la technique de décomposition morphologique et l'utilisation de parcimonie structurée qui conduit à des algorithmes qui peuvent mieux exploiter les structures des signaux audio. De telles approches sont testées pour des mélanges convolutifs sous-déterminés dans un scénario non-aveugle. Enfin, en bénéficiant du modèle NMF (factorisation en matrice non-négative), nous avons combiné l'hypothèse de faible-rang et de parcimonie et proposé de nouvelles approches pour les mélanges convolutifs sous-déterminés. Les expériences illustrent la bonne performance des algorithmes proposés pour les signaux de musique, en particulier dans des scénarios de forte réverbération.