10 juillet 2021
Offre de thèse : Apprentissage actif, interprétation et contrôle pour la synthèse neuronale de parole expressiveOffre de thèse : Apprentissage actif, interprétation et contrôle pour la synthèse neuronale de parole expressive
Le 10 juillet 2021
Laboratoire d’accueil : Laboratoire Informatique de l’Université du Mans (LIUM), équipe LST
Encadrants : Anthony Larcher (LIUM, Le Mans Université), Marie Tahon (LIUM, Le Mans Université) Yannick Estève (LIA, Avignon Université),
Contact : prénom.nom@univ-lemans.fr et prénom.nom@univ-avignon.fr, respectivement
début de la thèse : Septembre 2021
date limite de Candidature : 10 juillet 2021
Contexte :
La thèse aura lieu au Laboratoire d’Informatique de l’Université du Mans (LIUM) dans l’équipe LST (Language and Speech Technology) et au Laboratoire d’Informatique d’Avignon (LIA). Le candidat sera basé au Mans et des séjours à Avignon seront prévus régulièrement. Le Laboratoire Informatique d’Avignon est partenaire du projet européen SELMA1 qui vise à produire une plate-forme technologique capable de traiter des flux massifs et continus de documents vidéo dans plusieurs langues à des fins de diffusion. Une partie très exploratoire de ce projet européen vise à développer un outil de génération de parole expressive pour la diffusion audio des documents audio dans des langues cibles.
Profil du candidat :
Le candidat devra être motivé pour travailler sur le langage écrit et parlé, et montrer un intérêt pour la synthèse de parole. Il devra avoir Master en Informatique, une expérience en machine learning sera appréciée.
Objectifs :
L’objectif principal du projet est de proposer, développer et valider des méthodes qui permettent 1) de générer de la parole expressive à partir d’une consigne donnée par l’utilisateur soit à l’aide de systèmes text-to-speech, soit de la conversion de voix ; et 2) d’interagir avec le système au cours de l’apprentissage et lors de l’inférence pour corriger les sorties audio du système. Dans un premier temps, nous étudierons la visualisation et l’interprétation des représentations latentes apprises par un modèle neuronal état de l’art (Tacotron + WaveNet) en termes de prosodie, locuteur, expressivité et prononciation. Il faudra définir des éléments de contrôle utilisateur qui pourront prendre la forme d’annotations et seront ensuite intégrés dans le corpus d’apprentissage à l’aide de techniques tels que l’adaptation de paramètres acoustique, les embeddings, les mécanismes d’attention, ou bien l’apprentissage de modèles intermédiaires. Parallèlement, des architectures neuronales compatibles avec l’apprentissage actif (renforcement des modèles ou adaptation au domaine) seront proposés, et il faudra déterminer les stratégies les plus pertinentes pour l’apprentissage actif. Enfin, une part importante des travaux consistera à évaluer la synthèse produite, dans un contexte de livres audio ou bien de contenu journalistique
Candidatures : envoyer CV + lettre de motivation avant le 10 juillet aux contacts