Compression Personnalisée de la Parole par Apprentissage de Représentations à l'aide d'Auto-Encodeurs Variationnels à Quantification Vectorielle

  • Simon LEJOLY

Student thesis: Master typesMaster en sciences informatiques à finalité spécialisée en data science

Résumé

Ces dernières années, des codecs utilisant l'apprentissage profond ont fait leur apparition dans le domaine de la compression de parole. Ces codecs se sont révélés capables de taux de compression plus importants que les codecs traditionnels, tout en proposant une qualité sonore supérieure. Le deep learning ouvre ainsi de nouvelles possibilités en matière de compression, dont celle d'utiliser l'information vocale d'un locuteur pour mieux compresser sa voix. C'est cette possibilité de compression personnalisée de la parole qui est étudiée dans ce mémoire. Pour l'évaluer, deux modèles profonds ont été conçus : le premier afin d'extraire l'information vocale d'un locuteur, le second afin d'utiliser cette information pour fournir une compression audio améliorée. Les résultats obtenus montrent des gains de performances encourageants, tant en reconstruction du signal qu'en compression. Ces premiers pas laissent penser que des codecs audios à personnalisation pourraient repousser les limites de la compression de parole à l'avenir.
la date de réponse22 juin 2023
langue originaleFrançais
L'institution diplômante
  • Universite de Namur
SuperviseurBenoît Frénay (Promoteur)

mots-clés

  • Speech Coding
  • Compression Audio Personnalisée
  • VQ-VAE
  • Neural/Cognitive Speech Coding

Contient cette citation

'