Compression Personnalisée de la Parole par Apprentissage de Représentations à l'aide d'Auto-Encodeurs Variationnels à Quantification Vectorielle

Simon LEJOLY

Universite de Namur

Student thesis: Master types › Master en sciences informatiques à finalité spécialisée en data science

Résumé

Ces dernières années, des codecs utilisant l'apprentissage profond ont fait leur apparition dans le domaine de la compression de parole. Ces codecs se sont révélés capables de taux de compression plus importants que les codecs traditionnels, tout en proposant une qualité sonore supérieure. Le deep learning ouvre ainsi de nouvelles possibilités en matière de compression, dont celle d'utiliser l'information vocale d'un locuteur pour mieux compresser sa voix. C'est cette possibilité de compression personnalisée de la parole qui est étudiée dans ce mémoire. Pour l'évaluer, deux modèles profonds ont été conçus : le premier afin d'extraire l'information vocale d'un locuteur, le second afin d'utiliser cette information pour fournir une compression audio améliorée. Les résultats obtenus montrent des gains de performances encourageants, tant en reconstruction du signal qu'en compression. Ces premiers pas laissent penser que des codecs audios à personnalisation pourraient repousser les limites de la compression de parole à l'avenir.

la date de réponse	22 juin 2023
langue originale	Français
L'institution diplômante	Universite de Namur
Superviseur	Benoît Frénay (Promoteur)

mots-clés

Speech Coding
Compression Audio Personnalisée
VQ-VAE
Neural/Cognitive Speech Coding

Contient cette citation

Les documents

Simon LEJOLY_1203890_assignsubmission_file_Mémoire-SLejoly
Fichier: application/pdf, 3,93 MB
Type: Thèse