Résumé
Ce mémoire consiste à enregistrer différents sons émis par une personne polyhandicapée, pour pouvoir ensuite détecter ces sons lors d'un enregistrement en streaming. L'objectif est d'établir une preuve de concept. Les différentes étapes nécessaires, de l'enregistrement des sons à la recherche en streaming sont détaillées de manière chronologique et rigoureuse.Le processus d'enregistrement est décrit, en mettant en évidence les problèmes rencontrés, et les solutions avancées.
La caractérisation d'un son (feature extraction) est étudiée. Le principal algorithme utilisé dans ce cadre, MFCC (Mel Frequency Cepstral Coefficient) est analysé en détails. Une méthode d'optimisation des paramètres est proposée.
Plusieurs méthodes permettant de comparer deux sons sont analysées. La plupart de ces méthodes permettent la comparaison de sons de différentes longueurs, ce qui est nécessaire pour les sons émis par des personnes polyhandicapées. Après analyse des résultats, la méthode DTW (Dynamic Time Warping) est choisie et analysée en profondeur.
Quatre méthodes de recherche d'un son dans un enregistrement sont ensuite proposées. Ces méthodes sont analysées d'un point de vue résultat (accuracy), et d'un point de vue performances (temps de calcul).
La dernière étape consiste à rechercher des sons en streaming. Une implémentation est proposée, basée sur MFCC et DTW. Les résultats obtenus permettent de reconnaître la plupart des sons recherchés, tout en ne détectant quasiment aucun son non désiré, ce qui permet de valider la preuve de concept.
Quelques pistes seront finalement données pour améliorer la qualité des résultats, ainsi que le temps de calcul.
la date de réponse | 30 août 2019 |
---|---|
langue originale | Français |
L'institution diplômante |
|
Superviseur | Benoît Frénay (Promoteur) |
mots-clés
- Reconnaissance
- sons
- streaming
- MFCC