QAMML: probability distributions for functional data

Etienne Cuvelier

Faculte d'informatique

Student thesis: Doc types › Docteur en Sciences

Résumé

Les données fonctionnelles deviennent de nos jours de plus en plus courantes. Ces données peuvent résulter des mesures répétées d’un phénomène au cours du temps, mais aussi lors de la variation d’un paramètre non temporel, comme par exemple une longueur d’onde. Ces données sont l’objet de l’Analyse de Données Fonctionnelles. De telles données peuvent aussi avoir une origine statistique, comme lorsqu’on veut « résumer » le contenu d’une variable en utilisant sa distribution de probabilité, comme c’est le cas en Analyse de Données Symboliques. Si ce type de données est souvent stocké sous forme discrétisée, c’est à dire sous forme multivariée, ces données sont par nature de dimension infinie. L’approche classique qui, consiste à appliquer des techniques multivariées aux versions discrétisées de ces données, donne lieu à un paradoxe : la minimisation de la perte d’informations lors du stockage, par augmentation de la finesse de discrétisation, est confrontée au fléau de la dimension, à savoir la raréfaction des données lors de l’augmentation de la dimensionnalité. La mise au point d’outils directement conçus pour ce type de données spécifiques que sont les données fonctionnelles est donc impérative. Mais l’infinité dimensionnelle de celles-ci rend difficile la mise au point de ce type d’outils, et c’est particulièrement vrai lors de la construction d’un incontournable en analyse de données : la notion de distribution de probabilité d’une variable aléatoire fonctionnelle. Dans cette thèse, nous nous attachons, tout en restant dans le cadre de l’analyse de données, à définir et construire une classe de distributions de probabilités directement définies dans l’espace de dimension infinie dans lequel sont plongées les données fonctionnelles. Cette classe de distributions, dénommées QAMML, est développée en associant un générateur de copule Archimédienne à une moyenne quasi-arithmétique. Cette nouvelle famille de distributions de probabilités pour données fonctionnelles, nécessite aussi de définir un nouveau type de densité de probabilité, ce que nous faisons en utilisant la dérivée directionnelle de Gâteaux. Notre approche n’est pas uniquement théorique, car nous illustrons l’utilité de ces distributions en analyse de données en « injectant », telles quelles, les distributions QAMML dans deux algorithmes initialement conçus dans le cadre de l’analyse multivariée: la classification non supervisée par décomposition de mélange et la classification supervisée bayésienne. Nous illustrons aussi l’usage de ces distributions en statistique en construisant des intervalles de confiance fonctionnels. Ces trois « illustrations » sont réalisées sur des données réelles.

la date de réponse	25 sept. 2009
langue originale	Anglais
L'institution diplômante	Universite de Namur
Superviseur	Monique Fraiture (Promoteur), Jean-Marie Jacquet (Président), Jean-Paul LECLERCQ (Jury), Marcel Remon (Jury), Edwin Diday (Jury) & I VAN KEYLEGOM (Jury)

mots-clés

Classification
Stochatsic Process
Functional Data Analysis
Symbolic Data Analysis
Probability
Statistics
Copulas
Quasi-arithmetic means

Contient cette citation

Les documents

PDF_01_These
Fichier: application/pdf, 11,7 MB
Type: Thèse