La régression linéaire pour des données intervalles

  • Alice Vassart

    Student thesis: Master typesMaster en sciences mathématiques

    Résumé

    L’avènement des ordinateurs permet aujourd’hui des bases de données extrêmement grandes. Nous pouvons alors nous intéresser à l’analyse de classes d’individus appelées concepts plutôt qu’à celle des individus du premier ordre. De plus, les observations d’un grand ensemble de données peuvent être étudiées plus facilement après avoir été agrégées dans un ensemble de taille plus petite. Les observations résultantes ne seront plus univaluées, mais intervalles, multivaluées, histogrammes ou diagrammes. Ces données sont appelées données symboliques. Dans ce mémoire, nous étendons la régression linéaire classique aux données symboliques et plus particulièrement intervalles.
    Dans la première partie, les différents types de données symboliques sont introduits. Nous étudions alors les statistiques descriptives pour de telles données. Celles-ci seront utilisées pour établir un modèle de régression linéaire symbolique. Dans la deuxième partie, nous rappelons la régression linéaire classique.
    La troisième partie concerne la régression linéaire pour des données intervalles. Nous développons plusieurs méthodes : méthode du centre, méthodes de la borne inférieure et de la borne supérieure, méthode du centre et de l’étendue et d’autres méthodes uniquement pour la régression linéaire simple. Nous illustrons et comparons ces différentes méthodes en les appliquant à des ensembles de données artificielles et réelles. Nous remarquons que, parmi ces méthodes, la méthode du centre et de l’étendue et la méthode du centre semblent être les plus performantes.
    Dans la quatrième partie, nous étendons la méthode du centre aux variables histogrammes et nous proposons aussi une méthode de régression linéaire dans le cas de variables explicatives diagrammes.
    Dans la cinquième et dernière partie, deux applications sont étudiées à l’aide du module de régression linéaire symbolique SREG du logiciel SODAS 2. Nous comparons la régression linéaire classique et la régression linéaire au niveau de concepts définis à partir de la variable dépendante. Nous remarquons que la régression linéaire symbolique donne des résultats intéressants par rapport à l’analyse classique des individus du premier ordre. En particulier, les tests de Fisher et de Student sont moins efficaces en présence d’un grand nombre d’individus dans la régression. Cependant, il est important de noter que ces tests et de R carré n’ont pas été rigoureusement étendus aux données symboliques.
    la date de réponse2006
    langue originaleFrançais
    SuperviseurAndre Hardy (Promoteur), Marcel Remon (Jury) & Jean Paul Rasson (Jury)

    Contient cette citation

    '