Extraction de données de sites web : méthodologie, outils et étude de cas

Jean-Roch Meurisse

Research Center on Information Systems Engineering

Student thesis: Master types › Master en sciences informatiques

Résumé

Dans ce document, nous présentons une méthodologie visant à extraire de sites internet les données et leur structure sémantique. Les pages composant le site sont classées en fonction de leur contenu informationnel en types de pages. Chaque type de pages est décrit dans un document XML répondant à un formalisme appelé Meta. Ce document répertorie, nomme et hiérarchise les concepts identifiés dans le type de pages et situe les données dans l'arborescence HTML. Ce même document est utilisé pour extraire, d'une part, la structure des données sous la forme d'un XML Schema et, d'autre part, les données dans un fichier XML conforme à cette structure. Les différents XML Schemas sont ensuite intégrés dans un schéma conceptuel unique représentant la totalité du domaine d'application. Ce schéma conceptuel sert de point de départ pour la conception d'une base de données qui accueillera les données extraites des pages HTML. La méthodologie est illustrée dans une étude de cas réalisée avec l'aide d'outils existants ou développés spécifiquement pour la démarche.

la date de réponse	2004
langue originale	Français
Superviseur	Jean-Luc Hainaut (Promoteur)

Extraction de données de sites web : méthodologie, outils et étude de cas

Résumé

mots-clés

Contient cette citation

Les documents