Extraction de données de sites web : méthodologie, outils et étude de cas

  • Jean-Roch Meurisse

Student thesis: Master typesMaster en sciences informatiques

Résumé

Dans ce document, nous présentons une méthodologie visant à extraire de sites internet les données et leur structure sémantique. Les pages composant le site sont classées en fonction de leur contenu informationnel en types de pages. Chaque type de pages est décrit dans un document XML répondant à un formalisme appelé Meta. Ce document répertorie, nomme et hiérarchise les concepts identifiés dans le type de pages et situe les données dans l'arborescence HTML. Ce même document est utilisé pour extraire, d'une part, la structure des données sous la forme d'un XML Schema et, d'autre part, les données dans un fichier XML conforme à cette structure. Les différents XML Schemas sont ensuite intégrés dans un schéma conceptuel unique représentant la totalité du domaine d'application. Ce schéma conceptuel sert de point de départ pour la conception d'une base de données qui accueillera les données extraites des pages HTML. La méthodologie est illustrée dans une étude de cas réalisée avec l'aide d'outils existants ou développés spécifiquement pour la démarche.
la date de réponse2004
langue originaleFrançais
SuperviseurJean-Luc Hainaut (Promoteur)

mots-clés

  • data extraction
  • schema extraction
  • XML
  • reverse engineering

Contient cette citation

'