Français Anglais
Accueil Annuaire Plan du site
Accueil > Evenements > Séminaires
Séminaire d'équipe(s) IASI
Archivage du Web : modélisation, analyse et optimisation
Myriam Ben Saad

05 April 2013, 14h00 - 05 April 2013, 15h30
Salle/Bat : 465/PCRI-N
Contact : Brigitte Safar (Seminaire Equipe IASI)

Activités de recherche :

Résumé :
Aujourd'hui, le Web est devenu le moyen le plus important pour véhiculer des informations qui peuvent avoir une grande valeur culturelle, scientifique, économique, etc. Archiver son contenu ou du moins une partie est devenu crucial afin de préserver certaines informations utiles pour les générations futures de chercheurs, écrivains, historiens, etc. Cependant, les archivistes doivent faire face à un grand défi qui consiste à préserver la qualité des données collectées pour garantir la plus grande fidélité du Web. C'est dans cette perspective d'améliorer la qualité des archives que mes travaux de recherche s'inscrivent. Nous proposons une nouvelle approche d'archivage qui exploite le rendu visuel des pages pour y détecter les changements de la même manière que les utilisateurs les perçoivent. L'importance des changements des pages est évaluée puis modélisée temporellement sous forme de patterns PPaC (Pattern of Pages Changes). Contrairement aux modèles déjà existants basés sur un taux moyen de changements, PPaC permet de mieux prédire les moments les plus opportuns durant lesquels des modifications importantes sont censées survenir dans les pages. Différentes stratégies de capture (crawling) basées sur le modèle PPaC sont proposées qui ont permis d’améliorer considérablement la complétude et/ou la cohérence temporelle au niveau de l’archive. Je présenterai ensuite mes projets de recherche en cours autour des évènements Web. On voit aujourd’hui, une nouvelle tendance d’archivage du Web plus sélective et sémantiquement plus riche autour d’évènements importants survenus dans le Web (e.g. prise d’otages, tremblement de terre, élection, concert). Notre objectif principal est de détecter automatiquement des évènements récents dans le Web sans l’intervention manuelle des archivistes afin de garantir un archivage intelligent du Web. Il s’agit surtout d’aider les systèmes d’archivage à repérer rapidement les évènements les plus importants dans le Web puis d’ajuster les stratégies d’archivage pour préserver les documents Web associés à ces évènements avant leur modification ou leur disparition du Web. Les évènements sont extraits automatiquement à partir des documents Web, modélisés et enrichis à l’aide d’ontologies, analysés puis sont préservés dans les archives. Cette nouvelle approche d’archivage évolutive basée sur un système interactif de détection et d’analyse automatique d’évènements permettrait de mieux appréhender le Web et ses évolutions.

Pour en savoir plus :
Séminaires
A Family of Tractable Graph Distances
Gestion de données du Web
Wednesday 04 July 2018 - 10h30
Salle : 465 - PCRI-N
Stratis Ioannidis .............................................

Binary pattern of length greater than 14 are abeli
Combinatoire
Friday 29 June 2018 - 14h30
Salle : 445 - PCRI-N
Matthieu Rosenfeld .............................................

Distributionally Robust Optimization with Principa
Optimisation combinatoire et stochastique
Friday 29 June 2018 - 11h00
Salle : 455 - PCRI-N
Dr. Jianqiang Cheng .............................................

Caractérisation de réseaux égocentrés par l'énumér
Friday 15 June 2018 - 14h30
Salle : 455 - PCRI-N
Raphaël Charbey .............................................

DATA VERACITY ASSESSMENT: HOW A-PRIORI KNOWLEDGE E
Intégration de données et de connaissances
Friday 15 June 2018 - 14h00
Salle : 445 - PCRI-N
Valentina Beretta .............................................