Français Anglais
Accueil Annuaire Plan du site
Accueil > Evenements > Séminaires
Séminaire d'équipe(s) IASI
Archivage du Web : modélisation, analyse et optimisation
Myriam Ben Saad

05 April 2013, 14h00 - 05 April 2013, 15h30
Salle/Bat : 465/PCRI-N
Contact : Brigitte Safar (Seminaire Equipe IASI)

Activités de recherche :

Résumé :
Aujourd'hui, le Web est devenu le moyen le plus important pour véhiculer des informations qui peuvent avoir une grande valeur culturelle, scientifique, économique, etc. Archiver son contenu ou du moins une partie est devenu crucial afin de préserver certaines informations utiles pour les générations futures de chercheurs, écrivains, historiens, etc. Cependant, les archivistes doivent faire face à un grand défi qui consiste à préserver la qualité des données collectées pour garantir la plus grande fidélité du Web. C'est dans cette perspective d'améliorer la qualité des archives que mes travaux de recherche s'inscrivent. Nous proposons une nouvelle approche d'archivage qui exploite le rendu visuel des pages pour y détecter les changements de la même manière que les utilisateurs les perçoivent. L'importance des changements des pages est évaluée puis modélisée temporellement sous forme de patterns PPaC (Pattern of Pages Changes). Contrairement aux modèles déjà existants basés sur un taux moyen de changements, PPaC permet de mieux prédire les moments les plus opportuns durant lesquels des modifications importantes sont censées survenir dans les pages. Différentes stratégies de capture (crawling) basées sur le modèle PPaC sont proposées qui ont permis d’améliorer considérablement la complétude et/ou la cohérence temporelle au niveau de l’archive. Je présenterai ensuite mes projets de recherche en cours autour des évènements Web. On voit aujourd’hui, une nouvelle tendance d’archivage du Web plus sélective et sémantiquement plus riche autour d’évènements importants survenus dans le Web (e.g. prise d’otages, tremblement de terre, élection, concert). Notre objectif principal est de détecter automatiquement des évènements récents dans le Web sans l’intervention manuelle des archivistes afin de garantir un archivage intelligent du Web. Il s’agit surtout d’aider les systèmes d’archivage à repérer rapidement les évènements les plus importants dans le Web puis d’ajuster les stratégies d’archivage pour préserver les documents Web associés à ces évènements avant leur modification ou leur disparition du Web. Les évènements sont extraits automatiquement à partir des documents Web, modélisés et enrichis à l’aide d’ontologies, analysés puis sont préservés dans les archives. Cette nouvelle approche d’archivage évolutive basée sur un système interactif de détection et d’analyse automatique d’évènements permettrait de mieux appréhender le Web et ses évolutions.

Pour en savoir plus :
Séminaires
Resilient PDE solving approaches for exascale comp
Calcul à haute performance
Tuesday 29 May 2018 - 10h30
Salle : 465 - PCRI-N
Paul Mycek .............................................

Binary pattern of length greater than 14 are abeli
Combinatoire
Friday 25 May 2018 - 14h30
Salle : 445 - PCRI-N
Matthieu Rosenfeld .............................................

Collaborative delivery by robots that can share en
Algorithmique distribuée
Wednesday 02 May 2018 - 10h30
Salle : 465 - PCRI-N
Evangelos Bampas .............................................

Mariage stable auto-stabilisant et distribué
Théorie des graphes
Friday 13 April 2018 - 14h30
Salle : 445 - PCRI-N
Marie Laveau .............................................

Modélisation et implémentation du produit de matri
Calcul à haute performance
Wednesday 11 April 2018 - 10h30
Salle : 465 - PCRI-N
Thomas Lambert .............................................