Français Anglais
Accueil Annuaire Plan du site
Accueil > Evenements > Séminaires
Séminaire d'équipe(s) IASI
Archivage du Web : modélisation, analyse et optimisation
Myriam Ben Saad

05 April 2013, 14h00 - 05 April 2013, 15h30
Salle/Bat : 465/PCRI-N
Contact : Brigitte Safar (Seminaire Equipe IASI)

Activités de recherche :

Résumé :
Aujourd'hui, le Web est devenu le moyen le plus important pour véhiculer des informations qui peuvent avoir une grande valeur culturelle, scientifique, économique, etc. Archiver son contenu ou du moins une partie est devenu crucial afin de préserver certaines informations utiles pour les générations futures de chercheurs, écrivains, historiens, etc. Cependant, les archivistes doivent faire face à un grand défi qui consiste à préserver la qualité des données collectées pour garantir la plus grande fidélité du Web. C'est dans cette perspective d'améliorer la qualité des archives que mes travaux de recherche s'inscrivent. Nous proposons une nouvelle approche d'archivage qui exploite le rendu visuel des pages pour y détecter les changements de la même manière que les utilisateurs les perçoivent. L'importance des changements des pages est évaluée puis modélisée temporellement sous forme de patterns PPaC (Pattern of Pages Changes). Contrairement aux modèles déjà existants basés sur un taux moyen de changements, PPaC permet de mieux prédire les moments les plus opportuns durant lesquels des modifications importantes sont censées survenir dans les pages. Différentes stratégies de capture (crawling) basées sur le modèle PPaC sont proposées qui ont permis d’améliorer considérablement la complétude et/ou la cohérence temporelle au niveau de l’archive. Je présenterai ensuite mes projets de recherche en cours autour des évènements Web. On voit aujourd’hui, une nouvelle tendance d’archivage du Web plus sélective et sémantiquement plus riche autour d’évènements importants survenus dans le Web (e.g. prise d’otages, tremblement de terre, élection, concert). Notre objectif principal est de détecter automatiquement des évènements récents dans le Web sans l’intervention manuelle des archivistes afin de garantir un archivage intelligent du Web. Il s’agit surtout d’aider les systèmes d’archivage à repérer rapidement les évènements les plus importants dans le Web puis d’ajuster les stratégies d’archivage pour préserver les documents Web associés à ces évènements avant leur modification ou leur disparition du Web. Les évènements sont extraits automatiquement à partir des documents Web, modélisés et enrichis à l’aide d’ontologies, analysés puis sont préservés dans les archives. Cette nouvelle approche d’archivage évolutive basée sur un système interactif de détection et d’analyse automatique d’évènements permettrait de mieux appréhender le Web et ses évolutions.

Pour en savoir plus :
Séminaires
A Two-level Auction for Resource Allocation in Mul
Réseaux sans fil et mobiles
Friday 09 March 2018 - 14h30
Salle : 445 - PCRI-N
Mira Morcos .............................................

Binary pattern of length greater than 14 are abeli
Combinatoire
Friday 09 February 2018 - 14h30
Salle : 445 - PCRI-N
Matthieu Rosenfeld .............................................

Approximate Bayesian Computation and Random Forest
Thursday 08 February 2018 - 00h00
Salle : 455 - PCRI-N
Valentin Thouzeau .............................................

A concurrent lock-free algorithm for computing a f
Combinatoire
Friday 12 January 2018 - 14h30
Salle : 445 - PCRI-N
James Mitchell .............................................

Acyclic Partitioning of Large Directed Acyclic Gra
Calcul à haute performance
Tuesday 09 January 2018 - 10h30
Salle : 465 - PCRI-N
Julien Herrmann .............................................