Français Anglais
Accueil Annuaire Plan du site
Accueil > Evenements > Séminaires
Séminaire d'équipe(s) IASI
Archivage du Web : modélisation, analyse et optimisation
Myriam Ben Saad

05 April 2013, 14h00 - 05 April 2013, 15h30
Salle/Bat : 465/PCRI-N
Contact : Brigitte Safar (Seminaire Equipe IASI)

Activités de recherche :

Résumé :
Aujourd'hui, le Web est devenu le moyen le plus important pour véhiculer des informations qui peuvent avoir une grande valeur culturelle, scientifique, économique, etc. Archiver son contenu ou du moins une partie est devenu crucial afin de préserver certaines informations utiles pour les générations futures de chercheurs, écrivains, historiens, etc. Cependant, les archivistes doivent faire face à un grand défi qui consiste à préserver la qualité des données collectées pour garantir la plus grande fidélité du Web. C'est dans cette perspective d'améliorer la qualité des archives que mes travaux de recherche s'inscrivent. Nous proposons une nouvelle approche d'archivage qui exploite le rendu visuel des pages pour y détecter les changements de la même manière que les utilisateurs les perçoivent. L'importance des changements des pages est évaluée puis modélisée temporellement sous forme de patterns PPaC (Pattern of Pages Changes). Contrairement aux modèles déjà existants basés sur un taux moyen de changements, PPaC permet de mieux prédire les moments les plus opportuns durant lesquels des modifications importantes sont censées survenir dans les pages. Différentes stratégies de capture (crawling) basées sur le modèle PPaC sont proposées qui ont permis d’améliorer considérablement la complétude et/ou la cohérence temporelle au niveau de l’archive. Je présenterai ensuite mes projets de recherche en cours autour des évènements Web. On voit aujourd’hui, une nouvelle tendance d’archivage du Web plus sélective et sémantiquement plus riche autour d’évènements importants survenus dans le Web (e.g. prise d’otages, tremblement de terre, élection, concert). Notre objectif principal est de détecter automatiquement des évènements récents dans le Web sans l’intervention manuelle des archivistes afin de garantir un archivage intelligent du Web. Il s’agit surtout d’aider les systèmes d’archivage à repérer rapidement les évènements les plus importants dans le Web puis d’ajuster les stratégies d’archivage pour préserver les documents Web associés à ces évènements avant leur modification ou leur disparition du Web. Les évènements sont extraits automatiquement à partir des documents Web, modélisés et enrichis à l’aide d’ontologies, analysés puis sont préservés dans les archives. Cette nouvelle approche d’archivage évolutive basée sur un système interactif de détection et d’analyse automatique d’évènements permettrait de mieux appréhender le Web et ses évolutions.

Pour en savoir plus :
Séminaires
Some recent results on the integer linear programm
Théorie des graphes
Friday 30 November 2018 - 00h00
Salle : 445 - PCRI-N
Hung Nguyen .............................................

De la sociologie *avec* des algorithmes à la socio
Friday 09 November 2018 - 14h30
Salle : 445 - PCRI-N
Christpohe Prieur .............................................

Initiation à la programmation GPU
Compilation et optimisation des programmes
Monday 05 November 2018 - 09h30
Salle : 455 - PCRI-N
Joël Falcou / Patrick Amar .............................................

Maximum Independent Set in H-free graphs
Théorie des graphes
Friday 05 October 2018 - 14h30
Salle : 445 - PCRI-N
Edouard BONNET .............................................

A Family of Tractable Graph Distances
Gestion de données du Web
Wednesday 04 July 2018 - 10h30
Salle : 465 - PCRI-N
Stratis Ioannidis .............................................