Français Anglais
Accueil Annuaire Plan du site
Accueil > Evenements > Séminaires
Séminaire d'équipe(s) Artificial Intelligence and Inference Systems
Archivage du Web : modélisation, analyse et optimisation
Myriam Ben Saad

05 April 2013, 14:00 - 05 April 2013, 15:30
Salle/Bat : 465/PCRI-N
Contact : Brigitte Safar (Seminaire Equipe IASI)

Activités de recherche :

Résumé :
Aujourd'hui, le Web est devenu le moyen le plus important pour véhiculer des informations qui peuvent avoir une grande valeur culturelle, scientifique, économique, etc. Archiver son contenu ou du moins une partie est devenu crucial afin de préserver certaines informations utiles pour les générations futures de chercheurs, écrivains, historiens, etc. Cependant, les archivistes doivent faire face à un grand défi qui consiste à préserver la qualité des données collectées pour garantir la plus grande fidélité du Web. C'est dans cette perspective d'améliorer la qualité des archives que mes travaux de recherche s'inscrivent. Nous proposons une nouvelle approche d'archivage qui exploite le rendu visuel des pages pour y détecter les changements de la même manière que les utilisateurs les perçoivent. L'importance des changements des pages est évaluée puis modélisée temporellement sous forme de patterns PPaC (Pattern of Pages Changes). Contrairement aux modèles déjà existants basés sur un taux moyen de changements, PPaC permet de mieux prédire les moments les plus opportuns durant lesquels des modifications importantes sont censées survenir dans les pages. Différentes stratégies de capture (crawling) basées sur le modèle PPaC sont proposées qui ont permis d’améliorer considérablement la complétude et/ou la cohérence temporelle au niveau de l’archive. Je présenterai ensuite mes projets de recherche en cours autour des évènements Web. On voit aujourd’hui, une nouvelle tendance d’archivage du Web plus sélective et sémantiquement plus riche autour d’évènements importants survenus dans le Web (e.g. prise d’otages, tremblement de terre, élection, concert). Notre objectif principal est de détecter automatiquement des évènements récents dans le Web sans l’intervention manuelle des archivistes afin de garantir un archivage intelligent du Web. Il s’agit surtout d’aider les systèmes d’archivage à repérer rapidement les évènements les plus importants dans le Web puis d’ajuster les stratégies d’archivage pour préserver les documents Web associés à ces évènements avant leur modification ou leur disparition du Web. Les évènements sont extraits automatiquement à partir des documents Web, modélisés et enrichis à l’aide d’ontologies, analysés puis sont préservés dans les archives. Cette nouvelle approche d’archivage évolutive basée sur un système interactif de détection et d’analyse automatique d’évènements permettrait de mieux appréhender le Web et ses évolutions.

Pour en savoir plus :
Séminaires
Quantum at LRI
Quantum computing
Tuesday 04 February 2020 - 09:00
Salle : 465 - PCRI-N
.............................................

Progressive Data Analysis: a new computation parad
Web data management
Friday 24 January 2020 - 14:00
Salle : 435 - PCRI-N
Jean-Daniel Fekete .............................................

Jeux d’instructions : des extensions SIMD aux exte
Parallel architectures
Tuesday 21 January 2020 - 10:30
Salle : 465 - PCRI-N
Daniel Etiemble .............................................

Forum dev-LRI
Tuesday 14 January 2020 - 14:00
Salle : 445 - PCRI-N
Erik Bray .............................................

La transformation du travail, un analyseur des tra
Wednesday 18 December 2019 - 10:00
Salle : 475 - PCRI-N
Raquel Becerril-Ortega .............................................