Cours d'Apprentissage Artificiel
ENSTA INT-22
A. Cornuéjols (2011)
________________________________________________________________
TP sur la catégorisation (clustering) avec Weka
Dans ce TP, nous utiliserons la boîte à outils Weka pour réaliser des expériences sur la catégorisation. Nous étudierons spécifiquement l'algorithme des k-moyennes (k-means).
1- Nous commencerons par travailler sur la base de données iris.arff . Celle-ci est décrite à l'aide de 4 attributs numériques et d'une classe. Nous ignorerons la classe.
Rappel : sous Weka, il faut utiliser l'onglet "preprocess" de la fenêtre de contrôle pour charger la base de données.
Répétez les expériences en modifiant le nombre de clusters attendus k, la distance utilisée (euclidienne ou de Manhattan), la valeur du noyau (seed) et le nombre maximal d'itérations (prendre par exemple 1, 2, 3, .. pour voir l'évolution des clusters).
2- Dans un deuxième temps, vous pourrez étudier d'autres bases de données. Par exemple : videogame-99.arff qui décrit 99 jeux vidéo à l'aide de 150 attributs. Ici, nous ne savons pas à l'avance quelles sont les "bonnes" classes. Faites des expériences en variant les paramètres comme dans le (1) ci-desssus. Quelle est à votre avis la meilleure partition ?