Info

Le TP Noté est à faire seul
Toute communication est interdite
Nous utilisons des outils pour vérifier s’il y a des ressemblances entre les fichiers donc il est fortement conseillé de ne pas tricher sous peine qu'un PV de fraude soit établi. La section disciplinaire de l'Université décidera ensuite du caractère avéré ou non de la fraude
Bien que fait en binôme tous les rendus sont à rendre individuellement en précisant la composition du groupe

Quoi rendre ?

Tous le code que vous avez fait lors des TPs
Les images de base et les images re dessinées
Tous les graphiques générés
Code du TP Noté
La courbe qui vous a permis de prendre votre décision sur le nombre de cluster à utiliser
Un fichier au même format que le fichier data.csv, qui donne les K centres des clusters générés
Un fichier README.md pour expliquer pourquoi vous avez choisi ce nombre de cluster
Si vous avez des choses à expliquer en plus vous pouvez le mettre dans ce README.md

Comment rendre ?

Vous devez nous rendre tous les fichiers compressés dans un .zip a votre nom ("nom.zip") par exemple "lanco.zip"
Vous devez nous envoyer votre archive par mail
Grp3 : To:lanco@lri.fr
______ Cc:loic.le_mogne@ens-paris-saclay.fr
__ Sujet : [Grp3] TP NOTE
Envoyer Email Grp3
Grp4 : To:loic.le_mogne@ens-paris-saclay.fr
______ Cc:lanco@lri.fr
__ Sujet : [Grp4] TP NOTE
Envoyer Email Grp4

Quand rendre ?

Tous doit être rendus à la fin du TP noté (12/01/2023 - 10h)
Tout retard entrainera une pénalité

TP Noté

L'objectif de ce TP noté est de clusteriser les données du fichier data.csv à l'aide du code des k-moyennes que vous avez fait lors des précédents TP et de faire une analyse des données

Télécharger le fichier data.csv
Créer un fichier k-means.py
Dans votre fichier Python, ouvrir le fichier data.csv et le transformer en une liste à l'aide de la fonction split (ne pas oublier de caster les données qui sont des string en flottant)
Adapter votre code des k-moyennes pour traiter ce nouveau jeu de données
Ecrire une fonction distance_moy qui calcule la moyenne des distances entre chaque point et son cluster
Une fois que l'algo à convergé, calculer la distance moyenne à l'aide de la fonction précédemment écrite
Faites une boucle qui calcule les distances moyennes pour K allant de 1 à 30 et stoket le dans un tableau
Afficher le graphe qui représente la courbe des distances moyennes en fonction du nombre de cluster à l'aide de la fonction plot de la lib matplotlib
Comme vu dans le Cours 1 déterminer quel est le nombre de cluster idéal pour ce jeu de données
Calculer les centres pour le nombre de cluster choisi
N'oubliez pas de lire la section Quoi rendre ? pour savoir quelles informations vous devez sauvegarder