Programme depouille_et_compare


Le programme depouille_et_compare s'applique à des fichiers représentant une expérience; chaque expérience est constituée de « runs ». Les fichiers expérience sont composés d'une liste de fichiers (les « runs ») tandis les fichiers « runs » sont constitués de plusieurs colonnes de chiffres (dont une pour le temps et une pour les données à utiliser).

Le programme depouille_et_compare sert d'une part à créer une série d'échantillons et à avoir quelques statistiques simples sur ces échantillons (moyenne, écart-type, minimum, maximum, médiane, intervalle de confiance pour le test de Student) et d'autre part à comparer deux séries d'échantillons à l'aide de différents tests statistiques.

Ces échantillons sont obtenus en fixant tout d'abord un intervalle de temps régulier. Puis en récupérant dans chaque « run » les données correspondant aux différents temps.

On compare ensuite la répartition de deux séries par des tests non paramétriques (test de Wilcoxon, test de Wilcoxon-signé ou test de Kolmogorov).

Chaque test a deux hypothèses :
H0 : les deux échantillons se répartissent de la même manière;
contre
H1 : les deux échantillons n'ont pas la même répartition.

Chaque test renvoie la valeur 0 ou 1. Si la valeur 0 est renvoyée, on accepte l'hypothèse H0, c'est-à-dire que les échantillons sont répartis de la même manière. Sinon, on refuse H0, c'est-à-dire que les échantillons n'ont pas la même répartition.

Dans ce manuel, ce qui doit être tapé dans le terminal est en rouge et les noms de fichier et répertoire en vert.


Installation du programme :

Le programme se présente sous la forme d'un fichier compressé : depouille_et_compare.tgz.
Commencer par le décompresser en tapant :
bash$ tar xfvz depouille_et_compare.tgz

Une fois le fichier décompressé, aller dans le répertoire depouille_et_compare et taper :
bash$ make

Cela compilera le programme et créera les objets nécessaires à son fonctionnement.


Lancement du programme :

Pour lancer le programme, il est nécessaire d'avoir les fichiers « expérience » et « runs », décris précedemment, dans un même répertoire. Se rendre dans ce répertoire.

Pour effectuer la première étape, c'est-à-dire créer les séries d'échantillons et les statistiques simples, il faut taper:

bash$ accès_depouille_et_compare/bin/depouille fichier intervalle_de_temps colonne_temps colonne_données

fichier est le fichier à traiter, intervalle_de_temps est l'intervalle de temps, colonne_temps le numéro de colonne correspondant aux temps, colonne_données le numéro de colonne correspondant aux données à traiter. Par défaut les trois derniers paramètres sont 50 1 et 2.

Exemple:
bash$ /home/durand/depouille_et_compare/bin/depouille gnu_file.xg 50 2 4

Cette étape est à réaliser pour chaque fichier expérience que l'on désirera comparer par la suite.

Un répertoire Resultats_depouille est alors créé dans le répertoire courant. Les résultats de dépouille y sont stockés, c'est-à-dire :
- nomdufichier.echantillons : donne les échantillons pour chaque temps;
- nomdufichier.moy : donne la moyenne des échantillons pour chaque temps;
- nomdufichier.sig : donne le nombre de mesures, le nombre de générations et l'écart-type des échantillons pour chaque temps;
- nomdufichier.med : donne la médiane des échantillons pour chaque temps;
- nomdufichier.max : donne la valeur maximale des échantillons pour chaque temps;
- nomdufichier.min : donne la valeur minimale des échantillons pour chaque temps;
- nomdufichier.conf : donne un encadrement de la moyenne par l'écart type à chaque temps
- nomdufichier.grapique : fichier à lancer avec gnuplot pour visualiser la moyenne, le minimum, le maximum et la médiane des échantillons pour chaque temps.

Pour effectuer la seconde étape, c'est-à-dire la comparaison de deux expériences, il faut impérativement que la première étape ait été réalisée sur les deux expériences avec le même intervalle de temps. Si c'est le cas, taper :

bash$ accès_depouille_et_compare/bin/compare fichier1 fichier2 test

fichier1 et fichier2 sont les deux fichiers à comparer et test le caractère correspondant au test désiré : w pour le test de Wilcoxon, s pour le test de Wilcoxon signé ou k pour le test de Kolmogorov. Par défaut les trois tests sont effectués. En plus de ces trois tests, le test de Student est réalisé sur les moyennes des deux échantillons.

Exemple:
bash$ /home/durand/depouille_et_compare/bin/compare gnu_file.xg gnu_file2.xg s

Un répertoire Resultats_compare est alors créé dans le répertoire courant. Les résultats de compare y sont stockés, c'est-à-dire :
- nomdufichier1_nomdufichier2.student : donne la courbe de Student et les trois intervalles de confiance pour les seuils de 1%, 5% et 10% (l'intervalle le plus large correspond au seuil de 1% et le moins large au seuil de 10%);
- nomdufichier1_nomdufichier2_test.r01 : donne le résultat de la comparaison à chaque temps au seuil de 1%, c'est-à-dire 1 si on refuse et 0 si on accepte;
- nomdufichier1_nomdufichier2_test.r05 : donne le résultat de la comparaison à chaque temps au seuil de 5%, c'est-à-dire 1 si on refuse et 0 si on accepte;
- nomdufichier1_nomdufichier2_test.r10 : donne le résultat de la comparaison à chaque temps au seuil de 10%, c'est-à-dire 1 si on refuse et 0 si on accepte;
- nomdufichier1_nomdufichier2_test.r01.resultats : donne le bilan des régions où on accepte ou on refuse au seuil de 1%;
- nomdufichier1_nomdufichier2_test.r05.resultats : donne le bilan des régions où on accepte ou on refuse au seuil de 5%;
- nomdufichier1_nomdufichier2_test.r10.resultats : donne le bilan des régions où on accepte ou on refuse au seuil de 10%;
- nomdufichier1_nomdufichier2_test.graphique : fichier à lancer avec gnuplot pour visualiser les résultats du test aux seuils: 10%, 5% et 1%.


Interprétation des résultats :

Dans les deux parties, un fichier "*.graphique" est créé et permet de voir les résultats sous forme de graphe à l'aide du logiciel gnuplot. Pour cela, il suffit de se placer dans l'un des deux répertoires "Resultats_depouille" ou "Resultats_compare" et de lancer :

bash$ gnuplot nomdufichier.graphique
ou
bash$ gnuplot nomdufichier1_nomdufichier2_test.graphique

Dans le premier cas, les courbes des moyenne, minimum, maximum et médiane des échantillons s'afficheront à l'écran.
Dans le second cas, le graphique affiché représentera les zones d'acceptation et de refus de l'hypothèse de différence significative pour les trois seuils. Si la courbe est à 0, les deux échantillons sont identiquement répartis alors que si la courbe est à 1, on peut conclure à une différence significative des répartitions des deux échantillons.

On peut aussi afficher le résultat du test de Student en se plaçant dans le répertoire Resultats_compare et en tapant:

bash$ gnuplot

bash$ plot 'nomdufichier1_nomdufichier2.student' w l

Pour quitter gnuplot, il suffit de taper :

bash$ quit


Défauts :


F.A.Q. :