## TP6 : L'ensemble des codes aléatoires

Nous allons regarder ici un exemple de code particulier : l'ensemble de codes aléatoires. Ce code très simple, permet de saturer la borne de Shannon dans le théorème du codage de la source.
Le principe est le suivant : soit un ensemble de symboles (à transmettre) de taille $2^M$. On va attribuer à chaque élément de cet ensemble un code aléatoire dans $\{0,1\}^N$. Par exemple, si on a l'ensemble de 4 lettres 'a', 'b', 'c', 'd' (donc $2^M=4$ ou $M=2$) on pourra obtenir pour N=6

| symbole | code|
|:--:|:-----:|
|'a' | 001100|
|'b' | 101010|
|'c' | 111001|
|'d' | 000011|

Une fois le code créer, on peut l'envoyer dans un canal symmétrique binaire. Le décodage s'effectue de la façon suivante : une fois le messaege reçu, on va devoir trouver dans l'ensemble des mots-code (qui est ici un sous-espace de $\{0,1\}^N$) le mot-code le plus proche (i.e. celui pour lequel le nombre de bits retournés est le plus faible).

#### <u>Première partie</u> : codage

On va faire une tentative d'implémentation d'un code aléatoire, avec transmission et décodage

In [2]:
import numpy as np
import matplotlib.pyplot as plt

Commençons avec un cas facile : $f=0.1$, un ensemble de $2^3 = 8$ symboles codés dans un espace à $N=20$ dimensions.
  1. Calculer le raux $R$

In [75]:
# M=, N=, ... #TODO

rate= 0.3333333333333333


Commenez par générer un code aléatoire : 
  * on commence par attribuer un indice $i=1, ..., 2^3$ à chacun des symboles
  * pur chaque élément $i$, on génère une séquence aléatoire de $N$ bits ($0$ ou $1$), chacun avec probabilité 1/2.

In [76]:
# TODO

indice  0  code= [0 1 0 1 0 0 1 1 1 1 1 0 0 0 0]
indice  1  code= [0 0 1 1 1 0 0 1 0 1 0 0 1 1 1]
indice  2  code= [0 1 1 0 0 0 0 0 0 1 1 0 1 1 0]
indice  3  code= [1 1 1 1 0 1 1 0 0 0 0 0 0 0 0]
indice  4  code= [1 0 0 0 1 0 0 0 0 0 0 0 0 0 0]
indice  5  code= [1 0 0 0 1 1 1 0 1 1 0 0 0 0 0]
indice  6  code= [1 0 1 0 0 1 1 0 0 0 0 1 1 0 0]
indice  7  code= [1 0 1 1 1 0 0 1 1 0 1 1 0 1 0]


Pour la suite on reprendra la fonction de canal utilisée lors des tps précédent

In [77]:
# Fonction de transmission du canal (cf TP 3)
def Transmit(msg_enc,f):
    noise_vector = (np.random.random(msg_enc.shape)<f)*1
    return (msg_enc + noise_vector) % 2

On peut maintenant utiliser la fonction **Transmit** pour récupérer le message altéré. Ici un exemple où l'on fait passer tous les symboles encodés par le canal:

In [78]:
All_CodeWord = encoded
Msg_Received = Transmit(All_CodeWord,f=f)
for i in range(2**3):
    print("indice ",i," code=",encoded[i,:], " *** received=",Msg_Received[i,:])

indice  0  code= [0 1 0 1 0 0 1 1 1 1 1 0 0 0 0]  *** received= [0 1 0 1 0 0 0 1 1 1 1 0 1 0 0]
indice  1  code= [0 0 1 1 1 0 0 1 0 1 0 0 1 1 1]  *** received= [0 1 1 1 1 0 0 1 0 1 0 0 1 1 1]
indice  2  code= [0 1 1 0 0 0 0 0 0 1 1 0 1 1 0]  *** received= [0 1 1 0 0 0 0 0 0 1 1 0 1 1 0]
indice  3  code= [1 1 1 1 0 1 1 0 0 0 0 0 0 0 0]  *** received= [1 1 1 1 0 1 1 0 0 0 0 0 0 0 0]
indice  4  code= [1 0 0 0 1 0 0 0 0 0 0 0 0 0 0]  *** received= [1 0 0 0 1 0 0 0 0 0 0 0 0 0 0]
indice  5  code= [1 0 0 0 1 1 1 0 1 1 0 0 0 0 0]  *** received= [1 0 0 0 1 1 1 0 1 1 0 0 0 0 0]
indice  6  code= [1 0 1 0 0 1 1 0 0 0 0 1 1 0 0]  *** received= [1 0 1 0 0 1 1 0 0 0 0 1 1 1 0]
indice  7  code= [1 0 1 1 1 0 0 1 1 0 1 1 0 1 0]  *** received= [1 0 1 1 1 1 0 1 1 0 1 1 0 1 0]


#### <u> Deuxième partie </u> : inférence
Vous devez maintenant coder la fonction **inference** qui, à partir d'un message reçu et de l'ensemble des mots-code possibles, retourne le message inféré.
On peut procéder de la façon suivante : 

  * on donne comme argument : le message reçu et l'ensemble des mots-code.
  * il faut trouver parmi l'ensemble des mots-code, celui qui est le plus proche du message reçu.

Ensuite, écrire une fonction qui envoie tous les symboles possibles par le canal, les décoder et compter la proportion de messages correctement décodés.

In [79]:
def Inference(rcv,all_CodeWords):
    # TODO

In [80]:
def ErrorAll(all_msg,All_CodeWords):
    # TODO

Afin d'avoir une statique plus précise, générer un ensemble de $1000$ mots-code valident, et regarder la proportion d'erreur

In [82]:
Nmsg = 10000
# TODO

Tester quelques valeur de $M$ et $N$, en gardant $R$ fixé, afin comment évolue l'erreur lorsqu'on augmente les tailles des symboles et des mots-code dans une même proportion.


Que conclure sur la faisabilité de ce code ? 

#### <u>Troisième partie</u> : théorie

Pour comprendre les performances du "Random Code Ensemble" (RCE), il faut se poser du nombre de mots-code présent à une certaine distance d'un mot-code donné. Considérons $x_0$, un mot-code. On cherche à calculer le nombre **moyen** de mots-code qui se trouverait à une distance $d$ de $x_0$. 

Pour simplifier la question, on prendra $x_0 = 00...00$. 
  1. Quelle est la probabilité de générer une chaine de $N$ bits qui ont $k$ bits à 1.
  2. Sachant qu'on a au total $2^M$ mots-code, combien de mots-code ${\cal{N}(d)}$ (en moyenne) seront à une distance $d$ ($d$ bits retournés) de $x_0$ ?
  3. En utilisant l'approximation de Stirling pour $N$ grand : $log_2({\cal{C}}^k_N) \approx 2^{NH_2(\delta)}$, où $H_2(\delta) = -\delta \log_2(\delta) - (1-\delta)\log_2(1-\delta)$ et $\delta=k/N$, montrer que l'on obtient dans la limite où $N$ est grand le résultat suivant : 
  
$${\cal{N}(d)} = 2^{N\left[R-1+H_2(\delta)\right]}$$

  4. Tracer $R-1+H_2(\delta)$, en fonction de $\delta$ pour $R=0.5$. Que nous indique le fait que cette fonction soit négative ou positive ?
  5. En déduire pour quelle valeur $f$ du canal, il est possible de décoder sans erreur à l'aide du RCE, lorsque $R=0.5$.