« Le codage de canal, utilisé dans les télécoms pour corriger les erreurs, pourrait être utile au stockage ADN ou à l’IA », entrevoit Elsa Dupraz de l’IMT Atlantique

Maître de conférences à l’Institut Mines-Télécom (IMT) Atlantique, Elsa Dupraz a reçu, le 15 octobre dernier, le Prix IMT-Académie des sciences, dans la catégorie Espoir. Grâce à ses recherches, la technique de codage de canal, fréquente dans les télécoms, pourrait fiabiliser le stockage d’information sur ADN ou encore simplifier l’apprentissage automatique.

Réservé aux abonnés
Image d'illustration de l'article
Elsa Dupraz est maître de conférences à l'IMT Atlantique.

Le codage de canal, votre spécialité, est utilisé dans les télécoms pour corriger les erreurs. Pourriez-vous expliquer son principe de fonctionnement ?

Cette technique, performante à compter des années 1990, sert à restaurer l’information initiale envoyée à un récepteur, votre smartphone par exemple, en retirant le bruit (les perturbations affectant les ondes RF, ndlr) ajouté lors de la transmission.

A l’instar du code de répétition, qui consiste simplement à répéter plusieurs fois les données en espérant retrouver la bonne information à l’aide d’un vote de majorité, le codage de canal s’appuie sur la redondance d’informations, mais de façon plus efficace.

On ajoute des bits de parité calculés à partir de différentes parties du message initial – checksum en anglais. Un message de 100 bits va ainsi comporter 20 bits de parité supplémentaires. Si un bit a été modifié quelque part, la parité change et on peut localiser ces erreurs pour les corriger. Il faudra parfois 100 bits de parité pour 100 bits d’informations si le signal est très bruité, mais c’est toujours mieux que de transmettre 300 bits de données ou plus.

Comment appliquez-vous cette technique au stockage sur ADN, qui fait depuis 2022 l’objet du PEPR MolecularArxiv ?

Depuis une dizaine d’années, des chercheurs proposent de synthétiser de l’ADN correspondant à une information en encodant les données sur ses quatre nucléotides de base (A, C, G et T). Mais le séquençage de l’ADN, pour lire cette information, n’est pas très fiable. Des insertions (des informations inexistantes à l’origine, ndlr) et des délétions (des suppressions, ndlr) se produisent, erreurs inhabituelles dans les télécoms.

Les bits de parité sont ajoutés au moment de la synthèse de l’ADN. A la lecture, si on calcule un bit de parité à partir des cinq premiers bits mais qu’un bit a été ajouté ou supprimé, le calcul n’est pas réalisé sur les bonnes positions. Mais on l’ignore. Nous avons donc développé une méthode de resynchronisation pour retrouver la position de l’erreur. C’est une approche plus ou moins exhaustive pour tester différentes positions jusqu’à ce que les équations de parité soient satisfaites.

Que donnent les premiers résultats ?

Le séquençage introduit entre 2 et 5% d’erreurs et on parvient à les corriger grâce à nos mécanismes, que ce soit en simulation numérique ou expérimentalement, in vivo.

La synthèse, elle, est quasi parfaite mais reste lente. Dans le cadre du projet ciblé PC2 du PEPR, l’idée serait de l’accélérer pour le stockage d’informations et de tolérer les erreurs, car on saurait les corriger par la suite.

Le codage de canal pourrait aussi être utile à la compression de données pour l’apprentissage automatique des IA. Pourriez-vous approfondir ?

Quand on entraîne un réseau de neurones pour la classification d’images, on doit d’abord décompresser les images, stockées au format jpeg par exemple. On le fait car les techniques de compression d’image cassent la structure et la sémantique des données, ce qui réduit nettement les performances.

Cependant, des travaux théoriques ont montré qu’on pouvait remplacer une partie de la chaîne de compression, appelée le codage entropique, par un code correcteur d’erreur à l’usage renversé, ce qui permet d’extraire les informations redondantes. C’est moins efficace que les techniques traditionnelles, mais l’apprentissage sur des images compressées devient possible sans décompression préalable. Les codes de correction d’erreur possèdent une structure explicite que le réseau de neurones peut « comprendre » et exploiter.

Vous avez publié une étude sur le sujet en mars dernier. Que montre-t-elle ?

Nous avons fait des tests sur des images jpeg, en remplaçant le codage entropique (Huffman) par le codage de canal. Les performances en classification étaient bien supérieures à celles obtenues à partir d’un entraînement sur des images compressées de manière ordinaire.

Les résultats sont un peu moins qu’à partir d’images non compressées, certes. Mais si l’on tient compte du coût de calcul, ce choix peut être un bon compromis.

Enfin, il est question dans vos recherches de limiter les transferts de données entre mémoire et puce de calcul, responsable de la majeure partie de la consommation énergétique des circuits électroniques. Dans quelle mesure le codage de canal serait utile ?

En rupture avec l’architecture historique de Von Neumann, l’électronique neuromorphique a pour objectif la réalisation des calculs directement dans la mémoire pour exécuter de réseaux de neurones. Cela implique des multiplications matricielles qui vont introduire du bruit dans le calcul.

Nos études théoriques permettent déjà de caractériser la déviation due à ces erreurs, de savoir si ces erreurs s’accumulent, se compensent, si le résultat devient catastrophique… L’idée, pour les corriger, serait d’introduire le codage de canal. Si la taille de la matrice est de 50x50, on ajouterait 50 colonnes supplémentaires.

A la fin du calcul, le vecteur de longueur 100 contiendrait 50 composantes supplémentaires pour corriger les erreurs. C’est un travail en cours, en collaboration avec Polytechnique Montréal.

Newsletter Fil Deeptech
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.
Ils recrutent des talents
Chez Framatome, façonnons les réacteurs nucléaires de demain !

Un avenir énergétique 100% électrique et bas carbone ? Tout le monde en rêve, mais le défi est bien vaste ! Entreprise industrielle de la métallurgie, au service de la filière nucléaire, chez Framatome, chaque innovation, chaque calcul d’ingénierie, chaque soudure, contribue à cet objectif.

Le témoignage
Les webinars
Les services L'Usine Nouvelle
Détectez vos opportunités d’affaires
Trouvez des produits et des fournisseurs