Des avancées dans le stockage de données sur ADN

Stocker des quantités massives de données est devenu une priorité pour les Etats et les entreprises. L'ADN pourrait devenir le prochain moyen de stockage à des coûts réduits avec la solution ADS Codex développée par le Laboratoire national de Los Alamos.

L’humanité générera environ 33 Zo (zetta octet) de données d'ici 2025, qui seront probablement contenues dans une balle de ping-pong. Voici l’objectif à terme d’une équipe de chercheurs du Laboratoire national de Los Alamos. Grâce à un logiciel de traduction, ADS Codex (Adaptive DNA Storage Codec), il est possible de traduire des bits numériques en nucléotides et vice-versa ensuite si besoin. Plus exactement, ce système permet de transformer les 0 et 1 en une série de lettres qui constituent la base moléculaire de notre ADN : l'adénine (A), la thymine (T), la guanine (G) et la cytosine (C). Lors de la formation d’une molécule, ces lettres en séquences créent un code indiquant à l’organisme comment se former. L’ensemble des molécules d’ADN constitue le génome, et par conséquent le corps humain.

Jusqu’alors, la méthode de stockage couramment utilisée est la bande, une technologie qui date de 1951. Le travail de recherche sur ADS Codex permettrait à court terme d'écrire 1 To, et de lire 10 To en 24 heures pour la somme de 1 000 dollars. L’équipe en charge de ce projet voit dans cette avancée technologique plusieurs points positifs : une économie d’énergie, une durée de vie bien supérieure au stockage sur bande, et surtout, la possibilité de copier ces fichiers stockés dans l’ADN très facilement à moindre coût. Le laboratoire de Los Alamos n’est pas le seul à travailler sur cette traduction de données , à l’exemple de Microsoft qui démontrait déjà en 2019 ses avancées au sujet d’un système similaire, entièrement automatisé.

Par comparaison, aujourd’hui, les plus grands centres de données sont dans des bâtiments qu’il faut construire puis alimenter en énergie, en réseau et faire fonctionner – un coût qui s’élève à plusieurs milliards de dollars – pour une demande en évolution constante et une croissance exponentielle dans la création de données.

Un taux d'erreur encore élevé

Les chercheurs de Los Alamos travaillant actuellement sur le projet ADS Codex rencontrent cependant deux types de difficultés dans la création de fichiers ADN : le taux d’erreur lors de l’écriture dans le stockage moléculaire est bien plus élevé comparé aux systèmes numériques traditionnels. Le deuxième obstacle, lié au premier, résulte d’une plus grande difficulté à corriger les erreurs survenues.

Afin de palier à ce problème, ADS Codex ajoute des informations supplémentaires appelées codes de détection d'erreur qui peuvent être utilisées pour valider les données. Lorsque le logiciel convertit les données en binaire, il vérifie si les codes correspondent. Dans le cas contraire, il s’agit de supprimer ou d'ajouter des nucléotides jusqu'à ce que la vérification réussisse. Les chercheurs prévoient une version 1.0 prête dans les prochains mois.