Percée du stockage de données dans de l'ADN de synthèse

Selon Microsoft, le stockage de données dans de l'ADN de synthèse aurait franchi une étape clé pour envisager le passage d'une technologie de laboratoire à une technologie commerciale pour les datacenters.

Microsoft s'intéresse aux éléments constitutifs de la vie pour trouver un moyen de coder et de stocker l'avenir numérique de l'humanité. Le fournisseur a récemment fait la démonstration du « premier système entièrement automatisé » qui permettrait, selon l’entreprise, de stocker et de récupérer des données dans de l'ADN de synthèse. Cela fait longtemps que l'ADN (acide désoxyribonucléique), qui code l'information génétique, est présenté comme un candidat potentiel pour le stockage des données. Mais, comme pour toute nouvelle technologie, le développement prend du temps et de nombreux défis doivent être relevés avant que n'émerge une solution ayant une quelconque viabilité commerciale. Reste que le potentiel de cette technologie de stockage est indéniable. Selon Microsoft, l'utilisation de l'ADN pour archiver les données ouvre des perspectives très intéressantes car ce support est à la fois extrêmement dense, puisqu’il peut contenir jusqu'à 1 exaoctet environ par millimètre cube, et particulièrement durable, puisqu’il affiche une demi-vie de plus de 500 ans. Et même si l'état actuel de la synthèse et du séquençage de l'ADN ne permettent pas de déboucher sur des solutions très pratiques, Microsoft estime que ces technologies s'améliorent assez rapidement grâce aux progrès de l'industrie biotechnologique.

Il est clair en effet que les choses avancent. Ainsi, lors d'un récent test de preuve de concept, des chercheurs de Microsoft et de l'Université de Washington (UW) ont réussi à coder le mot « hello » dans des fragments d'ADN de synthèse et à les reconvertir en données numériques à l'aide d'un système automatisé de bout en bout. Le test, qui a fait l’objet d’un article publié le 21 mars dans la revue Nature Scientific Reports, a été qualifié par Microsoft d’étape clé dans le processus de passage de la technologie du laboratoire de recherche aux datacenters commerciaux. Cependant, malgré l'optimisme de Microsoft, il semble qu'il reste encore beaucoup de chemin à parcourir avant que l'industrie technologique puisse commencer à commander des médias de stockage basés sur un ADN de synthèse. S’il existe déjà des synthétiseurs et des séquenceurs pour exécuter des parties clés du processus, de nombreuses étapes intermédiaires ont, jusqu'à présent, nécessité un travail manuel dans le laboratoire de recherche, a reconnu Microsoft. « L'exécution manuelle de ces tâches n'est pas viable dans un objectif commercial », a fait remarquer Chris Takahashi, chercheur principal à la Paul G. Allen School of Computer Science & Engineering de l'Université de Washington. « On ne peut pas laisser des gens circuler dans les datacenters avec des pipettes. Non seulement le risque d'erreur humaine est trop élevé, mais ce serait trop coûteux et l'encombrement serait trop important », a ajouté M. Takahashi. C'est pourquoi la réussite du test du système automatisé de stockage et de récupération de l'ADN est un événement dont Microsoft veut faire grand cas.

Des molécules d'ADN de synthèse

Alors, comment fonctionne ce système ? Comme pour les techniques de stockage de données dans l’ADN en général, les informations sont stockées dans des molécules d'ADN de synthèse créées en laboratoire, et non dans de l'ADN provenant d'humains ou d'autres êtres vivants. Dans le processus que Microsoft est en train de développer, ces informations peuvent être cryptées avant d'être envoyées au système de stockage. Le système automatisé de stockage des données ADN utilise un logiciel mis au point par l'équipe de Microsoft et de l'Université de Washington qui convertit les zéros et les uns des données numériques en A, C, G et T, identiques aux nucléotides constitutifs de l'ADN, comme l’a expliqué Microsoft. « Le système utilise ensuite des équipements de laboratoire peu coûteux et courants pour faire circuler les liquides et les produits chimiques nécessaires dans un synthétiseur qui fabrique des fragments d'ADN et les pousse dans un réceptacle de stockage », a encore indiqué le fournisseur.

Quand le système doit récupérer les informations, il ajoute d'autres produits chimiques pour préparer correctement l'ADN et utilise des pompes à microfluides pour pousser à nouveau les liquides dans d'autres parties du système capables de « lire » les séquences d'ADN et de les reconvertir en informations compréhensibles par un ordinateur. « L'objectif du projet n'était pas de prouver la rapidité ou le coût du système, mais simplement de démontrer que l'automatisation était possible », ont précisé les chercheurs. « Notre objectif ultime est de mettre en production un système qui, pour l'utilisateur final, ressemble beaucoup à n'importe quel autre service de stockage dans le cloud : les bits sont envoyés dans un datacenter pour y être stockés, et ils apparaissent simplement quand le client en a besoin », a déclaré Karin Strauss, chercheuse principale chez Microsoft. « C’est pour cette raison que nous devions prouver que le processus était réalisable en pratique du point de vue de l'automatisation », a-t-elle ajouté.