La bio-informatique — Cisco et l’Université McMaster exploitent la puissance des mégadonnées dans la lutte contre la COVID-19
4 min read
Au cours des 10 dernières années, les technologies ont eu des retombées transformatrices et profondes sur notre société. Ceci n’a jamais été aussi évident que ces derniers mois. Durant la crise actuelle, les entreprises privées et les organismes publics se sont tournés vers les technologies de Cisco pour les aider à assurer la sécurité des effectifs et des réseaux informatiques et, plus important encore, à contribuer à la lutte contre la COVID-19.
Partenariat avec la communauté de chercheurs de l’Université McMaster
Au cours de la dernière décennie, Cisco a développé des partenariats étroits avec la plupart des grandes universités canadiennes de recherche, commanditant des programmes d’innovation et des bourses universitaires dans tout le pays, dont l’Université McMaster, sise à Hamilton, en Ontario. L’Université McMaster est reconnue internationalement pour son dynamisme dans les sciences de la santé, particulièrement dans les domaines de la bio-informatique, de la génomique fonctionnelle et de la biologie computationnelle.
Notre partenariat avec McMaster va au-delà de la relation usuelle entre un fournisseur et son client — au cours des six dernières années, Cisco a joué un rôle dans plusieurs des programmes liés aux sciences de la santé, appuyant deux chaires de recherche dans les dernières années.
À l’heure actuelle, avec le don d’un système d’informatique unifié de haute performance de 375 000 $ (UCS) de la Fondation Cisco, nous appuyons un nouveau projet remarquable, l’outil de génotypage de la COVID-19 (CGT). L’application CGT part du principe de l’analyse des mégadonnées et permettra aux scientifiques du monde entier de suivre l’évolution de la structure génétique de la COVID-19 et ultimement de trouver un vaccin.
L’outil de génotypage de la COVID-19 (CGT)
En partenariat avec l’Institut Vecteur en Ontario et le centre universitaire des sciences de la santé Sunnybrook à Toronto, le Dr McArthur et son équipe de recherche ont commencé à étudier par quelles méthodes la bio-informatique pourrait contribuer à suivre les variations du coronavirus, en analysant son génome au cours de sa propagation dans le monde. Quand le virus se transmet d’une personne à l’autre, son génome acquiert des variations mineures et donne des pistes de recherche sur les mécanismes de propagation du virus et sur son origine. L’analyse de ces variations génétiques permet aux équipes de recherche de recenser la trajectoire du virus et de projeter sa prochaine destination. Ceci est un élément crucial de la recherche des contacts, car il permet de détecter de quelle manière une éclosion locale pourrait s’être déclarée.
Un élément clé de cette recherche est l’outil de génotypage de la COVID-19 (CGT), une plateforme analytique d’intelligence artificielle et d’apprentissage machine qui permet aux chercheurs, aux hôpitaux et aux agences publiques autour du monde de téléverser leurs propres données COVID-19 et de les mettre en contexte au moyen de sources accessibles dans le domaine public. À l’aide de techniques d’IA de réduction dimensionnelle comme UMAP, le CGT permet de déceler des différences mineures dans le génome de virus, de les classifier et de les comparer à d’autres souches. Les résultats devraient donner un éclairage plus précis sur les lieux probables où les événements de transmission se sont produits, du moment où les éclosions se sont déclarées et pourraient même prévenir les chercheurs de toute modification majeure de la composition génétique du virus qui détermine son degré de virulence.
Optimisation des analyses de données
Le séquençage et l’analyse de l’ADN d’un seul patient infecté impliquent des millions de relevés de données. Donc, pour tout système de traitement massif des données, la vitesse de l’analyse est critique. Plus il y a de données, plus le délai d’analyse est long — un élément particulièrement critique si l’on sait les vastes quantités de données sur les cas d’infections de la COVID-19 dans le monde qui sont générées sur une base quotidienne. Or, le traitement massif de données à cette échelle nécessite beaucoup de mémoire — plus particulièrement des systèmes de traitement intégrés à la mémoire. Un cadre de traitement intégré à la mémoire permet un traitement accéléré des données et évite la latence superflue qui se produit lors de la transmission entre les réseaux de stockage principaux; ou même la latence qui se produit sur les systèmes de disques locaux.
Pour qu’elle soit utile, l’application CGT doit exécuter ces tâches d’analyse massive d’intelligence artificielle et d’apprentissage machine rapidement et efficacement. Ceci n’est possible que si le principal système informatique prend en charge le traitement accéléré des données d’intelligence artificielle et d’apprentissage machine, mais aussi l’accès aux données à latence faible, nécessitant de grandes quantités de mémoire rapide.
Grâce au système UCS de Cisco en place, l’équipe de McMaster peut désormais traiter 150 génomes à l’heure — une réalisation impressionnante considérant les millions de relevés de données et les algorithmes complexes d’intelligence artificielle et d’apprentissage machine utilisés, mais assurant en même temps la protection des données sensibles sur les patients qui sont conservées en mémoire. Ceci a des implications directes pour la conception de vaccins, la mise au point de médicaments et pour les initiatives collectives de lutte contre la COVID-19 mondialement.
Je sais que je parle au nom de tous mes collègues de Cisco lorsque je dis à quel point nous sommes fiers de prendre part à un projet dont les perspectives de retombées positives sont aussi prometteuses, tant à l’échelle nationale que mondiale. Dans le monde entier, les autorités publiques, les ONG et les entreprises conjuguent leurs efforts pour exploiter la puissance des données dans la lutte contre la COVID-19 et nous sommes réellement honorés de jouer un rôle prépondérant dans un projet si remarquable.