Étape 1
Recherche du génome

La séquence du génome de référence du SARS-CoV-2 est disponible librement dans les banques de données publiques. Ces banques sont alimentées par les chercheurs, qui y mettent à disposition de la communauté scientifique leurs données de séquençage. GenBank est l’une des principales d’entre elles.

Instructions
Raccourci ↦ Voir directement la fiche sur Genbank.
Explications

La première ligne de la fiche indique qu’il s’agit d’un génome de 29 903 nucléotides (bp: base pairs, paires de bases) formé d’une molécule d’ARN simple brin et linéaire ("single stranded RNA, linear"). La date en fin de ligne est la date de la dernière mise à jour de la fiche, qui peut donc changer avec le temps.

29903 bp ss-RNA     linear   VRL 18-JUL-2020
Les lignes suivantes détaillent les différents éléments fonctionnels trouvés tout au long du génome, et notamment les différentes protéines. Les protéines sont des molécules codées par les gènes du virus et dont les briques de base sont les acides aminés. Il y a 20 acides aminés différents, dénotés par les 20 lettres A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y. Les protéines sont donc représentées par des séquences sur cet alphabet.

Enfin, la séquence génomique elle-même se trouve tout à la fin. Vous pouvez vérifier: elle fait bien 29 903 caractères. Il s’agit d’une séquence d’ARN, mais la convention est de la noter comme une séquence d’ADN, sur les 4 nucléotides A, C, G et T.

A Adénine
CCytosine
G Guanine
T Thymine

Dans l'ADN, le T remplace le nucléotide U (uracile) de l’ARN, qui est chimiquement très proche.

Etape suivante Revenir au début