Présentation générale

SeqBIM est un groupe de travail commun au GDR Bioinformatique Moléculaire : Modélisation et Méthodologie (BIMMM) et au GDR Informatique Fondamentale et ses Mathématiques (IFM) du CNRS.
Précédemment connu sous les noms de SeqBio (côté GDR BIM) et Comatège (côté GDR IM), il a vocation depuis sa fondation à favoriser les interactions entre chercheurs en bioinformatique, informatique et/ou mathématiques autour de l’étude des séquences biologiques.

Périmètre scientifique

Si le groupe de travail s’intéresse particulièrement à l’étude des séquences biologiques, son périmètre scientifique recouvre tout ce qui a trait à l’analyse et au traitement de textes, séquences, mots, chaînes de caractères etc. qui sont des objets centraux d’études dans plusieurs disciplines, en particulier en mathématiques, informatique et bioinformatique.
Chacune de ces disciplines interroge ces objets avec ses propres questions et développe des outils et des techniques originaux pour y répondre.

En informatique, les domaines concernés sont principalement l’algorithmique du texte, les structures d’indexation, la compression, la théorie du langage etc. Les chaînes de caractères constituent l’un des objets informatiques les plus naturels et y a été à ce titre très étudiée. Il est important de noter que de nombreuses structures discrètes autres que les chaînes (arbres, graphes etc.) ainsi que leur algorithmique interviennent dans ce domaine et font donc partie du périmètre de recherche du groupe de travail.
En mathématiques, les séquences interviennent dans l’étude de la combinatoire des mots (souvent infinis) et dans celle des systèmes dynamiques symboliques, deux sujets relevant des mathématiques discrètes. Les probabilistes et statisticien(ne)s développent des modèles de séquences aléatoires, par exemple pour étudier les statistiques de mots.
En bioinformatique, les séquences étudiées sont issues de la biologie moléculaire: ADN, ARN, protéines, génomes. L’acquisition de séquences en biologie et les besoins de méthodes informatiques et mathématiques pour les analyser sont même à l’origine de la bioinformatique en tant que discipline avec le développement des premiers algorithmes d’alignement et d’assemblage de séquences d’ADN dans les années 70-80. Les séquences biologiques et les questions qu’elles soulèvent ayant des propriétés spécifiques due à leur nature, leur appliquer des méthodes génériques ne suffit pas et leur étude nécessite de mettre au point des approches et des modélisations spécifiques qui intégrent des concepts biologiques.
Depuis quelques dizaines d’années, la bioinformatique des séquences se développe massivement : d’une part avec l’explosion de la quantité de données de séquences biologiques produites grâce aux nouvelles technologies de séquençage haut débit et d’autre part avec l’apparition de nouveaux types d’analyses, comme celles permettant de déterminer quelles parties des séquences interviennent dans certains processus moléculaires. Ces points soulèvent un grand nombre de questions méthodologiques nouvelles à la fois d’un point de vue technique et théorique. Il s’agit notamment d’assembler des séquences complètes à partir d’un ensemble de “reads” (i.e., des échantillons partiels) qui présentent des propriétés variées selon la technique de séquençage employée, mais aussi de pouvoir gérer des masses considérables d’information avec, par exemple, des verrous importants en termes de performances en temps et en mémoire des algorithmes. En particulier, le développement de la médecine personnalisée nécessite de mettre au point des outils efficaces afin de pouvoir stocker et analyser un très grand nombre de séquences très similaires entre elles. Comme les technologies de séquençage évoluent très vite en modifiant les propriétés des données à traiter, les problématiques méthodologiques sont régulièrement renouvelées et tendent à se diversifier.

Depuis quelques années, un nombre grandissant de questions relatives au domaine couvert par SeqBIM vient de la biologie moléculaire qui s’impose comme un moteur essentiel de la recherche sur les séquences.

Le groupe de travail Comatège/SeqBio/SeqBIM intègre des participant(e)s venu(e)s des trois disciplines ci-dessus. Ce point est important car SeqBIM permet ainsi à des chercheur(e)s d’horizons divers de confronter et d’échanger leurs points de vue sur une même classe d’objets d’étude. C’est un dialogue à la fois naturel et fécond puisque des idées et des outils peuvent parfois être ré-utilisés d’une discipline à l’autre. Par exemple, les graphes de de Bruijn sont utilisés depuis longtemps en mathématiques pour étudier les systèmes dynamiques discrets (appliqués aux systèmes Sturmiens, ils permettent entre autres de démontrer le théorème des trois distances, un résultat de théorie des nombres) et sont aussi à la base de la plupart des algorithmes d’assemblage de courtes séquences en bioinformatique. Réciproquement, les chaînes de Markov à longueur variable, un modèle stochastique de séquences notamment utilisé pour les séquences biologiques, font intervenir les codes suffixes développés en informatique.

Enfin, les thèmes de recherche abordées au sein du groupe de travail sont variés et comprennent notamment :

algorithmique du texte, des séquences et des structures discrètes associées (graphes, arbres, etc.)
structures d’indexation, compression, gestion de grandes masses de données,
combinatoire des mots finis et infinis, systèmes dynamiques discrets, modèles de séquence, statistique de mots,
assemblage de séquences, alignement et comparaison de séquences,
recherche, découverte et inférence de motifs ou de répétitions,
analyse des données de séquençage haut-débit (génomique, RNA-seq, Chip-seq, …), métagénomique
annotation des génomes, prédiction de gènes, haplotypes et polymorphismes, génomique comparative, étude des signaux de régulation

Thèmes scientifiques communs avec les autres groupes de travail des GDR IM et BIM

Le périmètre scientifique de SeqBIM intersecte celui de plusieurs autres groupes de travail des GDR IM et BIM. Côté BIM, les séquences moléculaires sont aussi au centre des groupes de travail GTGC (génomique comparative) et MASIM (bioinformatique structurale), qui s’intéressent respectivement à la comparaison des génomes et à l’étude et la détermination de leurs structures physiques. Côté IM, les aspects algorithmiques abordés dans le cadre de SeqBIM pourraient également l’être dans celui du groupe de travail “Algorithmes et complexité”; le groupe de travail SDA2 s’intéresse à la combinatoire des mots dans le cadre des systèmes dynamiques discrets; enfin les séquences moléculaires peuvent être un objet d’application des thématiques de recherche le groupe de travail ALEA, qui leur a d’ailleurs consacré une session lors de leurs dernières journées scientifiques.

Projet d’animation du groupe de travail

Venant nous-mêmes de disciplines différentes, nous sommes tous les trois convaincus de l’importance de maintenir et de développer une structure comme le groupe de travail SeqBIM afin de promouvoir et faciliter les échanges entre mathématicien(ne)s, informaticien(ne)s et bioinformaticien(ne)s autour de questions liées aux séquences génétiques.
De plus, le groupe de travail est essentiel pour structurer la communauté bioinformatique qui s’intéresse plus particulièrement aux aspects méthodologiques de l’analyse de séquences.

L’animation du groupe de travail Comatège/SeqBio reposait jusqu’à présent principalement sur l’organisation d’une conférence “SeqBio” annuelle d’environ deux jours. Nous avons l’intention de maintenir et de développer cette conférence, en la rebaptisant “SeqBIM”. Au-delà de son contenu scientifique, cette conférence est le moyen le plus direct pour favoriser le dialogue entre les participants. Les jeunes chercheuses et jeunes chercheurs sont tout particulièrement invités à participer à ces journées et à y présenter leurs résultats. C’est souvent pour eux une première expérience de conférence, et une ouverture sur la communauté française à laquelle ils appartiennent, au-delà de leurs équipes respectives. Nous souhaitons renforcer cet aspect des journées SeqBIM, en organisant une session destinée aux doctorants, où ils seront invités à présenter dans un format court leurs travaux actuels et leurs objectifs (plutôt que des résultats nécessairement achevés).

Le second axe que nous envisageons pour développer le groupe de travail et augmenter sa visibilité au niveau national et international consiste à mettre en place un site web qui centraliserait les informations relatives à son périmètre de recherche, à ses participants et aux évènements organisés par le groupe de travail. Afin d’enrichir le contenu du site, nous solliciterons les participants pour que ceux-ci y déposent leurs cours, leurs productions scientifiques, y proposent des questions ouvertes, de nouveaux problèmes etc.

Une des principales forces du groupe de travail est son caractère fortement multidisciplinaire. En effet, la participation active d’équipes de recherche centrées sur les aspects biologiques et médicaux de l’analyse des séquences moléculaires permet une veille scientifique sur l’évolution des technologies de séquençage et les questions émergentes en biologie des séquences.
De nouveaux thèmes de recherche sont ainsi régulièrement diffusés vers les communautés plus “théoriques” participant au groupe de travail pour le bénéfice de tous. Nous avons donc l’intention d’encourager et de solliciter la participation de chercheurs travaillant sur l’analyse des séquences afin de développer cet aspect essentiel du groupe de travail.

Nous aimerions aussi amener de nouveaux participants au groupe de travail. En effet, ces dernières années, on a pu observer que si l’algorithmique du texte et la bioinformatique restaient bien représentées, les chercheurs venus de la combinatoire des mots et des mathématiques/statistiques tendaient à moins participer aux journées du groupe de travail.
L’un de nos objectifs est donc de faire en sorte que les journées SeqBIM attirent un public plus large et surtout que toutes les sensibilités y tiennent leur place. Pour ce faire, nous envisageons plusieurs actions comme inviter des orateurs autour des thématiques récemment en retrait afin de les promouvoir, voire organiser des sessions spéciales autour de ces thèmes, faire connaître le groupe de travail à travers son site web et des messages directs et éventuellement d’adosser les journées SeqBIM à celles d’autres groupes de travail ou d’autres conférences.

Enfin, les aspects biologiques de l’analyse des séquences permettent des applications pratiques qui ont amené au développement d’un vivier d’entreprises autour du séquençage, de l’analyse des séquences génétiques, de la médecine personnalisée, etc. Il s’agit donc d’un thème scientifique qui permet des connections directes entre la recherche académique et le monde économique. Nous nous proposons de favoriser ce type de contacts au sein du groupe de travail SeqBIM, par exemple en invitant des entreprises à participer aux journées (comme lors de leur dernière édition à Rouen) ou en leur présentant une vitrine des compétences des participants au groupe de travail à travers le site web et en leur servant d’interlocuteurs afin de les orienter vers telle ou telle équipe si elles ont des questions susceptibles d’être traitées dans ce cadre.

Laurent Bulteau, Gilles Didier et Claire Lemaitre