Bioinformatique et biostatistiques : Analyse de données biologiques

Comprendre la bioinformatique et son rôle pour les biotechnologies

Les analyses informatiques de résultats d’une étude sont souvent nécessaires pour vérifier la répartition des données obtenues. Ces analyses statistiques permettent de s’assurer de la probabilité des données.

Les modèles informatiques peuvent permettre une meilleure représentation des fonctions biologiques lorsqu’ils sont appliqués à ce domaine. La bioinformatique est interdisciplinaire par nature, et permet aux biologistes d’exprimer des besoins de compréhension de systèmes complexes, et aux informaticiens de développer des outils logiciels permettant de comprendre les données biologiques.

La bioinformatique combine la biologie, l'informatique, l'ingénierie de l'information, les mathématiques et les statistiques.

Quels sont les avantages à faire appel à un prestataire pour des analyses bioinformatique ou biostatistiques ?

Obtenir le maximum d’information de données expérimentales grâce aux outils de bioinformatique avancés


Mettre en place la meilleure étude statistique

Découvrez les services en bioinformatique et biostatistique et échangez avec les meilleurs prestataires

La bioinformatique et la génomique

Historiquement, la bioinformatique est apparue avec la compréhension que la biologie faisait appel à différent niveaux à des séquences : séquences d’acides nucléiques pour l’ADN et l’ARN, séquences d’acides aminés pour les protéines.

Comprendre, analyser et comparer des séquences font partis des fondamentaux de la biologie, et nécessitent le développement d’outils informatiques.

Le développement des technologies de séquençages ces dernières années (les technologies de NGS par exemple) a entraîner la production d’une masse importante d’information. Les différents champs d’action de la bioformatiques au service de la génomique sont les suivants :

Assemblage de séquences

Les techniques de séquençages produisent des séquences courtes, qu’il faut ensuite assembler. La technique de séquençage shotgun, par exemple, génère des fragments de 35 à 900 nucléotides, qu’il faut ensuite assembler. L’alignement de séquences pour un génome connu, comme le génome humain, nécessite des ressources informatiques importantes, meme si les progrès en informatiques permettent d’aller plus vite. La présence de « trous » (gaps) dans le génome est fréquent, et nécessite un travail plus ciblé dans un deuxième temps.

Dans le cas de génomes inconnus (de novo sequencing), l’alignement peut être plus complexe, et il est possible que certaines régions ne soient que très difficilement séquençables.

Annotation de génome

L’annotation est le processus de marquage des spécificités d’une séquence d’ADN : typiquement les introns et exons (séquences codantes), les séquences régulatrices, les profils de méthylation, etc.

Biologie évolutive

L’analyse des séquences peut metre en évidence des liens entre les espèces, ce qui est définie par le terme de biologie évolutive. Les phénomènes étudiés sont typiquement des duplications de gènes, des transfers horizontaux, et des comparaisons de génomes à large échelle, ce qui permet de consolider ou de confronter les méthodes taxonomiques ou physiologiques utilisées jusqu’à présent pour la classification des espèces.

Les outils de bioinformatiques vont permettrent de construire des populations modèles pour préduire l’évolution du système sur le long terme.

Génomique comparative

La comparaison de séquence commence par la comparaison entre deux séquences de gènes de deux organismes différents.

Les différences observées, au niveau des mutations ponctuelles d’un nucléotide aux modifications au niveau de segments chromosomaux comme de duplications, des transferts, des inversions etc. permettent de comprendre la complexité de l’évolution.

Analyse de mutations

Dans le cas de certaines maladies comme les cancers, les génomes des cellules affectés sont très largement modifiés : réarrangements, mutations ponctuelles, etc.

La bioinformatique va permettre deux types d’analyses comparatives à partir de données de séquençages : entre cellules cancéreuses et cellules normales d’un organisme, et entre cellules cancéreuses d’un organisme et les cellules cancéreuses d’autres organismes. Ce type d’étude permet de classifier et de répertorier les modifications de génomes de patients atteints de cancer pour à terme, gagner du temps en termes de diagnostiques, et proposer les meilleurs traitements.

 

Pour plus d’information sur les outils à disposition, la Open Bioinformatics Foundation répertorie les outils, tels que Biopython, BioJS ou Bioperl.

L’Intelligence artificielle au service de la Bioinformatique

Les développements de l’intelligence artificielle ces dernières années, notamment le machine learning et le deep learning, a été mis en application dans le domaine de la bioinformatique, et notamment dans la prédiction de structure des protéines.

Une protéine est une suite d’acides aminés structurée ainsi :

  • Structure primaire : une suite d’acides aminés
  • Structure secondaire : repliement en hélice alpha et feuillets beta
  • Structure tertiaire : repliement tridimensionnel par liaison covalente ou non covalente
  • Structure quaternaire : intégration dans un complexe protéique

Les outils de bioinformatiques permettent, avec l’essor de l’IA, d’aller beaucoup plus loin dans l’étude et la prédiction de structures de protéines.

Classifier des protéines dans de nouvelles superfamilles

Les outils d’IA vont analyser les séquences primaires de protéines et extraire les informations essentielles (typiquement essentielles pour leur structure, ou très conservées). Cela va donner lieu à la prédiction de pseudo-protéines, qui font servir de référence pour une classification de protéines inconnues dans des superfamille.

Générer des modèles de structures de protéines

Un des outils de machine learning puissant inventé en 2014 est le Generative Adversarial Network (GAN). Cet outil est utilisé pour générer des données qui seraient similaires aux données originales. Cela est particulièrement pertinent pour générer de modèles de structures tertiaires de protéines, qui seraient « similaires » ou cohérentes avec les modèles de références. Un article a utilisé des GANs pour générer des structures, qui sont vérifiées pour leur cohérence ou incohérence, et réinjectées dans le générateur. Cela permet de proposer des solutions robustes de structures, notamment dans les cas où une partie de la structure d’une protéine est manquante ou corrompue.

Les études IA peuvent également être appliquée à la modélisation des domaines d’interaction anticorps-antigène, afin de minimiser les étapes de développement chez l’animal ou par phage display.

Les différents types de prestataires

Les freelances et sociétés unipersonnelles

De nombreux chercheurs ou médecins peuvent effectuer des études en bioinformatique et biostatistiques de façon ponctuelle, ou sur la durée de projets de recherche ou clinique.

Les cabinets spécialisés et CRO

Il existe des cabinets spécialisés dans les études cliniques qui proposent des analyses biostatistiques et bioinformatiques.
Les sociétés qui conduisent les essais cliniques (contract research organisation CRO) ont généralement les capacités internes de traiter les données collectées afin de constituer les dossiers réglementaires.

L’importance du Big Data en santé

Données cliniques

Au cours d'un essai clinique, différents types de données sont collectés, transformés en ensembles de données analysables pour répondre à des questions de recherche spécifiques, et utilisés pour générer diverses publications et rapports destinés à différents publics. Les biostatistiques sont utilisées pour collecter, analyser et interpréter les résultats. Ils vont assister le biostatisticien au cours des étapes suivantes :

  • Définition de l’hypothèse
  • Choix des tests statistiques et détermination de leur puissance
  • Taille des échantillons
  • Définition des facteurs de risques et d’influence
  • Compréhension de la corrélation et la régression
  • Explication des phénomènes de multiplicité

Données de patient de vraie vie

Les données de vraie vie ou vie réelle (real-world data RWD) sont des données de patients sains et sous traitements qui proviennent de sources variées, typiquement générées directement chez le patient.

Le traitement de ces données va générer des preuves « de la vraie vie (Real-World Evidence, RWE), utiles pour les domaines suivants :

Les applications possibles de ces données sont économiquement et socialement critiques ; cela nécessite des outils et des statisticiens compétents et spécialisés.

Les technologies utilisées

Outils bioinformatiques

Applications de machine learning et intelligence artificielle

Tarifs estimés

Un alignement de séquence coûte environ 100 - 500 €
Une annotation de séquence coûte environ 100 - 500 €
Une étude biostatistique varie de façon importante en fonction du type de données, du nombre de variables, et de la puissance statistique du modèle requise.

Besoin d’aide ?