Les analyses informatiques de résultats d’une étude sont souvent nécessaires pour vérifier la répartition des données obtenues. Ces analyses statistiques permettent de s’assurer de la probabilité des données.
Les modèles informatiques peuvent permettre une meilleure représentation des fonctions biologiques lorsqu’ils sont appliqués à ce domaine. La bioinformatique est interdisciplinaire par nature, et permet aux biologistes d’exprimer des besoins de compréhension de systèmes complexes, et aux informaticiens de développer des outils logiciels permettant de comprendre les données biologiques.
La bioinformatique combine la biologie, l'informatique, l'ingénierie de l'information, les mathématiques et les statistiques.
Labtoo a mis au point un service sur mesure pour aider les laboratoires, les biotechs, les medtechs et les entreprises pharmaceutiques à externaliser leurs analyses en bioinformatiques pour leurs programmes de recherche.
Labtoo peut être mandaté dans le cadre d'une mission entièrement personnalisée pour mettre en place tout type d'études bioinformatiques et biostatistiques.
L’analyse de résultats d’études biologiques, comme du séquençage ou des résultats d’expérience en protéomique, est une étapes clé des processus de recherche. Les données analysées par la bioinformatique permettent la modélisation en images ou de générer un compte-rendu statistique ou comparatif.
L’analyse de données issues d’études nécessite souvent des tests statistiques pour la vérification de la signification statistique des résultats obtenus. L'analyse peut se faire sur des données qualitatives ou quantitatives, en utilisant autant de variables que l'étude le nécessite.
Réalisation d'une étude de faisabilité en recherchant l'expertise existante disponible au sein du réseau de partenaires.
Mise en place d'un protocole d'étude, devis et préparation des contrats avec les partenaires de laboratoire.
Mettre en œuvre le plan d'étude dans un calendrier, collecter tous les réactifs nécessaires et exécuter le service.
Avez-vous besoin de plus d'informations sur la bioinformatique et les services en bioinformatique ?
Historiquement, la bioinformatique est apparue avec la compréhension que la biologie faisait appel à différent niveaux à des séquences : séquences d’acides nucléiques pour l’ADN et l’ARN, séquences d’acides aminés pour les protéines.
Comprendre, analyser et comparer des séquences font partis des fondamentaux de la biologie, et nécessitent le développement d’outils informatiques.
Le développement des technologies de séquençages ces dernières années (les technologies de NGS par exemple) a entraîner la production d’une masse importante d’information. Les différents champs d’action de la bioformatiques au service de la génomique sont les suivants :
Les techniques de séquençages produisent des séquences courtes, qu’il faut ensuite assembler. La technique de séquençage shotgun, par exemple, génère des fragments de 35 à 900 nucléotides, qu’il faut ensuite assembler. L’alignement de séquences pour un génome connu, comme le génome humain, nécessite des ressources informatiques importantes, meme si les progrès en informatiques permettent d’aller plus vite. La présence de « trous » (gaps) dans le génome est fréquent, et nécessite un travail plus ciblé dans un deuxième temps.
Dans le cas de génomes inconnus (de novo sequencing), l’alignement peut être plus complexe, et il est possible que certaines régions ne soient que très difficilement séquençables.
L’annotation est le processus de marquage des spécificités d’une séquence d’ADN : typiquement les introns et exons (séquences codantes), les séquences régulatrices, les profils de méthylation, etc.
L’analyse des séquences peut mettre en évidence des liens entre les espèces, ce qui est définie par le terme de biologie évolutive. Les phénomènes étudiés sont typiquement des duplications de gènes, des transferts horizontaux, et des comparaisons de génomes à large échelle, ce qui permet de consolider ou de confronter les méthodes taxonomiques ou physiologiques utilisées jusqu’à présent pour la classification des espèces.
Les outils de bioinformatique vont permettre de construire des populations modèles pour prédire l’évolution du système sur le long terme.
La comparaison de séquence commence par la comparaison entre deux séquences de gènes de deux organismes différents.
Les différences observées, au niveau des mutations ponctuelles d’un nucléotide aux modifications au niveau de segments chromosomaux comme de duplications, des transferts, des inversions etc. permettent de comprendre la complexité de l’évolution.
Dans le cas de certaines maladies comme les cancers, les génomes des cellules affectés sont très largement modifiés : réarrangements, mutations ponctuelles, etc.
La bioinformatique va permettre deux types d’analyses comparatives à partir de données de séquençages : entre cellules cancéreuses et cellules normales d’un organisme, et entre cellules cancéreuses d’un organisme et les cellules cancéreuses d’autres organismes. Ce type d’étude permet de classifier et de répertorier les modifications de génomes de patients atteints de cancer pour à terme, gagner du temps en termes de diagnostiques, et proposer les meilleurs traitements.
Pour plus d’information sur les outils à disposition, la Open Bioinformatics Foundation répertorie les outils, tels que Biopython, BioJS ou Bioperl.
Les développements de l’intelligence artificielle ces dernières années, notamment le machine learning et le deep learning, a été mis en application dans le domaine de la bioinformatique, et notamment dans la prédiction de structure des protéines.
Une protéine est une suite d’acides aminés structurée ainsi :
Les outils de bioinformatiques permettent, avec l’essor de l’IA, d’aller beaucoup plus loin dans l’étude et la prédiction de structures de protéines.
Les outils d’IA vont analyser les séquences primaires de protéines et extraire les informations essentielles (typiquement essentielles pour leur structure, ou très conservées). Cela va donner lieu à la prédiction de pseudo-protéines, qui font servir de référence pour une classification de protéines inconnues dans des superfamille.
Un des outils de machine learning puissant inventé en 2014 est le Generative Adversarial Network (GAN). Cet outil est utilisé pour générer des données qui seraient similaires aux données originales. Cela est particulièrement pertinent pour générer de modèles de structures tertiaires de protéines, qui seraient « similaires » ou cohérentes avec les modèles de références. Un article a utilisé des GANs pour générer des structures, qui sont vérifiées pour leur cohérence ou incohérence, et réinjectées dans le générateur. Cela permet de proposer des solutions robustes de structures, notamment dans les cas où une partie de la structure d’une protéine est manquante ou corrompue.
Les études IA peuvent également être appliquée à la modélisation des domaines d’interaction anticorps-antigène, afin de minimiser les étapes de développement chez l’animal ou par phage display.
De nombreux chercheurs ou médecins peuvent effectuer des études en bioinformatique et biostatistiques de façon ponctuelle, ou sur la durée de projets de recherche ou clinique.
Il existe des cabinets spécialisés dans les études cliniques qui proposent des analyses biostatistiques et bioinformatiques.
Les sociétés qui conduisent les essais cliniques (contract research organisation CRO) ont généralement les capacités internes de traiter les données collectées afin de constituer les dossiers réglementaires.
Au cours d'un essai clinique, différents types de données sont collectés, transformés en ensembles de données analysables pour répondre à des questions de recherche spécifiques, et utilisés pour générer diverses publications et rapports destinés à différents publics. Les biostatistiques sont utilisées pour collecter, analyser et interpréter les résultats. Ils vont assister le biostatisticien au cours des étapes suivantes :
Les données de vraie vie ou vie réelle (real-world data RWD) sont des données de patients sains et sous traitements qui proviennent de sources variées, typiquement générées directement chez le patient.
Le traitement de ces données va générer des preuves « de la vraie vie (Real-World Evidence, RWE), utiles pour les domaines suivants :
Les applications possibles de ces données sont économiquement et socialement critiques ; cela nécessite des outils et des statisticiens compétents et spécialisés.