{"id":7246,"date":"2020-03-23T12:40:48","date_gmt":"2020-03-23T12:40:48","guid":{"rendered":"https:\/\/www.kolabtree.com\/blog\/?p=7246"},"modified":"2023-04-18T11:12:54","modified_gmt":"2023-04-18T11:12:54","slug":"a-step-by-step-guide-to-dna-sequencing-data-analysis","status":"publish","type":"post","link":"https:\/\/www.kolabtree.com\/blog\/fr\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","title":{"rendered":"A Step-By-Step Guide to DNA Sequencing Data Analysis"},"content":{"rendered":"<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_45_1 counter-flat ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\">Table des mati\u00e8res<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" area-label=\"ez-toc-toggle-icon-1\"><label for=\"item-69f18ba4dce68\" aria-label=\"Table des mati\u00e8res\"><span style=\"display: flex;align-items: center;width: 35px;height: 30px;justify-content: center;direction:ltr;\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/label><input  type=\"checkbox\" id=\"item-69f18ba4dce68\"><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/www.kolabtree.com\/blog\/fr\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#Introduction\" title=\"Introduction\">Introduction<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/www.kolabtree.com\/blog\/fr\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#Quality_control_QC_of_raw_reads\" title=\"Contr\u00f4le de qualit\u00e9 (CQ) des donn\u00e9es brutes\">Contr\u00f4le de qualit\u00e9 (CQ) des donn\u00e9es brutes<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/www.kolabtree.com\/blog\/fr\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#Read_trimming\" title=\"Lire l&#039;habillage\">Lire l'habillage<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/www.kolabtree.com\/blog\/fr\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#Alignment\" title=\"Alignement\">Alignement<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/www.kolabtree.com\/blog\/fr\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#From_the_alignments\" title=\"Des alignements\">Des alignements<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/www.kolabtree.com\/blog\/fr\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#Before_you_start%E2%80%A6\" title=\"Avant de commencer...\">Avant de commencer...<\/a><\/li><\/ul><\/nav><\/div>\n<p><em><span style=\"font-weight: 300;\">Le Dr. Javier Quilez Oliete, un sp\u00e9cialiste exp\u00e9riment\u00e9 de la <a href=\"https:\/\/www.kolabtree.com\/find-an-expert\/subject\/bioinformatics\" target=\"_blank\" rel=\"noopener\">freelance bioinformatics consultant<\/a> sur Kolabtree, fournit un guide complet de l'analyse des donn\u00e9es de s\u00e9quen\u00e7age de l'ADN, y compris les outils et les logiciels utilis\u00e9s pour lire les donn\u00e9es.\u00a0<\/span><\/em><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Introduction\"><\/span><b>Introduction<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">L'acide d\u00e9soxyribonucl\u00e9ique (ADN) est la mol\u00e9cule qui porte la plupart des informations g\u00e9n\u00e9tiques. <\/span><span style=\"font-weight: 300;\">d'un organisme<\/span><span style=\"font-weight: 300;\">. (Dans certains types de virus, l'information g\u00e9n\u00e9tique est port\u00e9e par l'acide ribonucl\u00e9ique (ARN)).  Les nucl\u00e9otides (conventionnellement repr\u00e9sent\u00e9s par les lettres A, C, G ou T) sont les unit\u00e9s de base des mol\u00e9cules d'ADN. Conceptuellement, <a href=\"https:\/\/www.kolabtree.com\/find-an-expert\/subject\/dna-sequencing?utm_source=Blog&amp;utm_medium=Post&amp;utm_campaign=DNASeqGuide\">S\u00e9quen\u00e7age de l'ADN<\/a> est le processus de lecture des nucl\u00e9otides qui composent une mol\u00e9cule d'ADN (par exemple, \"GCAAACCAAT\" est une cha\u00eene d'ADN de 10 nucl\u00e9otides). Les technologies de s\u00e9quen\u00e7age actuelles produisent des millions de lectures d'ADN. <\/span><span style=\"font-weight: 300;\">dans un d\u00e9lai raisonnable et \u00e0 un co\u00fbt relativement faible. \u00c0 titre de r\u00e9f\u00e9rence, le co\u00fbt du s\u00e9quen\u00e7age d'un g\u00e9nome humain - un g\u00e9nome est l'ensemble des mol\u00e9cules d'ADN d'un organisme - a chut\u00e9 de 1,5 million d'euros \u00e0 1,5 million d'euros. <\/span><a href=\"https:\/\/www.technologyreview.com\/s\/615289\/china-bgi-100-dollar-genome\/\"><span style=\"font-weight: 300;\">Barri\u00e8re $100<\/span><\/a><span style=\"font-weight: 300;\"> et cela peut \u00eatre fait en quelques jours. Cela contraste avec la premi\u00e8re initiative de s\u00e9quen\u00e7age de la <\/span><a href=\"https:\/\/www.nature.com\/articles\/35057062\"><span style=\"font-weight: 300;\">le g\u00e9nome humain<\/span><\/a><span style=\"font-weight: 300;\">qui a \u00e9t\u00e9 achev\u00e9 en une d\u00e9cennie et dont le co\u00fbt s'\u00e9l\u00e8ve \u00e0 environ $2,7 milliards.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Cette capacit\u00e9 \u00e0 s\u00e9quencer l'ADN \u00e0 haut d\u00e9bit et \u00e0 faible co\u00fbt a permis le d\u00e9veloppement d'un nombre croissant de m\u00e9thodes et d'applications bas\u00e9es sur le s\u00e9quen\u00e7age. Par exemple, le s\u00e9quen\u00e7age de g\u00e9nomes entiers ou de leurs r\u00e9gions codant pour les prot\u00e9ines (deux approches connues respectivement sous le nom de s\u00e9quen\u00e7age du g\u00e9nome entier et de l'exome) chez des individus malades et en bonne sant\u00e9 peut faire allusion \u00e0 des alt\u00e9rations de l'ADN causant des maladies. De m\u00eame, le s\u00e9quen\u00e7age de l'ARN qui est transcrit \u00e0 partir de l'ADN - une technique connue sous le nom de s\u00e9quen\u00e7age de l'ARN - est utilis\u00e9 pour quantifier l'activit\u00e9 des g\u00e8nes et la fa\u00e7on dont elle change dans diff\u00e9rentes conditions (par exemple, sans traitement ou avec traitement). D'autre part, les m\u00e9thodes de s\u00e9quen\u00e7age par capture de la conformation des chromosomes d\u00e9tectent les interactions entre les mol\u00e9cules d'ADN proches et aident ainsi \u00e0 d\u00e9terminer la distribution spatiale des chromosomes dans la cellule.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Ces applications et d'autres du s\u00e9quen\u00e7age de l'ADN ont en commun la g\u00e9n\u00e9ration d'ensembles de donn\u00e9es de l'ordre du gigaoctet et comprenant des millions de s\u00e9quences lues. Par cons\u00e9quent, pour donner un sens aux exp\u00e9riences de s\u00e9quen\u00e7age \u00e0 haut d\u00e9bit (HTS), il faut disposer d'importantes capacit\u00e9s d'analyse des donn\u00e9es. Heureusement, des outils informatiques et statistiques sp\u00e9cialis\u00e9s et des flux d'analyse relativement standard existent pour la plupart des types de donn\u00e9es HTS. Si certaines des \u00e9tapes d'analyse (initiales) sont communes \u00e0 la plupart des types de donn\u00e9es de s\u00e9quen\u00e7age, l'analyse en aval d\u00e9pendra du type de donn\u00e9es et\/ou de l'objectif final de l'analyse. Je vous propose ci-dessous une introduction aux \u00e9tapes fondamentales de l'analyse des donn\u00e9es HTS et je vous renvoie \u00e0 des outils populaires.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Certaines des sections ci-dessous sont ax\u00e9es sur l'analyse des donn\u00e9es g\u00e9n\u00e9r\u00e9es par les technologies de s\u00e9quen\u00e7age \u00e0 lecture courte (principalement les suivantes <\/span><a href=\"https:\/\/www.illumina.com\/\"><span style=\"font-weight: 300;\">Illumina<\/span><\/a><span style=\"font-weight: 300;\">), car elles ont historiquement domin\u00e9 le march\u00e9 des HTS. Cependant, les nouvelles technologies qui g\u00e9n\u00e8rent des lectures plus longues (par ex. <\/span><a href=\"https:\/\/nanoporetech.com\/\"><span style=\"font-weight: 300;\">Oxford Nanopore Technologies<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"https:\/\/www.pacb.com\/\"><span style=\"font-weight: 300;\">PacBio<\/span><\/a><span style=\"font-weight: 300;\">) gagnent rapidement du terrain. Comme le s\u00e9quen\u00e7age \u00e0 long terme pr\u00e9sente certaines particularit\u00e9s (par exemple, des taux d'erreur plus \u00e9lev\u00e9s), des outils sp\u00e9cifiques sont d\u00e9velopp\u00e9s pour l'analyse de ce type de donn\u00e9es.\u00a0<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Quality_control_QC_of_raw_reads\"><\/span><b>Contr\u00f4le de qualit\u00e9 (CQ) des donn\u00e9es brutes<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">L'analyste avide commencera l'analyse \u00e0 partir des fichiers FASTQ ; le <\/span><a href=\"https:\/\/en.wikipedia.org\/wiki\/FASTQ_format\"><span style=\"font-weight: 300;\">Format FASTQ<\/span><\/a><span style=\"font-weight: 300;\"> est depuis longtemps la norme pour stocker les donn\u00e9es de s\u00e9quen\u00e7age \u00e0 lecture courte. Essentiellement, les fichiers FASTQ contiennent la s\u00e9quence de nucl\u00e9otides et les donn\u00e9es par base.<\/span><span style=\"font-weight: 300;\"> qualit\u00e9 d'appel pour des millions de lectures. Bien que la taille du fichier d\u00e9pende du nombre r\u00e9el de lectures, les fichiers FASTQ sont g\u00e9n\u00e9ralement volumineux (de l'ordre de m\u00e9gaoctets et gigaoctets) et compress\u00e9s. Il est \u00e0 noter que la plupart des outils qui utilisent les fichiers FASTQ en entr\u00e9e peuvent les traiter en format compress\u00e9. Ainsi, afin d'\u00e9conomiser de l'espace disque, il est recommand\u00e9 de ne pas les d\u00e9compresser. Par convention, j'assimilerai ici un fichier FASTQ \u00e0 un \u00e9chantillon de s\u00e9quen\u00e7age.<\/span><\/p>\n<p><a href=\"https:\/\/www.bioinformatics.babraham.ac.uk\/projects\/fastqc\/\"><span style=\"font-weight: 300;\">FastQC<\/span><\/a><span style=\"font-weight: 300;\"> est probablement l'outil le plus populaire pour effectuer le CQ des lectures brutes. Il peut \u00eatre ex\u00e9cut\u00e9 via une interface visuelle ou par programme. Si la premi\u00e8re option est plus pratique pour les utilisateurs qui ne se sentent pas \u00e0 l'aise avec l'environnement en ligne de commande, la seconde offre une \u00e9volutivit\u00e9 et une reproductibilit\u00e9 incomparables (pensez \u00e0 la p\u00e9nibilit\u00e9 et au risque d'erreur que repr\u00e9sente l'ex\u00e9cution manuelle de l'outil pour des dizaines de fichiers). Quoi qu'il en soit, le r\u00e9sultat principal de FastQC est un fichier <\/span><a href=\"https:\/\/www.bioinformatics.babraham.ac.uk\/projects\/fastqc\/good_sequence_short_fastqc.html\"><span style=\"font-weight: 300;\">Fichier HTML<\/span><\/a><span style=\"font-weight: 300;\"> rapportant des statistiques sommaires cl\u00e9s sur la qualit\u00e9 globale des lectures de s\u00e9quen\u00e7age brutes d'un \u00e9chantillon donn\u00e9. Inspecter des dizaines de rapports FastQC un par un est fastidieux et complique la comparaison entre les \u00e9chantillons. Par cons\u00e9quent, vous pouvez utiliser <\/span><a href=\"https:\/\/multiqc.info\/\"><span style=\"font-weight: 300;\">MultiQC<\/span><\/a><span style=\"font-weight: 300;\">qui regroupe les rapports HTML de FastQC (ainsi que d'autres outils utilis\u00e9s en aval, par exemple l'ajustement des adaptateurs, l'alignement) en un seul rapport.<\/span><span style=\"font-weight: 300;\">.<\/span><\/p>\n<div id=\"attachment_7265\" style=\"width: 712px\" class=\"wp-caption alignnone\"><img aria-describedby=\"caption-attachment-7265\" decoding=\"async\" loading=\"lazy\" class=\"wp-image-7265 size-large\" src=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-1024x576.png\" alt=\"\" width=\"702\" height=\"395\" srcset=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-1024x576.png 1024w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-300x169.png 300w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-768x432.png 768w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-1536x864.png 1536w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-1080x608.png 1080w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC.png 1600w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-300x169@2x.png 600w\" sizes=\"(max-width: 702px) 100vw, 702px\" \/><p id=\"caption-attachment-7265\" class=\"wp-caption-text\">MultiQC<\/p><\/div>\n<p><span style=\"font-weight: 300;\">Les informations CQ sont destin\u00e9es \u00e0 permettre \u00e0 l'utilisateur de juger si les \u00e9chantillons sont de bonne qualit\u00e9 et peuvent donc \u00eatre utilis\u00e9s pour les \u00e9tapes suivantes ou s'ils doivent \u00eatre rejet\u00e9s. Malheureusement, il n'existe pas de seuil consensuel bas\u00e9 sur les m\u00e9triques FastQC pour classer les \u00e9chantillons comme \u00e9tant de bonne ou de mauvaise qualit\u00e9. L'approche que j'utilise est la suivante. Je m'attends \u00e0 ce que tous les \u00e9chantillons qui sont pass\u00e9s par la m\u00eame proc\u00e9dure (par exemple, l'extraction d'ADN, la pr\u00e9paration de la biblioth\u00e8que) aient des statistiques de qualit\u00e9 similaires et une majorit\u00e9 de drapeaux \"pass\". Si certains \u00e9chantillons ont une qualit\u00e9 inf\u00e9rieure \u00e0 la moyenne, je les utiliserai quand m\u00eame dans l'analyse en aval en gardant cela \u00e0 l'esprit. D'un autre c\u00f4t\u00e9, si tous les \u00e9chantillons de l'exp\u00e9rience obtiennent syst\u00e9matiquement des drapeaux \"warning\" ou \"fail\" dans plusieurs m\u00e9triques (cf. <\/span><a href=\"https:\/\/www.bioinformatics.babraham.ac.uk\/projects\/fastqc\/bad_sequence_fastqc.html\"><span style=\"font-weight: 300;\">cet exemple<\/span><\/a><span style=\"font-weight: 300;\">), je soup\u00e7onne que quelque chose s'est mal pass\u00e9 dans l'exp\u00e9rience (par exemple, une mauvaise qualit\u00e9 d'ADN, la pr\u00e9paration de la biblioth\u00e8que, etc.) et je recommande de la r\u00e9p\u00e9ter.<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Read_trimming\"><\/span><b>Lire l'habillage<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">Le CQ des lectures brutes permet d'identifier les \u00e9chantillons probl\u00e9matiques, mais il n'am\u00e9liore pas la qualit\u00e9 r\u00e9elle des lectures. Pour ce faire, nous devons d\u00e9couper les lectures afin de supprimer les s\u00e9quences techniques et les extr\u00e9mit\u00e9s de mauvaise qualit\u00e9.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Les s\u00e9quences techniques sont des restes de la proc\u00e9dure exp\u00e9rimentale (par exemple, les adaptateurs de s\u00e9quen\u00e7age). Si ces s\u00e9quences sont adjacentes \u00e0 la v\u00e9ritable s\u00e9quence de la lecture, l'alignement (voir ci-dessous) peut faire correspondre les lectures \u00e0 une mauvaise position dans le g\u00e9nome ou diminuer la confiance dans un alignement donn\u00e9. Outre les s\u00e9quences techniques, on peut \u00e9galement vouloir \u00e9liminer les s\u00e9quences d'origine biologique si elles sont tr\u00e8s pr\u00e9sentes parmi les lectures. Par exemple, des proc\u00e9dures de pr\u00e9paration de l'ADN non optimales peuvent laisser une forte proportion d'ARN ribosomal (ARNr) converti en ADN dans l'\u00e9chantillon. \u00c0 moins que ce type d'acide nucl\u00e9ique ne soit la cible de l'exp\u00e9rience de s\u00e9quen\u00e7age, le fait de conserver les lectures d\u00e9riv\u00e9es de l'ARNr ne fera qu'augmenter la charge de calcul des \u00e9tapes en aval et risque de brouiller les r\u00e9sultats. Il convient de noter que si les niveaux de s\u00e9quences techniques, d'ARNr ou d'autres contaminants sont tr\u00e8s \u00e9lev\u00e9s, ce qui aura probablement d\u00e9j\u00e0 \u00e9t\u00e9 mis en \u00e9vidence par le CQ, il est pr\u00e9f\u00e9rable de rejeter l'ensemble de l'\u00e9chantillon de s\u00e9quen\u00e7age.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Dans le s\u00e9quen\u00e7age \u00e0 lecture courte, la s\u00e9quence d'ADN est d\u00e9termin\u00e9e un nucl\u00e9otide \u00e0 la fois (techniquement, un nucl\u00e9otide \u00e0 chaque cycle de s\u00e9quen\u00e7age). En d'autres termes, le nombre de cycles de s\u00e9quen\u00e7age d\u00e9termine la longueur de lecture. Un probl\u00e8me connu des m\u00e9thodes de s\u00e9quen\u00e7age HTS est la diminution de la pr\u00e9cision avec laquelle les nucl\u00e9otides sont d\u00e9termin\u00e9s \u00e0 mesure que les cycles de s\u00e9quen\u00e7age s'accumulent. Cela se traduit par une diminution globale de la qualit\u00e9 d'appel par base, en particulier vers la fin de la lecture. Comme cela se produit avec les s\u00e9quences techniques, essayer d'aligner des lectures qui contiennent des extr\u00e9mit\u00e9s de mauvaise qualit\u00e9 peut conduire \u00e0 un mauvais placement ou \u00e0 une mauvaise qualit\u00e9 de cartographie.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Pour supprimer les s\u00e9quences techniques\/contaminantes et les extr\u00e9mit\u00e9s de mauvaise qualit\u00e9, des outils d'\u00e9lagage de lecture tels que <\/span><a href=\"http:\/\/www.usadellab.org\/cms\/?page=trimmomatic\"><span style=\"font-weight: 300;\">Trimmomatic<\/span><\/a><span style=\"font-weight: 300;\"> et <\/span><a href=\"https:\/\/cutadapt.readthedocs.io\/en\/stable\/\"><span style=\"font-weight: 300;\">Cutadapt<\/span><\/a><span style=\"font-weight: 300;\"> existent et sont largement utilis\u00e9s. Essentiellement, ces outils \u00e9liminent les s\u00e9quences techniques (disponibles en interne et\/ou fournies par l'utilisateur) et d\u00e9coupent les lectures en fonction de leur qualit\u00e9 tout en maximisant leur longueur. Les lectures qui restent trop courtes apr\u00e8s le d\u00e9coupage sont \u00e9cart\u00e9es (les lectures excessivement courtes, par exemple &lt;36 nucl\u00e9otides, compliquent l&#039;\u00e9tape d&#039;alignement car elles sont susceptibles de correspondre \u00e0 plusieurs sites dans le g\u00e9nome). Vous pouvez regarder le pourcentage de lectures qui survivent \u00e0 l&#039;\u00e9lagage, car un taux \u00e9lev\u00e9 de lectures rejet\u00e9es est probablement un signe de mauvaise qualit\u00e9 des donn\u00e9es.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Enfin, j'ex\u00e9cute \u00e0 nouveau FastQC sur les lectures d\u00e9coup\u00e9es pour v\u00e9rifier que cette \u00e9tape a \u00e9t\u00e9 efficace et a syst\u00e9matiquement am\u00e9lior\u00e9 les mesures de contr\u00f4le.<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Alignment\"><\/span><b>Alignement<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">\u00c0 quelques exceptions pr\u00e8s (par exemple <\/span><a href=\"https:\/\/en.wikipedia.org\/wiki\/De_novo_sequence_assemblers\"><span style=\"font-weight: 300;\">assemblage de novo<\/span><\/a><span style=\"font-weight: 300;\">), l'alignement (\u00e9galement appel\u00e9 cartographie) est g\u00e9n\u00e9ralement l'\u00e9tape suivante pour la plupart des types de donn\u00e9es et des applications HTS. L'alignement des lectures consiste \u00e0 d\u00e9terminer la position dans le g\u00e9nome d'o\u00f9 provient la s\u00e9quence de la lecture (typiquement exprim\u00e9e comme chromosome:d\u00e9but-fin). Par cons\u00e9quent, \u00e0 cette \u00e9tape, il est n\u00e9cessaire d'utiliser une s\u00e9quence de r\u00e9f\u00e9rence pour aligner\/mapper les lectures.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Le choix de la s\u00e9quence de r\u00e9f\u00e9rence sera d\u00e9termin\u00e9 par de multiples facteurs. Tout d'abord, l'esp\u00e8ce dont provient l'ADN s\u00e9quenc\u00e9. Si le nombre d'esp\u00e8ces pour lesquelles une s\u00e9quence de r\u00e9f\u00e9rence de haute qualit\u00e9 est disponible augmente, ce n'est pas toujours le cas pour certains organismes moins \u00e9tudi\u00e9s. Dans ces cas, vous pouvez aligner les lectures sur une esp\u00e8ce proche sur le plan \u00e9volutif pour laquelle un g\u00e9nome de r\u00e9f\u00e9rence est disponible. Par exemple, comme il n'existe pas de s\u00e9quence de r\u00e9f\u00e9rence pour le g\u00e9nome du coyote, nous pouvons utiliser celle du chien, esp\u00e8ce \u00e9troitement apparent\u00e9e, pour l'alignement des lectures. De m\u00eame, nous pouvons toujours vouloir aligner nos lectures sur une esp\u00e8ce \u00e9troitement apparent\u00e9e pour laquelle il existe une s\u00e9quence de r\u00e9f\u00e9rence de meilleure qualit\u00e9. Par exemple, alors que le g\u00e9nome du gibbon a \u00e9t\u00e9 <\/span><a href=\"https:\/\/www.nature.com\/articles\/nature13679\"><span style=\"font-weight: 300;\">publi\u00e9 sur<\/span><\/a><span style=\"font-weight: 300;\">Le g\u00e9nome humain, quant \u00e0 lui, est fragment\u00e9 en milliers de fragments qui ne refl\u00e8tent pas enti\u00e8rement l'organisation de ce g\u00e9nome en dizaines de chromosomes ; dans ce cas, il peut \u00eatre utile d'effectuer l'alignement en utilisant la s\u00e9quence de r\u00e9f\u00e9rence humaine.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Un autre facteur \u00e0 prendre en compte est la version de l'assemblage de la s\u00e9quence de r\u00e9f\u00e9rence, puisque de nouvelles versions sont publi\u00e9es au fur et \u00e0 mesure que la s\u00e9quence est mise \u00e0 jour et am\u00e9lior\u00e9e. Il est important de noter que les coordonn\u00e9es d'un alignement donn\u00e9 peuvent varier d'une version \u00e0 l'autre. Par exemple, de multiples versions du g\u00e9nome humain peuvent \u00eatre trouv\u00e9es dans la base de donn\u00e9es de l'OMS. <\/span><a href=\"https:\/\/genome.ucsc.edu\/cgi-bin\/hgGateway?redirect=manual&amp;source=genome.ucsc.edu\"><span style=\"font-weight: 300;\">Navigateur g\u00e9nomique de l'UCSC<\/span><\/a><span style=\"font-weight: 300;\">. Dans tous les cas, je recommande fortement de migrer vers la derni\u00e8re version de l'assemblage d\u00e8s qu'elle est disponible. Cela peut causer quelques d\u00e9sagr\u00e9ments pendant la transition, car les r\u00e9sultats d\u00e9j\u00e0 existants seront relatifs aux anciennes versions, mais c'est payant \u00e0 long terme.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">En outre, le type de donn\u00e9es de s\u00e9quen\u00e7age a \u00e9galement son importance. Les lectures g\u00e9n\u00e9r\u00e9es par les protocoles DNA-seq, ChIP-seq ou Hi-C seront align\u00e9es sur la s\u00e9quence de r\u00e9f\u00e9rence du g\u00e9nome. D'autre part, comme l'ARN transcrit \u00e0 partir de l'ADN est ensuite transform\u00e9 en ARNm (c'est-\u00e0-dire que les introns sont supprim\u00e9s), de nombreuses lectures d'ARN-seq ne pourront pas \u00eatre align\u00e9es sur une s\u00e9quence de r\u00e9f\u00e9rence du g\u00e9nome. Au lieu de cela, nous devons soit les aligner sur des s\u00e9quences de r\u00e9f\u00e9rence du transcriptome, soit utiliser des aligneurs sensibles au fractionnement (voir ci-dessous) lorsque nous utilisons la s\u00e9quence du g\u00e9nome comme r\u00e9f\u00e9rence. Le choix de la source pour l'annotation de la s\u00e9quence de r\u00e9f\u00e9rence, c'est-\u00e0-dire la base de donn\u00e9es contenant les coordonn\u00e9es des g\u00e8nes, des transcrits, des centrom\u00e8res, etc. est li\u00e9 \u00e0 cette question. J'utilise g\u00e9n\u00e9ralement la base de donn\u00e9es <\/span><a href=\"https:\/\/www.gencodegenes.org\/human\/\"><span style=\"font-weight: 300;\">Annotation GENCODE<\/span><\/a><span style=\"font-weight: 300;\"> car il combine une annotation compl\u00e8te des g\u00e8nes et des s\u00e9quences de transcription.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Une longue liste d'outils d'alignement de s\u00e9quences \u00e0 lecture courte a \u00e9t\u00e9 d\u00e9velopp\u00e9e (voir la section sur l'alignement de s\u00e9quences \u00e0 lecture courte). <\/span><a href=\"https:\/\/en.wikipedia.org\/wiki\/List_of_sequence_alignment_software\"><span style=\"font-weight: 300;\">ici<\/span><\/a><span style=\"font-weight: 300;\">). Leur examen d\u00e9passe le cadre de cet article (des d\u00e9tails sur les algorithmes qui sous-tendent ces outils sont disponibles \u00e0 l'adresse suivante <\/span><a href=\"https:\/\/www.ncbi.nlm.nih.gov\/pmc\/articles\/PMC5425171\/\"><span style=\"font-weight: 300;\">ici<\/span><\/a><span style=\"font-weight: 300;\">). D'apr\u00e8s mon exp\u00e9rience, les plus populaires sont les suivants <\/span><a href=\"http:\/\/bowtie-bio.sourceforge.net\/bowtie2\/index.shtml\"><span style=\"font-weight: 300;\">Bowtie2<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"http:\/\/bio-bwa.sourceforge.net\/\"><span style=\"font-weight: 300;\">BWA<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"http:\/\/daehwankimlab.github.io\/hisat2\/\"><span style=\"font-weight: 300;\">HISAT2<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"https:\/\/github.com\/lh3\/minimap2\"><span style=\"font-weight: 300;\">Minimap2<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"https:\/\/www.ncbi.nlm.nih.gov\/pmc\/articles\/PMC3530905\/\"><span style=\"font-weight: 300;\">STAR<\/span><\/a><span style=\"font-weight: 300;\"> et <\/span><a href=\"http:\/\/ccb.jhu.edu\/software\/tophat\/index.shtml\"><span style=\"font-weight: 300;\">TopHat<\/span><\/a><span style=\"font-weight: 300;\">. Je vous recommande de choisir votre aligneur en tenant compte de facteurs cl\u00e9s tels que le type de donn\u00e9es HTS.<\/span><span style=\"font-weight: 300;\"> et l'application ainsi que l'acceptation par la communaut\u00e9, la qualit\u00e9 de la documentation et le nombre d'utilisateurs. Par exemple, on a besoin d'aligneurs comme STAR ou Bowtie2 qui sont conscients des jonctions exon-exon lors du mappage de l'ARN s\u00e9quentiel au g\u00e9nome.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">La plupart des mappeurs ont en commun la n\u00e9cessit\u00e9 d'indexer la s\u00e9quence utilis\u00e9e comme r\u00e9f\u00e9rence avant que l'alignement proprement dit n'ait lieu. Cette \u00e9tape peut prendre du temps, mais elle ne doit \u00eatre effectu\u00e9e qu'une seule fois pour chaque s\u00e9quence de r\u00e9f\u00e9rence. La plupart des mappeurs stockent les alignements dans des fichiers SAM\/BAM, qui suivent le principe de l'indexation. <\/span><a href=\"https:\/\/samtools.github.io\/hts-specs\/SAMv1.pdf\"><span style=\"font-weight: 300;\">Format SAM\/BAM<\/span><\/a><span style=\"font-weight: 300;\"> (Les fichiers BAM sont des versions binaires des fichiers SAM). L'alignement est l'une des \u00e9tapes les plus longues et les plus complexes de l'analyse des donn\u00e9es de s\u00e9quen\u00e7age et les fichiers SAM\/BAM sont lourds (de l'ordre de plusieurs gigaoctets). Il est donc important de s'assurer que vous disposez des ressources n\u00e9cessaires (voir la derni\u00e8re section ci-dessous) pour ex\u00e9cuter l'alignement dans un temps raisonnable et stocker les r\u00e9sultats. De m\u00eame, en raison de la taille et du format binaire des fichiers BAM, \u00e9vitez de les ouvrir avec des \u00e9diteurs de texte ; utilisez plut\u00f4t des commandes Unix ou des outils d\u00e9di\u00e9s tels que <\/span><a href=\"http:\/\/www.htslib.org\/\"><span style=\"font-weight: 300;\">SAMtools<\/span><\/a><span style=\"font-weight: 300;\">.<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"From_the_alignments\"><\/span><b>Des alignements<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">Je dirais qu'il n'y a pas d'\u00e9tape commune claire apr\u00e8s l'alignement, car c'est \u00e0 ce stade que chaque type de donn\u00e9es HTS et chaque application peuvent diff\u00e9rer.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Une analyse en aval courante pour les donn\u00e9es ADN-seq est l'appel de variants, c'est-\u00e0-dire l'identification des positions dans le g\u00e9nome qui varient par rapport au g\u00e9nome de r\u00e9f\u00e9rence et entre les individus. Un cadre d'analyse populaire pour cette application est <\/span><a href=\"https:\/\/gatk.broadinstitute.org\/hc\/en-us\"><span style=\"font-weight: 300;\">GATK<\/span><\/a><span style=\"font-weight: 300;\"> pour le polymorphisme d'un seul nucl\u00e9otide (SNP) ou les petites insertions\/d\u00e9l\u00e9tions (indels) (<\/span><b>Figure 2<\/b><span style=\"font-weight: 300;\">). Les variantes comprenant de plus gros morceaux d'ADN (\u00e9galement appel\u00e9es variantes structurelles) requi\u00e8rent des m\u00e9thodes d'appel sp\u00e9cifiques (cf. <\/span><a href=\"https:\/\/genomebiology.biomedcentral.com\/articles\/10.1186\/s13059-019-1720-5\"><span style=\"font-weight: 300;\">cet article<\/span><\/a><span style=\"font-weight: 300;\"> pour une comparaison compl\u00e8te). Comme pour les aligneurs, je conseille de choisir le bon outil en tenant compte de facteurs cl\u00e9s tels que le type de variants (SNP, indel ou variants structurels), l'acceptation par la communaut\u00e9, la qualit\u00e9 de la documentation et le nombre d'utilisateurs.<\/span><\/p>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"alignnone wp-image-7262 size-large\" src=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-1024x576.png\" alt=\"\" width=\"702\" height=\"395\" srcset=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-1024x576.png 1024w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-300x169.png 300w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-768x432.png 768w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-1536x864.png 1536w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-1080x608.png 1080w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk.png 1600w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-300x169@2x.png 600w\" sizes=\"(max-width: 702px) 100vw, 702px\" \/><\/p>\n<p><span style=\"font-weight: 300;\">L'application la plus fr\u00e9quente de RNA-seq est probablement la quantification de l'expression des g\u00e8nes. Historiquement, les lectures devaient \u00eatre align\u00e9es sur la s\u00e9quence de r\u00e9f\u00e9rence, puis le nombre de lectures align\u00e9es sur un g\u00e8ne ou un transcrit donn\u00e9 \u00e9tait utilis\u00e9 comme approximation pour quantifier ses niveaux d'expression. Cette approche alignement+quantification est r\u00e9alis\u00e9e par des outils tels que <\/span><a href=\"http:\/\/cole-trapnell-lab.github.io\/cufflinks\/manual\/\"><span style=\"font-weight: 300;\">Boutons de manchette<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"https:\/\/github.com\/deweylab\/RSEM\"><span style=\"font-weight: 300;\">RSEM<\/span><\/a><span style=\"font-weight: 300;\"> ou <\/span><a href=\"http:\/\/subread.sourceforge.net\/\"><span style=\"font-weight: 300;\">comptes des caract\u00e9ristiques<\/span><\/a><span style=\"font-weight: 300;\">. Cependant, cette approche a \u00e9t\u00e9 de plus en plus d\u00e9pass\u00e9e par de nouvelles m\u00e9thodes mises en \u0153uvre dans des logiciels tels que <\/span><a href=\"https:\/\/pachterlab.github.io\/kallisto\/\"><span style=\"font-weight: 300;\">Kallisto<\/span><\/a><span style=\"font-weight: 300;\"> et <\/span><a href=\"https:\/\/combine-lab.github.io\/salmon\/\"><span style=\"font-weight: 300;\">Saumon<\/span><\/a><span style=\"font-weight: 300;\">. Conceptuellement, avec de tels outils, il n'est pas n\u00e9cessaire d'aligner la s\u00e9quence compl\u00e8te d'une lecture sur la s\u00e9quence de r\u00e9f\u00e9rence. Au lieu de cela, il suffit d'aligner suffisamment de nucl\u00e9otides pour \u00eatre s\u00fbr qu'une lecture provient d'un transcrit donn\u00e9. En d'autres termes, l'approche alignement+quantification est r\u00e9duite \u00e0 une seule \u00e9tape. Cette approche est connue sous le nom de pseudo-mapping et augmente consid\u00e9rablement la vitesse de quantification de l'expression des g\u00e8nes. D'un autre c\u00f4t\u00e9, gardez \u00e0 l'esprit que le pseudo-mapping ne conviendra pas aux applications pour lesquelles l'alignement complet est n\u00e9cessaire (par exemple, l'appel de variants \u00e0 partir de donn\u00e9es RNA-seq).<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Le ChIP-seq est un autre exemple des diff\u00e9rences entre les \u00e9tapes d'analyse en aval et les outils requis pour les applications bas\u00e9es sur le s\u00e9quen\u00e7age. Les lectures g\u00e9n\u00e9r\u00e9es par cette technique seront utilis\u00e9es pour l'appel de pic, qui consiste \u00e0 d\u00e9tecter les r\u00e9gions du g\u00e9nome pr\u00e9sentant un exc\u00e8s significatif de lectures indiquant o\u00f9 la prot\u00e9ine cible est li\u00e9e. Plusieurs peak callers existent et <\/span><a href=\"https:\/\/academic.oup.com\/bib\/article\/18\/3\/441\/2453291\"><span style=\"font-weight: 300;\">cette publication<\/span><\/a><span style=\"font-weight: 300;\"> les \u00e9tudie. Comme dernier exemple, je mentionnerai les donn\u00e9es Hi-C, dans lesquelles les alignements servent d'entr\u00e9e \u00e0 des outils qui d\u00e9terminent les matrices d'interaction et, \u00e0 partir de celles-ci, les caract\u00e9ristiques 3D du g\u00e9nome. Commenter tous les essais bas\u00e9s sur le s\u00e9quen\u00e7age d\u00e9passe le cadre de cet article (pour une liste relativement compl\u00e8te, voir <\/span><a href=\"https:\/\/liorpachter.wordpress.com\/seq\/\"><span style=\"font-weight: 300;\">cet article<\/span><\/a><span style=\"font-weight: 300;\">).<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Before_you_start%E2%80%A6\"><\/span><b>Avant de commencer...<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">La partie restante de cet article aborde des aspects qui ne sont peut-\u00eatre pas strictement consid\u00e9r\u00e9s comme des \u00e9tapes de l'analyse des donn\u00e9es HTS et qui sont largement ignor\u00e9s. En revanche, je soutiens qu'il est capital que vous r\u00e9fl\u00e9chissiez aux questions pos\u00e9es en <\/span><b>Tableau 1<\/b><span style=\"font-weight: 300;\"> avant de commencer \u00e0 analyser des donn\u00e9es HTS (ou n'importe quel type de donn\u00e9es en fait), et j'ai \u00e9crit sur ces sujets <\/span><a href=\"https:\/\/www.slideshare.net\/slideshow\/embed_code\/key\/vwyxcqSsQTYBhl\"><span style=\"font-weight: 300;\">ici<\/span><\/a><span style=\"font-weight: 300;\"> et <\/span><a href=\"https:\/\/academic.oup.com\/gigascience\/article\/6\/11\/gix100\/4557140\"><span style=\"font-weight: 300;\">ici<\/span><\/a><span style=\"font-weight: 300;\">.<\/span><\/p>\n<p><b>Tableau 1<\/b><\/p>\n<table>\n<tbody>\n<tr>\n<td><b>R\u00e9fl\u00e9chissez-y<\/b><\/td>\n<td><b>Action propos\u00e9e<\/b><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">Avez-vous toutes les informations de votre \u00e9chantillon n\u00e9cessaires \u00e0 l'analyse ?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Collecter syst\u00e9matiquement les m\u00e9tadonn\u00e9es des exp\u00e9riences<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">Serez-vous capable d'identifier sans \u00e9quivoque votre \u00e9chantillon ?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">\u00c9tablir un syst\u00e8me pour attribuer \u00e0 chaque \u00e9chantillon un identifiant unique<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">O\u00f9 seront les donn\u00e9es et les r\u00e9sultats ?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Organisation structur\u00e9e et hi\u00e9rarchique des donn\u00e9es<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">Serez-vous en mesure de traiter de multiples \u00e9chantillons de mani\u00e8re transparente ?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Extensibilit\u00e9, parall\u00e9lisation, configuration automatique et modularit\u00e9 du code.<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">Est-ce que vous ou quelqu'un d'autre sera capable de reproduire les r\u00e9sultats ?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Documentez votre code et vos proc\u00e9dures !<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>&nbsp;<\/p>\n<p><span style=\"font-weight: 300;\">Comme mentionn\u00e9 ci-dessus, les donn\u00e9es brutes HTS et certains des fichiers g\u00e9n\u00e9r\u00e9s lors de leur analyse sont de l'ordre du gigaoctet, il n'est donc pas exceptionnel qu'un projet comprenant des dizaines d'\u00e9chantillons n\u00e9cessite des t\u00e9raoctets de stockage. En outre, certaines \u00e9tapes de l'analyse des donn\u00e9es HTS sont gourmandes en ressources informatiques (par exemple, l'alignement). Cependant, l'infrastructure de stockage et de calcul requise pour l'analyse des donn\u00e9es HTS est un \u00e9l\u00e9ment important qui est souvent n\u00e9glig\u00e9 ou non discut\u00e9. Par exemple, dans le cadre d'une analyse r\u00e9cente, nous avons examin\u00e9 des dizaines d'articles publi\u00e9s effectuant une analyse d'association \u00e0 l'\u00e9chelle du ph\u00e9nome (PheWAS). Les PheWAS modernes analysent 100 \u00e0 1 000 variantes g\u00e9n\u00e9tiques et ph\u00e9notypes, ce qui n\u00e9cessite un stockage de donn\u00e9es et une puissance de calcul importants. Et pourtant, pratiquement aucun des articles que nous avons examin\u00e9s n'a comment\u00e9 l'infrastructure n\u00e9cessaire \u00e0 l'analyse PheWAS. Il n'est donc pas surprenant que je vous recommande de planifier d\u00e8s le d\u00e9part les exigences de stockage et de calcul auxquelles vous serez confront\u00e9 et de les partager avec la communaut\u00e9.<\/span><\/p>\n<p><strong>Vous avez besoin d'aide pour analyser les donn\u00e9es de s\u00e9quen\u00e7age de l'ADN ? Prenez contact avec <a href=\"https:\/\/www.kolabtree.com\/find-an-expert\/subject\/bioinformatics?utm_source=Blog&amp;utm_medium=Post&amp;utm_campaign=DNASeqGuide\">freelance bioinformatics specialist<\/a> et <a href=\"https:\/\/www.kolabtree.com\/find-an-expert\/subject\/genomics\">experts en g\u00e9nomique<\/a> sur Kolabtree.\u00a0<\/strong><\/p>","protected":false},"excerpt":{"rendered":"<p>Dr. Javier Quilez Oliete, an experienced freelance bioinformatics consultant on Kolabtree, provides a comprehensive guide to DNA sequencing data analysis, including tools and software used to read data.\u00a0 Introduction Deoxyribonucleic acid (DNA) is the molecule that carries most of the genetic information of an organism. (In some types of virus, genetic information is carried by<\/p>\n<div class=\"read-more\"><a href=\"https:\/\/www.kolabtree.com\/blog\/fr\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/\" title=\"Lire la suite\">Lire la suite<\/a><\/div>","protected":false},"author":12,"featured_media":7266,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[442,398,435],"tags":[755,754],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO Premium plugin v20.1 (Yoast SEO v20.1) - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>A Step-By-Step Guide to DNA Sequencing Data Analysis<\/title>\n<meta name=\"description\" content=\"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.kolabtree.com\/blog\/fr\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/\" \/>\n<meta property=\"og:locale\" content=\"fr_FR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"A Step-By-Step Guide to DNA Sequencing Data Analysis\" \/>\n<meta property=\"og:description\" content=\"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.kolabtree.com\/blog\/fr\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/\" \/>\n<meta property=\"og:site_name\" content=\"The Kolabtree Blog\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/kolabtree\" \/>\n<meta property=\"article:published_time\" content=\"2020-03-23T12:40:48+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2023-04-18T11:12:54+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/dna-sequencing-data-analysis-guide.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"1350\" \/>\n\t<meta property=\"og:image:height\" content=\"900\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Ramya Sriram\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@kolabtree\" \/>\n<meta name=\"twitter:site\" content=\"@kolabtree\" \/>\n<meta name=\"twitter:label1\" content=\"\u00c9crit par\" \/>\n\t<meta name=\"twitter:data1\" content=\"Ramya Sriram\" \/>\n\t<meta name=\"twitter:label2\" content=\"Dur\u00e9e de lecture estim\u00e9e\" \/>\n\t<meta name=\"twitter:data2\" content=\"13 minutes\" \/>\n<!-- \/ Yoast SEO Premium plugin. -->","yoast_head_json":{"title":"A Step-By-Step Guide to DNA Sequencing Data Analysis","description":"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.kolabtree.com\/blog\/fr\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","og_locale":"fr_FR","og_type":"article","og_title":"A Step-By-Step Guide to DNA Sequencing Data Analysis","og_description":"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.","og_url":"https:\/\/www.kolabtree.com\/blog\/fr\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","og_site_name":"The Kolabtree Blog","article_publisher":"https:\/\/www.facebook.com\/kolabtree","article_published_time":"2020-03-23T12:40:48+00:00","article_modified_time":"2023-04-18T11:12:54+00:00","og_image":[{"width":1350,"height":900,"url":"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/dna-sequencing-data-analysis-guide.jpg","type":"image\/jpeg"}],"author":"Ramya Sriram","twitter_card":"summary_large_image","twitter_creator":"@kolabtree","twitter_site":"@kolabtree","twitter_misc":{"\u00c9crit par":"Ramya Sriram","Dur\u00e9e de lecture estim\u00e9e":"13 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#article","isPartOf":{"@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/"},"author":{"name":"Ramya Sriram","@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/person\/81992f5863a1b06d132a47822e7b4400"},"headline":"A Step-By-Step Guide to DNA Sequencing Data Analysis","datePublished":"2020-03-23T12:40:48+00:00","dateModified":"2023-04-18T11:12:54+00:00","mainEntityOfPage":{"@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/"},"wordCount":2769,"commentCount":0,"publisher":{"@id":"https:\/\/www.kolabtree.com\/blog\/#organization"},"keywords":["DNA Sequencing Data Analysts","Freelance Bioinformatics Consultants"],"articleSection":["Biotechnology","Data Science","Research"],"inLanguage":"fr-FR","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","url":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","name":"A Step-By-Step Guide to DNA Sequencing Data Analysis","isPartOf":{"@id":"https:\/\/www.kolabtree.com\/blog\/#website"},"datePublished":"2020-03-23T12:40:48+00:00","dateModified":"2023-04-18T11:12:54+00:00","description":"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.","breadcrumb":{"@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#breadcrumb"},"inLanguage":"fr-FR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/www.kolabtree.com\/blog\/"},{"@type":"ListItem","position":2,"name":"A Step-By-Step Guide to DNA Sequencing Data Analysis"}]},{"@type":"WebSite","@id":"https:\/\/www.kolabtree.com\/blog\/#website","url":"https:\/\/www.kolabtree.com\/blog\/","name":"The Kolabtree Blog","description":"Expert Views on Science, Innovation and Product Development","publisher":{"@id":"https:\/\/www.kolabtree.com\/blog\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.kolabtree.com\/blog\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"fr-FR"},{"@type":"Organization","@id":"https:\/\/www.kolabtree.com\/blog\/#organization","name":"Kolabtree","url":"https:\/\/www.kolabtree.com\/blog\/","logo":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/logo\/image\/","url":"","contentUrl":"","caption":"Kolabtree"},"image":{"@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/kolabtree","https:\/\/twitter.com\/kolabtree","https:\/\/instagram.com\/kolabtree","https:\/\/www.linkedin.com\/company\/kolabtree","https:\/\/en.m.wikipedia.org\/wiki\/Kolabtree"]},{"@type":"Person","@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/person\/81992f5863a1b06d132a47822e7b4400","name":"Ramya Sriram","image":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/8100b45c960ebbbbe420e8b3f250515f?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/8100b45c960ebbbbe420e8b3f250515f?s=96&d=mm&r=g","caption":"Ramya Sriram"},"description":"Ramya Sriram manages digital content and communications at Kolabtree (kolabtree.com), the world's largest freelancing platform for scientists. She has over a decade of experience in publishing, advertising and digital content creation.","url":"https:\/\/www.kolabtree.com\/blog\/fr\/author\/ramyas\/"}]}},"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/www.kolabtree.com\/blog\/fr\/wp-json\/wp\/v2\/posts\/7246"}],"collection":[{"href":"https:\/\/www.kolabtree.com\/blog\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.kolabtree.com\/blog\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/fr\/wp-json\/wp\/v2\/users\/12"}],"replies":[{"embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/fr\/wp-json\/wp\/v2\/comments?post=7246"}],"version-history":[{"count":8,"href":"https:\/\/www.kolabtree.com\/blog\/fr\/wp-json\/wp\/v2\/posts\/7246\/revisions"}],"predecessor-version":[{"id":10583,"href":"https:\/\/www.kolabtree.com\/blog\/fr\/wp-json\/wp\/v2\/posts\/7246\/revisions\/10583"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/fr\/wp-json\/wp\/v2\/media\/7266"}],"wp:attachment":[{"href":"https:\/\/www.kolabtree.com\/blog\/fr\/wp-json\/wp\/v2\/media?parent=7246"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/fr\/wp-json\/wp\/v2\/categories?post=7246"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/fr\/wp-json\/wp\/v2\/tags?post=7246"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}