{"id":7246,"date":"2020-03-23T12:40:48","date_gmt":"2020-03-23T12:40:48","guid":{"rendered":"https:\/\/www.kolabtree.com\/blog\/?p=7246"},"modified":"2023-04-18T11:12:54","modified_gmt":"2023-04-18T11:12:54","slug":"a-step-by-step-guide-to-dna-sequencing-data-analysis","status":"publish","type":"post","link":"https:\/\/www.kolabtree.com\/blog\/pt\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","title":{"rendered":"A Step-By-Step Guide to DNA Sequencing Data Analysis"},"content":{"rendered":"<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_45_1 counter-flat ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\">Tabela de Conte\u00fados<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" area-label=\"ez-toc-toggle-icon-1\"><label for=\"item-6a68d791c8cc2\" aria-label=\"Table of Content\"><span style=\"display: flex;align-items: center;width: 35px;height: 30px;justify-content: center;direction:ltr;\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/label><input  type=\"checkbox\" id=\"item-6a68d791c8cc2\"><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/www.kolabtree.com\/blog\/pt\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#Introduction\" title=\"Introdu\u00e7\u00e3o\">Introdu\u00e7\u00e3o<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/www.kolabtree.com\/blog\/pt\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#Quality_control_QC_of_raw_reads\" title=\"Controle de qualidade (QC) de leituras brutas\">Controle de qualidade (QC) de leituras brutas<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/www.kolabtree.com\/blog\/pt\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#Read_trimming\" title=\"Leia o recorte\">Leia o recorte<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/www.kolabtree.com\/blog\/pt\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#Alignment\" title=\"Alinhamento\">Alinhamento<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/www.kolabtree.com\/blog\/pt\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#From_the_alignments\" title=\"A partir dos alinhamentos\">A partir dos alinhamentos<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/www.kolabtree.com\/blog\/pt\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#Before_you_start%E2%80%A6\" title=\"Antes de come\u00e7ar...\">Antes de come\u00e7ar...<\/a><\/li><\/ul><\/nav><\/div>\n<p><em><span style=\"font-weight: 300;\">Dr. Javier Quilez Oliete, um experiente <a href=\"https:\/\/www.kolabtree.com\/find-an-expert\/subject\/bioinformatics\" target=\"_blank\" rel=\"noopener\">freelance bioinformatics consultant<\/a> no Kolabtree, fornece um guia abrangente para an\u00e1lise de dados de seq\u00fcenciamento de DNA, incluindo ferramentas e software usados para ler dados.\u00a0<\/span><\/em><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Introduction\"><\/span><b>Introdu\u00e7\u00e3o<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">O \u00e1cido desoxirribonucleico (DNA) \u00e9 a mol\u00e9cula que transporta a maior parte da informa\u00e7\u00e3o gen\u00e9tica <\/span><span style=\"font-weight: 300;\">de um organismo<\/span><span style=\"font-weight: 300;\">. (Em alguns tipos de v\u00edrus, a informa\u00e7\u00e3o gen\u00e9tica \u00e9 transportada pelo \u00e1cido ribonucleico (RNA)).  Os nucleot\u00eddeos (convencionalmente representados pelas letras A, C, G ou T) s\u00e3o as unidades b\u00e1sicas das mol\u00e9culas de DNA. Conceitualmente, <a href=\"https:\/\/www.kolabtree.com\/find-an-expert\/subject\/dna-sequencing?utm_source=Blog&amp;utm_medium=Post&amp;utm_campaign=DNASeqGuide\">Seq\u00fcenciamento de DNA<\/a> \u00e9 o processo de leitura dos nucleot\u00eddeos que comp\u00f5em uma mol\u00e9cula de DNA (por exemplo, \"GCAAACCAAT\" \u00e9 uma cadeia de 10 nucleot\u00eddeos de DNA). As tecnologias atuais de seq\u00fcenciamento produzem milh\u00f5es de leituras de DNA deste tipo. <\/span><span style=\"font-weight: 300;\">em um tempo razo\u00e1vel e a um custo relativamente baixo. Como refer\u00eancia, o custo de seq\u00fcenciar um genoma humano - um genoma \u00e9 o conjunto completo de mol\u00e9culas de DNA em um organismo - diminuiu o <\/span><a href=\"https:\/\/www.technologyreview.com\/s\/615289\/china-bgi-100-dollar-genome\/\"><span style=\"font-weight: 300;\">$100 barreira<\/span><\/a><span style=\"font-weight: 300;\"> e isso pode ser feito em quest\u00e3o de dias. Isto contrasta com a primeira iniciativa de seq\u00fcenciar o <\/span><a href=\"https:\/\/www.nature.com\/articles\/35057062\"><span style=\"font-weight: 300;\">genoma humano<\/span><\/a><span style=\"font-weight: 300;\">O projeto, que foi conclu\u00eddo em uma d\u00e9cada e teve um custo de cerca de $2,7 bilh\u00f5es.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Esta capacidade de sequenciar DNA a alto rendimento e baixo custo permitiu o desenvolvimento de um n\u00famero crescente de m\u00e9todos e aplica\u00e7\u00f5es baseadas em sequenciamento. Por exemplo, o seq\u00fcenciamento de genomas inteiros ou suas regi\u00f5es codificadoras de prote\u00ednas (duas abordagens conhecidas respectivamente como genoma inteiro e seq\u00fcenciamento de exomas) em doen\u00e7as e indiv\u00edduos saud\u00e1veis pode sugerir altera\u00e7\u00f5es de DNA causadoras de doen\u00e7as. Al\u00e9m disso, o seq\u00fcenciamento do RNA que \u00e9 transcrito do DNA - uma t\u00e9cnica conhecida como seq\u00fcenciamento de RNA - \u00e9 usada para quantificar a atividade g\u00eanica e como esta muda em diferentes condi\u00e7\u00f5es (por exemplo, sem tratamento versus tratamento). Por outro lado, os m\u00e9todos de seq\u00fcenciamento de captura da conforma\u00e7\u00e3o cromoss\u00f4mica detectam intera\u00e7\u00f5es entre mol\u00e9culas de DNA pr\u00f3ximas e assim ajudam a determinar a distribui\u00e7\u00e3o espacial dos cromossomos dentro da c\u00e9lula.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Comum a estas e outras aplica\u00e7\u00f5es de seq\u00fcenciamento de DNA \u00e9 a gera\u00e7\u00e3o de conjuntos de dados na ordem dos gigabytes e compreendendo milh\u00f5es de seq\u00fc\u00eancias de leitura. Portanto, fazer sentido para os experimentos de seq\u00fcenciamento de alta produ\u00e7\u00e3o (HTS) requer capacidades substanciais de an\u00e1lise de dados. Felizmente, existem ferramentas computacionais e estat\u00edsticas dedicadas e fluxos de trabalho de an\u00e1lise relativamente padr\u00e3o para a maioria dos tipos de dados HTS. Embora algumas das etapas (iniciais) de an\u00e1lise sejam comuns \u00e0 maioria dos tipos de dados de seq\u00fcenciamento, mais an\u00e1lise downstream depender\u00e1 do tipo de dados e\/ou do objetivo final da an\u00e1lise. A seguir, forne\u00e7o uma cartilha sobre as etapas fundamentais na an\u00e1lise dos dados HTS e me refiro a ferramentas populares.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Algumas das se\u00e7\u00f5es abaixo est\u00e3o focadas na an\u00e1lise dos dados gerados a partir de tecnologias de sequenciamento de leitura curta (em sua maioria <\/span><a href=\"https:\/\/www.illumina.com\/\"><span style=\"font-weight: 300;\">Illumina<\/span><\/a><span style=\"font-weight: 300;\">), j\u00e1 que estes dominaram historicamente o mercado HTS. Entretanto, tecnologias mais novas que geram leituras mais longas (por exemplo <\/span><a href=\"https:\/\/nanoporetech.com\/\"><span style=\"font-weight: 300;\">Oxford Nanopore Technologies<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"https:\/\/www.pacb.com\/\"><span style=\"font-weight: 300;\">PacBio<\/span><\/a><span style=\"font-weight: 300;\">) est\u00e3o ganhando terreno rapidamente. Como o sequenciamento de leitura longa tem algumas particularidades (por exemplo, taxas de erro mais altas), ferramentas espec\u00edficas est\u00e3o sendo desenvolvidas para a an\u00e1lise deste tipo de dados.\u00a0<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Quality_control_QC_of_raw_reads\"><\/span><b>Controle de qualidade (QC) de leituras brutas<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">O analista ansioso iniciar\u00e1 a an\u00e1lise a partir dos arquivos FASTQ; o <\/span><a href=\"https:\/\/en.wikipedia.org\/wiki\/FASTQ_format\"><span style=\"font-weight: 300;\">Formato FASTQ<\/span><\/a><span style=\"font-weight: 300;\"> tem sido por muito tempo o padr\u00e3o para armazenar dados de seq\u00fcenciamento de leitura curta. Em ess\u00eancia, os arquivos FASTQ cont\u00eam a seq\u00fc\u00eancia de nucleot\u00eddeos e a seq\u00fc\u00eancia por base<\/span><span style=\"font-weight: 300;\"> chamando qualidade para milh\u00f5es de leituras. Embora o tamanho do arquivo dependa do n\u00famero real de leituras, os arquivos FASTQ s\u00e3o tipicamente grandes (na ordem de megabytes e gigabytes) e comprimidos. Note que a maioria das ferramentas que usam arquivos FASTQ como entrada podem manuse\u00e1-los em formato comprimido, portanto, para economizar espa\u00e7o em disco, \u00e9 recomend\u00e1vel n\u00e3o descomprimi-los. Como uma conven\u00e7\u00e3o, aqui vou equiparar um arquivo FASTQ a uma amostra sequencial.<\/span><\/p>\n<p><a href=\"https:\/\/www.bioinformatics.babraham.ac.uk\/projects\/fastqc\/\"><span style=\"font-weight: 300;\">FastQC<\/span><\/a><span style=\"font-weight: 300;\"> \u00e9 provavelmente a ferramenta mais popular para realizar o CQ das leituras em bruto. Ela pode ser executada atrav\u00e9s de uma interface visual ou program\u00e1tica. Enquanto a primeira op\u00e7\u00e3o pode ser mais conveniente para usu\u00e1rios que n\u00e3o se sentem confort\u00e1veis com o ambiente de linha de comando, a segunda oferece escalabilidade e reprodutibilidade incompar\u00e1veis (pense no qu\u00e3o tedioso e propenso a erros pode ser executar manualmente a ferramenta para dezenas de arquivos). De qualquer forma, a principal sa\u00edda do FastQC \u00e9 um <\/span><a href=\"https:\/\/www.bioinformatics.babraham.ac.uk\/projects\/fastqc\/good_sequence_short_fastqc.html\"><span style=\"font-weight: 300;\">Arquivo HTML<\/span><\/a><span style=\"font-weight: 300;\"> relatando as principais estat\u00edsticas resumidas sobre a qualidade geral da seq\u00fc\u00eancia bruta lida a partir de uma determinada amostra. A inspe\u00e7\u00e3o de dezenas de relat\u00f3rios FastQC um a um \u00e9 tediosa e complica a compara\u00e7\u00e3o entre as amostras. Portanto, voc\u00ea pode querer usar <\/span><a href=\"https:\/\/multiqc.info\/\"><span style=\"font-weight: 300;\">MultiQC<\/span><\/a><span style=\"font-weight: 300;\">que agrega os relat\u00f3rios HTML do FastQC (assim como de outras ferramentas utilizadas a jusante, por exemplo, corte do adaptador, alinhamento) em um \u00fanico relat\u00f3rio<\/span><span style=\"font-weight: 300;\">.<\/span><\/p>\n<div id=\"attachment_7265\" style=\"width: 712px\" class=\"wp-caption alignnone\"><img aria-describedby=\"caption-attachment-7265\" decoding=\"async\" loading=\"lazy\" class=\"wp-image-7265 size-large\" src=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-1024x576.png\" alt=\"\" width=\"702\" height=\"395\" srcset=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-1024x576.png 1024w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-300x169.png 300w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-768x432.png 768w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-1536x864.png 1536w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-1080x608.png 1080w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC.png 1600w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-300x169@2x.png 600w\" sizes=\"(max-width: 702px) 100vw, 702px\" \/><p id=\"caption-attachment-7265\" class=\"wp-caption-text\">MultiQC<\/p><\/div>\n<p><span style=\"font-weight: 300;\">As informa\u00e7\u00f5es de CQ destinam-se a permitir ao usu\u00e1rio julgar se as amostras t\u00eam boa qualidade e podem, portanto, ser utilizadas para as etapas subseq\u00fcentes ou se precisam ser descartadas. Infelizmente, n\u00e3o h\u00e1 um limiar de consenso baseado na m\u00e9trica FastQC para classificar as amostras como de boa ou m\u00e1 qualidade. A abordagem que eu utilizo \u00e9 a seguinte. Espero que todas as amostras que passaram pelo mesmo procedimento (por exemplo, extra\u00e7\u00e3o de DNA, prepara\u00e7\u00e3o da biblioteca) tenham estat\u00edsticas de qualidade semelhantes e uma maioria de bandeiras de \"aprova\u00e7\u00e3o\". Se algumas amostras tiverem qualidade inferior \u00e0 m\u00e9dia, eu ainda as usarei na an\u00e1lise a jusante tendo isto em mente. Por outro lado, se todas as amostras da experi\u00eancia receberem sistematicamente bandeiras de \"aviso\" ou \"falha\" em m\u00faltiplas m\u00e9tricas (ver <\/span><a href=\"https:\/\/www.bioinformatics.babraham.ac.uk\/projects\/fastqc\/bad_sequence_fastqc.html\"><span style=\"font-weight: 300;\">este exemplo<\/span><\/a><span style=\"font-weight: 300;\">), suspeito que algo deu errado na experi\u00eancia (por exemplo, m\u00e1 qualidade do DNA, prepara\u00e7\u00e3o da biblioteca, etc.) e recomendo que seja repetido.<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Read_trimming\"><\/span><b>Leia o recorte<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">O CQ de leituras em bruto ajuda a identificar amostras problem\u00e1ticas, mas n\u00e3o melhora a qualidade real das leituras. Para fazer isso, precisamos aparar as leituras para remover seq\u00fc\u00eancias t\u00e9cnicas e fins de baixa qualidade.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Seq\u00fc\u00eancias t\u00e9cnicas s\u00e3o sobras do procedimento experimental (por exemplo, adaptadores de seq\u00fcenciamento). Se tais seq\u00fc\u00eancias forem adjacentes \u00e0 seq\u00fc\u00eancia verdadeira da leitura, o alinhamento (ver abaixo) pode mapear leituras para a posi\u00e7\u00e3o errada no genoma ou diminuir a confian\u00e7a em um determinado alinhamento. Al\u00e9m das seq\u00fc\u00eancias t\u00e9cnicas, podemos tamb\u00e9m querer remover seq\u00fc\u00eancias de origem biol\u00f3gica se estas estiverem altamente presentes entre as leituras. Por exemplo, procedimentos sub\u00f3timos de prepara\u00e7\u00e3o do DNA podem deixar uma alta propor\u00e7\u00e3o de RNA riboss\u00f4mico convertido em DNA (rRNA) na amostra. A menos que este tipo de \u00e1cido nucleico seja o alvo do experimento de seq\u00fcenciamento, manter leituras derivadas do rRNA apenas aumentar\u00e1 a carga computacional das etapas a jusante e pode confundir os resultados. Note que, se os n\u00edveis de seq\u00fc\u00eancias t\u00e9cnicas, rRNA ou outro contaminante forem muito altos, o que provavelmente j\u00e1 ter\u00e1 sido destacado pelo CQ, voc\u00ea pode querer descartar toda a amostra sequenciada.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">No sequenciamento de leitura curta, a seq\u00fc\u00eancia de DNA \u00e9 determinada um nucleot\u00eddeo de cada vez (tecnicamente, um nucleot\u00eddeo a cada ciclo de sequenciamento). Em outras palavras, o n\u00famero de ciclos de seq\u00fcenciamento determina a dura\u00e7\u00e3o da leitura. Uma quest\u00e3o conhecida dos m\u00e9todos de seq\u00fcenciamento HTS \u00e9 a decad\u00eancia da precis\u00e3o com que os nucleot\u00eddeos s\u00e3o determinados \u00e0 medida que os ciclos de seq\u00fcenciamento se acumulam. Isto se reflete em uma diminui\u00e7\u00e3o geral da qualidade de chamada por base, especialmente no final da leitura. Como acontece com as seq\u00fc\u00eancias t\u00e9cnicas, tentar alinhar leituras que cont\u00eam pontas de baixa qualidade pode levar a uma m\u00e1 coloca\u00e7\u00e3o ou m\u00e1 qualidade de mapeamento.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Para remover seq\u00fc\u00eancias t\u00e9cnicas\/contaminantes e fins de baixa qualidade, leia ferramentas de corte como <\/span><a href=\"http:\/\/www.usadellab.org\/cms\/?page=trimmomatic\"><span style=\"font-weight: 300;\">Trimmomatic<\/span><\/a><span style=\"font-weight: 300;\"> e <\/span><a href=\"https:\/\/cutadapt.readthedocs.io\/en\/stable\/\"><span style=\"font-weight: 300;\">Cutadapt<\/span><\/a><span style=\"font-weight: 300;\"> existem e s\u00e3o amplamente utilizadas. Em ess\u00eancia, tais ferramentas remover\u00e3o seq\u00fc\u00eancias t\u00e9cnicas (dispon\u00edveis internamente e\/ou fornecidas pelo usu\u00e1rio) e leituras de acabamento baseadas na qualidade enquanto maximizam o comprimento de leitura. As leituras que s\u00e3o deixadas muito curtas ap\u00f3s o corte s\u00e3o descartadas (leituras excessivamente curtas, por exemplo, &lt;36 nucleot\u00eddeos, complicam a etapa de alinhamento, j\u00e1 que estes provavelmente mapear\u00e3o para m\u00faltiplos locais no genoma). Voc\u00ea pode querer olhar a porcentagem de leituras que sobrevivem ao corte, pois uma alta taxa de leituras descartadas \u00e9 provavelmente um sinal de dados de m\u00e1 qualidade.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Finalmente, eu normalmente volto a executar FastQC nas leituras aparadas para verificar se este passo foi eficaz e melhorou sistematicamente as m\u00e9tricas de QC.<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Alignment\"><\/span><b>Alinhamento<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">Com exce\u00e7\u00f5es (por exemplo <\/span><a href=\"https:\/\/en.wikipedia.org\/wiki\/De_novo_sequence_assemblers\"><span style=\"font-weight: 300;\">de novo assembl\u00e9ia<\/span><\/a><span style=\"font-weight: 300;\">), o alinhamento (tamb\u00e9m referido como mapeamento) \u00e9 normalmente o pr\u00f3ximo passo para a maioria dos tipos de dados e aplica\u00e7\u00f5es HTS. O alinhamento de leitura consiste em determinar a posi\u00e7\u00e3o no genoma do qual deriva a seq\u00fc\u00eancia de leitura (tipicamente expressa como cromossomo: start-end). Portanto, nesta etapa exigimos o uso de uma seq\u00fc\u00eancia de refer\u00eancia para alinhar\/mapear as leituras.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">A escolha da seq\u00fc\u00eancia de refer\u00eancia ser\u00e1 determinada por m\u00faltiplos fatores. Para um, a esp\u00e9cie da qual o DNA sequenciado \u00e9 derivado. Embora o n\u00famero de esp\u00e9cies com uma seq\u00fc\u00eancia de refer\u00eancia de alta qualidade dispon\u00edvel esteja aumentando, este pode ainda n\u00e3o ser o caso para alguns organismos menos estudados. Nesses casos, voc\u00ea pode querer alinhar leituras com uma esp\u00e9cie evolutivamente pr\u00f3xima para a qual um genoma de refer\u00eancia est\u00e1 dispon\u00edvel. Por exemplo, como n\u00e3o h\u00e1 uma seq\u00fc\u00eancia de refer\u00eancia para o genoma do coiote, podemos usar a do c\u00e3o estreitamente relacionado para o alinhamento de leitura. Da mesma forma, podemos ainda querer alinhar nossas leituras a uma esp\u00e9cie intimamente relacionada para a qual existe uma seq\u00fc\u00eancia de refer\u00eancia de maior qualidade. Por exemplo, enquanto o genoma do gib\u00e3o tem sido <\/span><a href=\"https:\/\/www.nature.com\/articles\/nature13679\"><span style=\"font-weight: 300;\">publicado<\/span><\/a><span style=\"font-weight: 300;\">A organiza\u00e7\u00e3o do genoma \u00e9 dividida em milhares de fragmentos que n\u00e3o recapitulam completamente a organiza\u00e7\u00e3o daquele genoma em dezenas de cromossomos; nesse caso, realizar o alinhamento usando a seq\u00fc\u00eancia de refer\u00eancia humana pode ser ben\u00e9fico.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Outro fator a ser considerado \u00e9 a vers\u00e3o da montagem da seq\u00fc\u00eancia de refer\u00eancia, uma vez que novas vers\u00f5es s\u00e3o lan\u00e7adas \u00e0 medida que a seq\u00fc\u00eancia \u00e9 atualizada e melhorada. \u00c9 importante notar que as coordenadas de um determinado alinhamento podem variar entre as vers\u00f5es. Por exemplo, v\u00e1rias vers\u00f5es do genoma humano podem ser encontradas no <\/span><a href=\"https:\/\/genome.ucsc.edu\/cgi-bin\/hgGateway?redirect=manual&amp;source=genome.ucsc.edu\"><span style=\"font-weight: 300;\">Navegador de Genoma da UCSC<\/span><\/a><span style=\"font-weight: 300;\">. Em qualquer esp\u00e9cie, eu sou fortemente a favor da migra\u00e7\u00e3o para a mais nova vers\u00e3o de montagem, uma vez que esta seja totalmente liberada. Isto pode causar alguns transtornos durante a transi\u00e7\u00e3o, pois os resultados j\u00e1 existentes ser\u00e3o relativos \u00e0s vers\u00f5es mais antigas, mas compensa a longo prazo.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Al\u00e9m disso, o tipo de dados de seq\u00fcenciamento tamb\u00e9m importa. As leituras geradas a partir dos protocolos DNA-seq, ChIP-seq ou Hi-C ser\u00e3o alinhadas \u00e0 seq\u00fc\u00eancia de refer\u00eancia do genoma. Por outro lado, como o RNA transcrito do DNA \u00e9 processado posteriormente em mRNA (ou seja, introns removidos), muitas leituras de RNA-seq falhar\u00e3o no alinhamento com uma seq\u00fc\u00eancia de refer\u00eancia do genoma. Em vez disso, precisamos alinh\u00e1-los para transcriptoma seq\u00fc\u00eancias de refer\u00eancia ou usar alinhadores sens\u00edveis \u00e0 divis\u00e3o (veja abaixo) ao usar a seq\u00fc\u00eancia de genoma como refer\u00eancia. Relacionado a isto est\u00e1 a escolha da fonte para a anota\u00e7\u00e3o da seq\u00fc\u00eancia de refer\u00eancia, ou seja, o banco de dados com as coordenadas dos genes, transcri\u00e7\u00f5es, centr\u00f4meros, etc. Eu normalmente uso o <\/span><a href=\"https:\/\/www.gencodegenes.org\/human\/\"><span style=\"font-weight: 300;\">Anota\u00e7\u00e3o GENCODE<\/span><\/a><span style=\"font-weight: 300;\"> pois combina anota\u00e7\u00f5es gen\u00e9ticas abrangentes e seq\u00fc\u00eancias de transcri\u00e7\u00e3o.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Uma longa lista de ferramentas de alinhamento de sequ\u00eancias de leitura curta foi desenvolvida (veja a se\u00e7\u00e3o de alinhamento de sequ\u00eancias de leitura curta <\/span><a href=\"https:\/\/en.wikipedia.org\/wiki\/List_of_sequence_alignment_software\"><span style=\"font-weight: 300;\">aqui<\/span><\/a><span style=\"font-weight: 300;\">). Revis\u00e1-las est\u00e1 al\u00e9m do escopo deste artigo (detalhes sobre os algoritmos por tr\u00e1s destas ferramentas podem ser encontrados <\/span><a href=\"https:\/\/www.ncbi.nlm.nih.gov\/pmc\/articles\/PMC5425171\/\"><span style=\"font-weight: 300;\">aqui<\/span><\/a><span style=\"font-weight: 300;\">). Em minha experi\u00eancia, entre as mais populares est\u00e3o <\/span><a href=\"http:\/\/bowtie-bio.sourceforge.net\/bowtie2\/index.shtml\"><span style=\"font-weight: 300;\">Bowtie2<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"http:\/\/bio-bwa.sourceforge.net\/\"><span style=\"font-weight: 300;\">BWA<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"http:\/\/daehwankimlab.github.io\/hisat2\/\"><span style=\"font-weight: 300;\">HISAT2<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"https:\/\/github.com\/lh3\/minimap2\"><span style=\"font-weight: 300;\">Minimap2<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"https:\/\/www.ncbi.nlm.nih.gov\/pmc\/articles\/PMC3530905\/\"><span style=\"font-weight: 300;\">STAR<\/span><\/a><span style=\"font-weight: 300;\"> e <\/span><a href=\"http:\/\/ccb.jhu.edu\/software\/tophat\/index.shtml\"><span style=\"font-weight: 300;\">TopHat<\/span><\/a><span style=\"font-weight: 300;\">. Minha recomenda\u00e7\u00e3o \u00e9 que voc\u00ea escolha seu alinhador com base em fatores chave como o tipo de dados HTS<\/span><span style=\"font-weight: 300;\"> e aplica\u00e7\u00e3o, assim como aceita\u00e7\u00e3o pela comunidade, qualidade da documenta\u00e7\u00e3o e n\u00famero de usu\u00e1rios. Por exemplo, s\u00e3o necess\u00e1rios alinhadores como STAR ou Bowtie2 que estejam conscientes das jun\u00e7\u00f5es exon-exon ao mapear o RNA-seq para o genoma.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Comum \u00e0 maioria dos mapeadores \u00e9 a necessidade de indexar a seq\u00fc\u00eancia utilizada como refer\u00eancia antes que o alinhamento real ocorra. Esta etapa pode ser demorada, mas s\u00f3 precisa ser feita uma vez para cada seq\u00fc\u00eancia de refer\u00eancia. A maioria dos mapeadores ir\u00e1 armazenar alinhamentos em arquivos SAM\/BAM, que seguem a <\/span><a href=\"https:\/\/samtools.github.io\/hts-specs\/SAMv1.pdf\"><span style=\"font-weight: 300;\">Formato SAM\/BAM<\/span><\/a><span style=\"font-weight: 300;\"> (Arquivos BAM s\u00e3o vers\u00f5es bin\u00e1rias de arquivos SAM). O alinhamento est\u00e1 entre as etapas mais demoradas e computacionais na an\u00e1lise dos dados de seq\u00fcenciamento e os arquivos SAM\/BAM s\u00e3o pesados (na ordem de gigabytes). Portanto, \u00e9 importante garantir que voc\u00ea tenha os recursos necess\u00e1rios (veja a se\u00e7\u00e3o final abaixo) para executar o alinhamento em um tempo razo\u00e1vel e armazenar os resultados. Da mesma forma, devido ao tamanho e formato bin\u00e1rio dos arquivos BAM, evite abri-los com editores de texto; em vez disso, use comandos Unix ou ferramentas dedicadas como <\/span><a href=\"http:\/\/www.htslib.org\/\"><span style=\"font-weight: 300;\">SAMtools<\/span><\/a><span style=\"font-weight: 300;\">.<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"From_the_alignments\"><\/span><b>A partir dos alinhamentos<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">Eu diria que n\u00e3o h\u00e1 um claro passo comum ap\u00f3s o alinhamento, pois neste ponto \u00e9 onde cada tipo de dado HTS e aplica\u00e7\u00e3o pode diferir.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Uma an\u00e1lise downstream comum para dados de DNA-seq \u00e9 a chamada variante, ou seja, a identifica\u00e7\u00e3o de posi\u00e7\u00f5es no genoma que variam em rela\u00e7\u00e3o \u00e0 refer\u00eancia do genoma e entre indiv\u00edduos. Uma estrutura de an\u00e1lise popular para esta aplica\u00e7\u00e3o \u00e9 <\/span><a href=\"https:\/\/gatk.broadinstitute.org\/hc\/en-us\"><span style=\"font-weight: 300;\">GATK<\/span><\/a><span style=\"font-weight: 300;\"> para polimorfismo de nucleot\u00eddeos simples (SNP) ou pequenas inser\u00e7\u00f5es\/dele\u00e7\u00f5es (indels) (<\/span><b>Figura 2<\/b><span style=\"font-weight: 300;\">). As variantes que compreendem peda\u00e7os maiores de DNA (tamb\u00e9m referidas como variantes estruturais) requerem m\u00e9todos de chamada dedicados (ver <\/span><a href=\"https:\/\/genomebiology.biomedcentral.com\/articles\/10.1186\/s13059-019-1720-5\"><span style=\"font-weight: 300;\">este artigo<\/span><\/a><span style=\"font-weight: 300;\"> para uma compara\u00e7\u00e3o abrangente). Como com os alinhadores, aconselho selecionar a ferramenta correta considerando fatores-chave como o tipo de variantes (SNP, indel ou variantes estruturais), aceita\u00e7\u00e3o pela comunidade, qualidade da documenta\u00e7\u00e3o e n\u00famero de usu\u00e1rios.<\/span><\/p>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"alignnone wp-image-7262 size-large\" src=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-1024x576.png\" alt=\"\" width=\"702\" height=\"395\" srcset=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-1024x576.png 1024w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-300x169.png 300w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-768x432.png 768w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-1536x864.png 1536w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-1080x608.png 1080w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk.png 1600w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-300x169@2x.png 600w\" sizes=\"(max-width: 702px) 100vw, 702px\" \/><\/p>\n<p><span style=\"font-weight: 300;\">Provavelmente a aplica\u00e7\u00e3o mais freq\u00fcente do RNA-seq \u00e9 a quantifica\u00e7\u00e3o da express\u00e3o g\u00eanica. Historicamente, as leituras precisavam ser alinhadas \u00e0 seq\u00fc\u00eancia de refer\u00eancia e ent\u00e3o o n\u00famero de leituras alinhadas a um determinado gene ou transcri\u00e7\u00e3o era usado como um proxy para quantificar seus n\u00edveis de express\u00e3o. Esta abordagem de alinhamento+quantifica\u00e7\u00e3o \u00e9 realizada por ferramentas como <\/span><a href=\"http:\/\/cole-trapnell-lab.github.io\/cufflinks\/manual\/\"><span style=\"font-weight: 300;\">Bot\u00f5es de punho<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"https:\/\/github.com\/deweylab\/RSEM\"><span style=\"font-weight: 300;\">RSEM<\/span><\/a><span style=\"font-weight: 300;\"> ou <\/span><a href=\"http:\/\/subread.sourceforge.net\/\"><span style=\"font-weight: 300;\">caracter\u00edsticasCounts<\/span><\/a><span style=\"font-weight: 300;\">. Entretanto, a abordagem scuh tem sido cada vez mais superada por novos m\u00e9todos implementados em software, como <\/span><a href=\"https:\/\/pachterlab.github.io\/kallisto\/\"><span style=\"font-weight: 300;\">Kallisto<\/span><\/a><span style=\"font-weight: 300;\"> e <\/span><a href=\"https:\/\/combine-lab.github.io\/salmon\/\"><span style=\"font-weight: 300;\">Salm\u00e3o<\/span><\/a><span style=\"font-weight: 300;\">. Conceptualmente, com tais ferramentas, a seq\u00fc\u00eancia completa de uma leitura n\u00e3o precisa ser alinhada com a seq\u00fc\u00eancia de refer\u00eancia. Em vez disso, precisamos apenas alinhar nucleot\u00eddeos suficientes para ter certeza de que uma leitura se originou de uma determinada transcri\u00e7\u00e3o. Dito de forma simples, a abordagem alinhamento+quantifica\u00e7\u00e3o \u00e9 reduzida a uma \u00fanica etapa. Esta abordagem \u00e9 conhecida como pseudo-mapeamento e aumenta muito a velocidade da quantifica\u00e7\u00e3o da express\u00e3o g\u00eanica. Por outro lado, tenha em mente que o pseudo-mapeamento n\u00e3o ser\u00e1 adequado para aplica\u00e7\u00f5es onde o alinhamento completo \u00e9 necess\u00e1rio (por exemplo, chamada de variante a partir de dados do RNA-seq).<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Outro exemplo das diferen\u00e7as nas etapas de an\u00e1lise downstream e as ferramentas necess\u00e1rias para a aplica\u00e7\u00e3o baseada em seq\u00fcenciamento \u00e9 o ChIP-seq. As leituras geradas com tal t\u00e9cnica ser\u00e3o usadas para a chamada de pico, que consiste em detectar regi\u00f5es no genoma com um excesso significativo de leituras que indicam onde a prote\u00edna alvo est\u00e1 ligada. Existem v\u00e1rios picos de chamada e <\/span><a href=\"https:\/\/academic.oup.com\/bib\/article\/18\/3\/441\/2453291\"><span style=\"font-weight: 300;\">esta publica\u00e7\u00e3o<\/span><\/a><span style=\"font-weight: 300;\"> os pesquisa. Como exemplo final mencionarei os dados Hi-C, nos quais s\u00e3o usados alinhamentos como entrada para ferramentas que determinam as matrizes de intera\u00e7\u00e3o e, a partir delas, as caracter\u00edsticas 3D do genoma. Comentando todos os ensaios baseados em seq\u00fcenciamento al\u00e9m do escopo deste artigo (para uma lista relativamente completa, veja <\/span><a href=\"https:\/\/liorpachter.wordpress.com\/seq\/\"><span style=\"font-weight: 300;\">este artigo<\/span><\/a><span style=\"font-weight: 300;\">).<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Before_you_start%E2%80%A6\"><\/span><b>Antes de come\u00e7ar...<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">A parte restante deste artigo toca em aspectos que podem n\u00e3o ser estritamente considerados como passos na an\u00e1lise dos dados HTS e que s\u00e3o em grande parte ignorados. Em contraste, eu argumento que \u00e9 capital que voc\u00ea pense sobre as quest\u00f5es colocadas em <\/span><b>Tabela 1<\/b><span style=\"font-weight: 300;\"> antes de come\u00e7ar a analisar os dados HTS (ou qualquer tipo de dado de fato), e eu escrevi sobre estes t\u00f3picos <\/span><a href=\"https:\/\/www.slideshare.net\/slideshow\/embed_code\/key\/vwyxcqSsQTYBhl\"><span style=\"font-weight: 300;\">aqui<\/span><\/a><span style=\"font-weight: 300;\"> e <\/span><a href=\"https:\/\/academic.oup.com\/gigascience\/article\/6\/11\/gix100\/4557140\"><span style=\"font-weight: 300;\">aqui<\/span><\/a><span style=\"font-weight: 300;\">.<\/span><\/p>\n<p><b>Tabela 1<\/b><\/p>\n<table>\n<tbody>\n<tr>\n<td><b>Pense sobre isso<\/b><\/td>\n<td><b>A\u00e7\u00e3o proposta<\/b><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">Voc\u00ea tem todas as informa\u00e7\u00f5es de sua amostra necess\u00e1rias para a an\u00e1lise?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Coletar sistematicamente os metadados dos experimentos<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">Voc\u00ea ser\u00e1 capaz de identificar inequivocamente sua amostra?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Estabelecer um sistema para atribuir a cada amostra um identificador \u00fanico<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">Onde estar\u00e3o os dados e os resultados?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Organiza\u00e7\u00e3o estruturada e hier\u00e1rquica dos dados<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">Voc\u00ea ser\u00e1 capaz de processar v\u00e1rias amostras sem problemas?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Escalabilidade, paraleliza\u00e7\u00e3o, configura\u00e7\u00e3o autom\u00e1tica e modularidade do c\u00f3digo<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">Voc\u00ea ou qualquer outra pessoa ser\u00e1 capaz de reproduzir os resultados?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Documente seu c\u00f3digo e procedimentos!<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>&nbsp;<\/p>\n<p><span style=\"font-weight: 300;\">Como mencionado acima, os dados brutos do HTS e alguns dos arquivos gerados durante suas an\u00e1lises est\u00e3o na ordem de gigabytes, portanto n\u00e3o \u00e9 excepcional que um projeto que inclua dezenas de amostras exija terabytes de armazenamento. Al\u00e9m disso, algumas etapas na an\u00e1lise dos dados HTS s\u00e3o computacionalmente intensivas (por exemplo, alinhamento). Entretanto, a infra-estrutura de armazenamento e computa\u00e7\u00e3o necess\u00e1ria para a an\u00e1lise de dados HTS \u00e9 uma considera\u00e7\u00e3o importante e muitas vezes \u00e9 negligenciada ou n\u00e3o discutida. Como exemplo, como parte de uma an\u00e1lise recente, revisamos dezenas de artigos publicados que realizam an\u00e1lise de associa\u00e7\u00e3o fenom\u00e9rica (PheWAS). O PheWAS moderno analisa 100-1.000s tanto de variantes gen\u00e9ticas quanto de fen\u00f3tipos, o que resulta em um importante armazenamento de dados e poder computacional. E ainda assim, praticamente nenhum dos artigos que revisamos comentou sobre a infra-estrutura necess\u00e1ria para a an\u00e1lise PheWAS. N\u00e3o surpreendentemente, minha recomenda\u00e7\u00e3o \u00e9 que voc\u00ea planeje com anteced\u00eancia os requisitos de armazenamento e computa\u00e7\u00e3o que enfrentar\u00e1 e os compartilhe com a comunidade.<\/span><\/p>\n<p><strong>Precisa de ajuda na an\u00e1lise dos dados de seq\u00fcenciamento de DNA? Entre em contato com <a href=\"https:\/\/www.kolabtree.com\/find-an-expert\/subject\/bioinformatics?utm_source=Blog&amp;utm_medium=Post&amp;utm_campaign=DNASeqGuide\">freelance bioinformatics specialist<\/a> e <a href=\"https:\/\/www.kolabtree.com\/find-an-expert\/subject\/genomics\">especialistas em gen\u00f4mica<\/a> em Kolabtree.\u00a0<\/strong><\/p>","protected":false},"excerpt":{"rendered":"<p>Dr. Javier Quilez Oliete, an experienced freelance bioinformatics consultant on Kolabtree, provides a comprehensive guide to DNA sequencing data analysis, including tools and software used to read data.\u00a0 Introduction Deoxyribonucleic acid (DNA) is the molecule that carries most of the genetic information of an organism. (In some types of virus, genetic information is carried by<\/p>\n<div class=\"read-more\"><a href=\"https:\/\/www.kolabtree.com\/blog\/pt\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/\" title=\"Leia mais\">Leia mais<\/a><\/div>","protected":false},"author":12,"featured_media":7266,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[442,398,435],"tags":[755,754],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO Premium plugin v20.1 (Yoast SEO v20.1) - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>A Step-By-Step Guide to DNA Sequencing Data Analysis<\/title>\n<meta name=\"description\" content=\"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.kolabtree.com\/blog\/pt\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/\" \/>\n<meta property=\"og:locale\" content=\"pt_BR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"A Step-By-Step Guide to DNA Sequencing Data Analysis\" \/>\n<meta property=\"og:description\" content=\"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.kolabtree.com\/blog\/pt\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/\" \/>\n<meta property=\"og:site_name\" content=\"The Kolabtree Blog\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/kolabtree\" \/>\n<meta property=\"article:published_time\" content=\"2020-03-23T12:40:48+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2023-04-18T11:12:54+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/dna-sequencing-data-analysis-guide.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"1350\" \/>\n\t<meta property=\"og:image:height\" content=\"900\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Ramya Sriram\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@kolabtree\" \/>\n<meta name=\"twitter:site\" content=\"@kolabtree\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"Ramya Sriram\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. tempo de leitura\" \/>\n\t<meta name=\"twitter:data2\" content=\"13 minutos\" \/>\n<!-- \/ Yoast SEO Premium plugin. -->","yoast_head_json":{"title":"A Step-By-Step Guide to DNA Sequencing Data Analysis","description":"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.kolabtree.com\/blog\/pt\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","og_locale":"pt_BR","og_type":"article","og_title":"A Step-By-Step Guide to DNA Sequencing Data Analysis","og_description":"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.","og_url":"https:\/\/www.kolabtree.com\/blog\/pt\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","og_site_name":"The Kolabtree Blog","article_publisher":"https:\/\/www.facebook.com\/kolabtree","article_published_time":"2020-03-23T12:40:48+00:00","article_modified_time":"2023-04-18T11:12:54+00:00","og_image":[{"width":1350,"height":900,"url":"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/dna-sequencing-data-analysis-guide.jpg","type":"image\/jpeg"}],"author":"Ramya Sriram","twitter_card":"summary_large_image","twitter_creator":"@kolabtree","twitter_site":"@kolabtree","twitter_misc":{"Escrito por":"Ramya Sriram","Est. tempo de leitura":"13 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#article","isPartOf":{"@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/"},"author":{"name":"Ramya Sriram","@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/person\/81992f5863a1b06d132a47822e7b4400"},"headline":"A Step-By-Step Guide to DNA Sequencing Data Analysis","datePublished":"2020-03-23T12:40:48+00:00","dateModified":"2023-04-18T11:12:54+00:00","mainEntityOfPage":{"@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/"},"wordCount":2769,"commentCount":0,"publisher":{"@id":"https:\/\/www.kolabtree.com\/blog\/#organization"},"keywords":["DNA Sequencing Data Analysts","Freelance Bioinformatics Consultants"],"articleSection":["Biotechnology","Data Science","Research"],"inLanguage":"pt-BR","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","url":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","name":"A Step-By-Step Guide to DNA Sequencing Data Analysis","isPartOf":{"@id":"https:\/\/www.kolabtree.com\/blog\/#website"},"datePublished":"2020-03-23T12:40:48+00:00","dateModified":"2023-04-18T11:12:54+00:00","description":"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.","breadcrumb":{"@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#breadcrumb"},"inLanguage":"pt-BR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/www.kolabtree.com\/blog\/"},{"@type":"ListItem","position":2,"name":"A Step-By-Step Guide to DNA Sequencing Data Analysis"}]},{"@type":"WebSite","@id":"https:\/\/www.kolabtree.com\/blog\/#website","url":"https:\/\/www.kolabtree.com\/blog\/","name":"The Kolabtree Blog","description":"Expert Views on Science, Innovation and Product Development","publisher":{"@id":"https:\/\/www.kolabtree.com\/blog\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.kolabtree.com\/blog\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"pt-BR"},{"@type":"Organization","@id":"https:\/\/www.kolabtree.com\/blog\/#organization","name":"Kolabtree","url":"https:\/\/www.kolabtree.com\/blog\/","logo":{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/logo\/image\/","url":"","contentUrl":"","caption":"Kolabtree"},"image":{"@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/kolabtree","https:\/\/twitter.com\/kolabtree","https:\/\/instagram.com\/kolabtree","https:\/\/www.linkedin.com\/company\/kolabtree","https:\/\/en.m.wikipedia.org\/wiki\/Kolabtree"]},{"@type":"Person","@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/person\/81992f5863a1b06d132a47822e7b4400","name":"Ramya Sriram","image":{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/8100b45c960ebbbbe420e8b3f250515f?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/8100b45c960ebbbbe420e8b3f250515f?s=96&d=mm&r=g","caption":"Ramya Sriram"},"description":"Ramya Sriram manages digital content and communications at Kolabtree (kolabtree.com), the world's largest freelancing platform for scientists. She has over a decade of experience in publishing, advertising and digital content creation.","url":"https:\/\/www.kolabtree.com\/blog\/pt\/author\/ramyas\/"}]}},"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/www.kolabtree.com\/blog\/pt\/wp-json\/wp\/v2\/posts\/7246"}],"collection":[{"href":"https:\/\/www.kolabtree.com\/blog\/pt\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.kolabtree.com\/blog\/pt\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/pt\/wp-json\/wp\/v2\/users\/12"}],"replies":[{"embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/pt\/wp-json\/wp\/v2\/comments?post=7246"}],"version-history":[{"count":8,"href":"https:\/\/www.kolabtree.com\/blog\/pt\/wp-json\/wp\/v2\/posts\/7246\/revisions"}],"predecessor-version":[{"id":10583,"href":"https:\/\/www.kolabtree.com\/blog\/pt\/wp-json\/wp\/v2\/posts\/7246\/revisions\/10583"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/pt\/wp-json\/wp\/v2\/media\/7266"}],"wp:attachment":[{"href":"https:\/\/www.kolabtree.com\/blog\/pt\/wp-json\/wp\/v2\/media?parent=7246"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/pt\/wp-json\/wp\/v2\/categories?post=7246"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/pt\/wp-json\/wp\/v2\/tags?post=7246"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}