{"id":7246,"date":"2020-03-23T12:40:48","date_gmt":"2020-03-23T12:40:48","guid":{"rendered":"https:\/\/www.kolabtree.com\/blog\/?p=7246"},"modified":"2023-04-18T11:12:54","modified_gmt":"2023-04-18T11:12:54","slug":"a-step-by-step-guide-to-dna-sequencing-data-analysis","status":"publish","type":"post","link":"https:\/\/www.kolabtree.com\/blog\/es\/guia-paso-por-paso-del-analisis-delos-datos-del-na\/","title":{"rendered":"A Step-By-Step Guide to DNA Sequencing Data Analysis"},"content":{"rendered":"<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_45_1 counter-flat ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\">Tabla de contenidos<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" area-label=\"ez-toc-toggle-icon-1\"><label for=\"item-69f834e1664a6\" aria-label=\"Tabla de contenidos\"><span style=\"display: flex;align-items: center;width: 35px;height: 30px;justify-content: center;direction:ltr;\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/label><input  type=\"checkbox\" id=\"item-69f834e1664a6\"><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/www.kolabtree.com\/blog\/es\/guia-paso-por-paso-del-analisis-delos-datos-del-na\/#Introduction\" title=\"Introducci\u00f3n\">Introducci\u00f3n<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/www.kolabtree.com\/blog\/es\/guia-paso-por-paso-del-analisis-delos-datos-del-na\/#Quality_control_QC_of_raw_reads\" title=\"Control de calidad (QC) de las lecturas en bruto\">Control de calidad (QC) de las lecturas en bruto<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/www.kolabtree.com\/blog\/es\/guia-paso-por-paso-del-analisis-delos-datos-del-na\/#Read_trimming\" title=\"Leer el recorte\">Leer el recorte<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/www.kolabtree.com\/blog\/es\/guia-paso-por-paso-del-analisis-delos-datos-del-na\/#Alignment\" title=\"Alineaci\u00f3n\">Alineaci\u00f3n<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/www.kolabtree.com\/blog\/es\/guia-paso-por-paso-del-analisis-delos-datos-del-na\/#From_the_alignments\" title=\"De las alineaciones\">De las alineaciones<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/www.kolabtree.com\/blog\/es\/guia-paso-por-paso-del-analisis-delos-datos-del-na\/#Before_you_start%E2%80%A6\" title=\"Antes de empezar...\">Antes de empezar...<\/a><\/li><\/ul><\/nav><\/div>\n<p><em><span style=\"font-weight: 300;\">El Dr. Javier Quilez Oliete, un experimentado <a href=\"https:\/\/www.kolabtree.com\/find-an-expert\/subject\/bioinformatics\" target=\"_blank\" rel=\"noopener\">freelance bioinformatics consultant<\/a> en Kolabtree, ofrece una gu\u00eda completa para el an\u00e1lisis de datos de secuenciaci\u00f3n de ADN, incluyendo las herramientas y el software utilizados para leer los datos.\u00a0<\/span><\/em><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Introduction\"><\/span><b>Introducci\u00f3n<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">El \u00e1cido desoxirribonucleico (ADN) es la mol\u00e9cula que transporta la mayor parte de la informaci\u00f3n gen\u00e9tica <\/span><span style=\"font-weight: 300;\">de un organismo<\/span><span style=\"font-weight: 300;\">. (En algunos tipos de virus, la informaci\u00f3n gen\u00e9tica es transportada por el \u00e1cido ribonucleico (ARN)).  Los nucle\u00f3tidos (representados convencionalmente por las letras A, C, G o T) son las unidades b\u00e1sicas de las mol\u00e9culas de ADN. Conceptualmente, <a href=\"https:\/\/www.kolabtree.com\/find-an-expert\/subject\/dna-sequencing?utm_source=Blog&amp;utm_medium=Post&amp;utm_campaign=DNASeqGuide\">Secuenciaci\u00f3n del ADN<\/a> es el proceso de lectura de los nucle\u00f3tidos que componen una mol\u00e9cula de ADN (por ejemplo, \"GCAAACCAAT\" es una cadena de ADN de 10 nucle\u00f3tidos). Las tecnolog\u00edas de secuenciaci\u00f3n actuales producen millones de estas lecturas de ADN <\/span><span style=\"font-weight: 300;\">en un tiempo razonable y a un coste relativamente bajo. Como referencia, el coste de secuenciar un genoma humano -un genoma es el conjunto completo de mol\u00e9culas de ADN de un organismo- ha bajado el <\/span><a href=\"https:\/\/www.technologyreview.com\/s\/615289\/china-bgi-100-dollar-genome\/\"><span style=\"font-weight: 300;\">Barrera $100<\/span><\/a><span style=\"font-weight: 300;\"> y puede hacerse en cuesti\u00f3n de d\u00edas. Esto contrasta con la primera iniciativa de secuenciar el <\/span><a href=\"https:\/\/www.nature.com\/articles\/35057062\"><span style=\"font-weight: 300;\">genoma humano<\/span><\/a><span style=\"font-weight: 300;\">que se complet\u00f3 en una d\u00e9cada y tuvo un coste de unos $2,7 mil millones.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Esta capacidad de secuenciar el ADN con un alto rendimiento y bajo coste ha permitido el desarrollo de un n\u00famero creciente de m\u00e9todos y aplicaciones basados en la secuenciaci\u00f3n. Por ejemplo, la secuenciaci\u00f3n de genomas enteros o de sus regiones codificadoras de prote\u00ednas (dos enfoques conocidos respectivamente como secuenciaci\u00f3n del genoma completo y del exoma) en individuos enfermos y sanos puede indicar alteraciones del ADN causantes de enfermedades. Asimismo, la secuenciaci\u00f3n del ARN que se transcribe a partir del ADN -t\u00e9cnica conocida como secuenciaci\u00f3n del ARN- se utiliza para cuantificar la actividad de los genes y c\u00f3mo \u00e9sta cambia en diferentes condiciones (por ejemplo, sin tratamiento frente a con tratamiento). Por otro lado, los m\u00e9todos de secuenciaci\u00f3n de captura de la conformaci\u00f3n de los cromosomas detectan las interacciones entre las mol\u00e9culas de ADN cercanas y ayudan as\u00ed a determinar la distribuci\u00f3n espacial de los cromosomas dentro de la c\u00e9lula.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Estas y otras aplicaciones de la secuenciaci\u00f3n del ADN tienen en com\u00fan la generaci\u00f3n de conjuntos de datos del orden de los gigabytes y que comprenden millones de secuencias de lectura. Por lo tanto, para dar sentido a los experimentos de secuenciaci\u00f3n de alto rendimiento (HTS) se necesitan importantes capacidades de an\u00e1lisis de datos. Afortunadamente, existen herramientas computacionales y estad\u00edsticas espec\u00edficas y flujos de trabajo de an\u00e1lisis relativamente est\u00e1ndar para la mayor\u00eda de los tipos de datos de HTS. Aunque algunos de los pasos (iniciales) del an\u00e1lisis son comunes a la mayor\u00eda de los tipos de datos de secuenciaci\u00f3n, los an\u00e1lisis posteriores depender\u00e1n del tipo de datos y\/o del objetivo final del an\u00e1lisis. A continuaci\u00f3n, ofrezco una introducci\u00f3n a los pasos fundamentales del an\u00e1lisis de los datos de HTS y hago referencia a herramientas populares.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Algunas de las secciones siguientes se centran en el an\u00e1lisis de los datos generados por las tecnolog\u00edas de secuenciaci\u00f3n de lectura corta (en su mayor\u00eda <\/span><a href=\"https:\/\/www.illumina.com\/\"><span style=\"font-weight: 300;\">Illumina<\/span><\/a><span style=\"font-weight: 300;\">), ya que \u00e9stas han dominado hist\u00f3ricamente el mercado de HTS. Sin embargo, las nuevas tecnolog\u00edas que generan lecturas m\u00e1s largas (por ejemplo <\/span><a href=\"https:\/\/nanoporetech.com\/\"><span style=\"font-weight: 300;\">Oxford Nanopore Technologies<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"https:\/\/www.pacb.com\/\"><span style=\"font-weight: 300;\">PacBio<\/span><\/a><span style=\"font-weight: 300;\">) est\u00e1n ganando terreno r\u00e1pidamente. Dado que la secuenciaci\u00f3n de lectura larga tiene algunas particularidades (por ejemplo, mayores tasas de error), se est\u00e1n desarrollando herramientas espec\u00edficas para el an\u00e1lisis de este tipo de datos.\u00a0<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Quality_control_QC_of_raw_reads\"><\/span><b>Control de calidad (QC) de las lecturas en bruto<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">El analista ansioso iniciar\u00e1 el an\u00e1lisis a partir de los archivos FASTQ; el <\/span><a href=\"https:\/\/en.wikipedia.org\/wiki\/FASTQ_format\"><span style=\"font-weight: 300;\">Formato FASTQ<\/span><\/a><span style=\"font-weight: 300;\"> ha sido durante mucho tiempo el est\u00e1ndar para almacenar datos de secuenciaci\u00f3n de hilos cortos. En esencia, los archivos FASTQ contienen la secuencia de nucle\u00f3tidos y las bases por<\/span><span style=\"font-weight: 300;\"> calidad de llamada para millones de lecturas. Aunque el tama\u00f1o del archivo depender\u00e1 del n\u00famero real de lecturas, los archivos FASTQ suelen ser grandes (del orden de megabytes y gigabytes) y estar comprimidos. Cabe destacar que la mayor\u00eda de las herramientas que utilizan archivos FASTQ como entrada pueden manejarlos en formato comprimido, por lo que, para ahorrar espacio en el disco, se recomienda no descomprimirlos. Como convenci\u00f3n, aqu\u00ed equiparar\u00e9 un archivo FASTQ a una muestra de secuenciaci\u00f3n.<\/span><\/p>\n<p><a href=\"https:\/\/www.bioinformatics.babraham.ac.uk\/projects\/fastqc\/\"><span style=\"font-weight: 300;\">FastQC<\/span><\/a><span style=\"font-weight: 300;\"> es probablemente la herramienta m\u00e1s popular para llevar a cabo el control de calidad de las lecturas en bruto. Puede ejecutarse a trav\u00e9s de una interfaz visual o mediante programaci\u00f3n. Mientras que la primera opci\u00f3n puede ser m\u00e1s conveniente para los usuarios que no se sienten c\u00f3modos con el entorno de l\u00ednea de comandos, la segunda ofrece una escalabilidad y reproducibilidad incomparables (piense en lo tedioso y propenso a errores que puede ser ejecutar manualmente la herramienta para decenas de archivos). En cualquier caso, el resultado principal de FastQC es un <\/span><a href=\"https:\/\/www.bioinformatics.babraham.ac.uk\/projects\/fastqc\/good_sequence_short_fastqc.html\"><span style=\"font-weight: 300;\">Archivo HTML<\/span><\/a><span style=\"font-weight: 300;\"> que informa de las principales estad\u00edsticas de resumen sobre la calidad general de las lecturas de secuenciaci\u00f3n en bruto de una muestra determinada. Inspeccionar decenas de informes FastQC uno por uno es tedioso y complica la comparaci\u00f3n entre muestras. Por lo tanto, es posible que desee utilizar <\/span><a href=\"https:\/\/multiqc.info\/\"><span style=\"font-weight: 300;\">MultiQC<\/span><\/a><span style=\"font-weight: 300;\">que agrega los informes HTML de FastQC (as\u00ed como de otras herramientas utilizadas posteriormente, por ejemplo, el recorte de adaptadores, la alineaci\u00f3n) en un \u00fanico informe<\/span><span style=\"font-weight: 300;\">.<\/span><\/p>\n<div id=\"attachment_7265\" style=\"width: 712px\" class=\"wp-caption alignnone\"><img aria-describedby=\"caption-attachment-7265\" decoding=\"async\" loading=\"lazy\" class=\"wp-image-7265 size-large\" src=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-1024x576.png\" alt=\"\" width=\"702\" height=\"395\" srcset=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-1024x576.png 1024w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-300x169.png 300w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-768x432.png 768w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-1536x864.png 1536w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-1080x608.png 1080w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC.png 1600w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-300x169@2x.png 600w\" sizes=\"(max-width: 702px) 100vw, 702px\" \/><p id=\"caption-attachment-7265\" class=\"wp-caption-text\">MultiQC<\/p><\/div>\n<p><span style=\"font-weight: 300;\">La informaci\u00f3n sobre el control de calidad pretende permitir al usuario juzgar si las muestras son de buena calidad y, por lo tanto, pueden utilizarse para los pasos posteriores o deben descartarse. Lamentablemente, no existe un umbral consensuado basado en la m\u00e9trica FastQC para clasificar las muestras como de buena o mala calidad. El enfoque que utilizo es el siguiente. Espero que todas las muestras que han pasado por el mismo procedimiento (por ejemplo, la extracci\u00f3n de ADN, la preparaci\u00f3n de la biblioteca) tengan estad\u00edsticas de calidad similares y una mayor\u00eda de indicadores de \"aprobado\". Si algunas muestras tienen una calidad inferior a la media, las utilizar\u00e9 de todos modos en el an\u00e1lisis posterior teniendo esto en cuenta. Por otro lado, si todas las muestras del experimento obtienen sistem\u00e1ticamente banderas de \"advertencia\" o \"fallo\" en m\u00faltiples m\u00e9tricas (v\u00e9ase <\/span><a href=\"https:\/\/www.bioinformatics.babraham.ac.uk\/projects\/fastqc\/bad_sequence_fastqc.html\"><span style=\"font-weight: 300;\">este ejemplo<\/span><\/a><span style=\"font-weight: 300;\">), sospecho que algo sali\u00f3 mal en el experimento (por ejemplo, mala calidad del ADN, preparaci\u00f3n de la biblioteca, etc.) y recomiendo repetirlo.<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Read_trimming\"><\/span><b>Leer el recorte<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">El control de calidad de las lecturas en bruto ayuda a identificar las muestras problem\u00e1ticas, pero no mejora la calidad real de las lecturas. Para ello, es necesario recortar las lecturas para eliminar las secuencias t\u00e9cnicas y los extremos de baja calidad.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Las secuencias t\u00e9cnicas son restos del procedimiento experimental (por ejemplo, adaptadores de secuenciaci\u00f3n). Si estas secuencias son adyacentes a la verdadera secuencia de la lectura, el alineamiento (v\u00e9ase m\u00e1s adelante) puede asignar las lecturas a una posici\u00f3n incorrecta en el genoma o disminuir la confianza en un alineamiento determinado. Adem\u00e1s de las secuencias t\u00e9cnicas, tambi\u00e9n podemos querer eliminar secuencias de origen biol\u00f3gico si \u00e9stas est\u00e1n muy presentes entre las lecturas. Por ejemplo, los procedimientos de preparaci\u00f3n del ADN sub\u00f3ptimos pueden dejar una alta proporci\u00f3n de ARN ribos\u00f3mico (ARNr) convertido en ADN en la muestra. A menos que este tipo de \u00e1cido nucleico sea el objetivo del experimento de secuenciaci\u00f3n, mantener las lecturas derivadas del ARNr s\u00f3lo aumentar\u00e1 la carga computacional de los pasos posteriores y puede confundir los resultados. Cabe destacar que si los niveles de secuencias t\u00e9cnicas, ARNr u otros contaminantes son muy elevados, lo que probablemente ya habr\u00e1 sido puesto de manifiesto por el control de calidad, es posible que desee descartar toda la muestra de secuenciaci\u00f3n.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">En la secuenciaci\u00f3n de lectura corta, la secuencia de ADN se determina un nucle\u00f3tido cada vez (t\u00e9cnicamente, un nucle\u00f3tido cada ciclo de secuenciaci\u00f3n). En otras palabras, el n\u00famero de ciclos de secuenciaci\u00f3n determina la longitud de la lectura. Un problema conocido de los m\u00e9todos de secuenciaci\u00f3n HTS es la disminuci\u00f3n de la precisi\u00f3n con la que se determinan los nucle\u00f3tidos a medida que se acumulan los ciclos de secuenciaci\u00f3n. Esto se refleja en una disminuci\u00f3n general de la calidad de la llamada por base, especialmente hacia el final de la lectura. Al igual que ocurre con las secuencias t\u00e9cnicas, tratar de alinear lecturas que contienen extremos de baja calidad puede llevar a una colocaci\u00f3n err\u00f3nea o a una mala calidad de mapeo.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Para eliminar las secuencias t\u00e9cnicas\/contaminantes y los extremos de baja calidad, lea las herramientas de recorte como <\/span><a href=\"http:\/\/www.usadellab.org\/cms\/?page=trimmomatic\"><span style=\"font-weight: 300;\">Trimmomatic<\/span><\/a><span style=\"font-weight: 300;\"> y <\/span><a href=\"https:\/\/cutadapt.readthedocs.io\/en\/stable\/\"><span style=\"font-weight: 300;\">Cutadapt<\/span><\/a><span style=\"font-weight: 300;\"> existen y se utilizan ampliamente. B\u00e1sicamente, estas herramientas eliminan las secuencias t\u00e9cnicas (disponibles internamente y\/o proporcionadas por el usuario) y recortan las lecturas en funci\u00f3n de su calidad, al tiempo que maximizan su longitud. Las lecturas que quedan demasiado cortas despu\u00e9s del recorte se descartan (las lecturas excesivamente cortas, por ejemplo, &lt;36 nucle\u00f3tidos, complican el paso de alineaci\u00f3n, ya que es probable que se asignen a m\u00faltiples sitios en el genoma). Es posible que desee observar el porcentaje de lecturas que sobreviven al recorte, ya que un alto \u00edndice de lecturas descartadas es probablemente un signo de datos de mala calidad.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Por \u00faltimo, suelo volver a ejecutar FastQC en las lecturas recortadas para comprobar que este paso ha sido eficaz y ha mejorado sistem\u00e1ticamente las m\u00e9tricas de control de calidad.<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Alignment\"><\/span><b>Alineaci\u00f3n<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">Salvo excepciones (por ejemplo <\/span><a href=\"https:\/\/en.wikipedia.org\/wiki\/De_novo_sequence_assemblers\"><span style=\"font-weight: 300;\">ensamblaje de novo<\/span><\/a><span style=\"font-weight: 300;\">), la alineaci\u00f3n (tambi\u00e9n denominada mapeo) suele ser el siguiente paso para la mayor\u00eda de los tipos de datos y aplicaciones de HTS. La alineaci\u00f3n de las lecturas consiste en determinar la posici\u00f3n en el genoma de la que se deriva la secuencia de la lectura (normalmente expresada como cromosoma:extremo inicial). Por lo tanto, en este paso se requiere el uso de una secuencia de referencia para alinear\/mapear las lecturas.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">La elecci\u00f3n de la secuencia de referencia vendr\u00e1 determinada por m\u00faltiples factores. Por un lado, la especie de la que procede el ADN secuenciado. Aunque el n\u00famero de especies con una secuencia de referencia de alta calidad disponible est\u00e1 aumentando, puede que todav\u00eda no sea el caso de algunos organismos menos estudiados. En esos casos, es posible que desee alinear las lecturas con una especie evolutivamente cercana para la que exista un genoma de referencia. Por ejemplo, como no existe una secuencia de referencia para el genoma del coyote, podemos utilizar la del perro, estrechamente relacionado, para la alineaci\u00f3n de las lecturas. Del mismo modo, es posible que queramos alinear nuestras lecturas con una especie estrechamente relacionada para la que existe una secuencia de referencia de mayor calidad. Por ejemplo, aunque el genoma del gib\u00f3n ha sido <\/span><a href=\"https:\/\/www.nature.com\/articles\/nature13679\"><span style=\"font-weight: 300;\">publicado<\/span><\/a><span style=\"font-weight: 300;\">En el caso de la secuencia humana, \u00e9sta se divide en miles de fragmentos que no recapitulan totalmente la organizaci\u00f3n de ese genoma en decenas de cromosomas; en ese caso, puede ser beneficioso realizar el alineamiento utilizando la secuencia de referencia humana.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Otro factor a tener en cuenta es la versi\u00f3n del ensamblaje de la secuencia de referencia, ya que se publican nuevas versiones a medida que se actualiza y mejora la secuencia. Es importante destacar que las coordenadas de un determinado alineamiento pueden variar entre versiones. Por ejemplo, se pueden encontrar m\u00faltiples versiones del genoma humano en el <\/span><a href=\"https:\/\/genome.ucsc.edu\/cgi-bin\/hgGateway?redirect=manual&amp;source=genome.ucsc.edu\"><span style=\"font-weight: 300;\">Navegador del genoma de la UCSC<\/span><\/a><span style=\"font-weight: 300;\">. En cualquier caso, estoy totalmente a favor de migrar a la versi\u00f3n de ensamblaje m\u00e1s reciente una vez que se haya publicado por completo. Esto puede causar algunas molestias durante la transici\u00f3n, ya que los resultados ya existentes ser\u00e1n relativos a las versiones anteriores, pero vale la pena a largo plazo.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Adem\u00e1s, el tipo de datos de secuenciaci\u00f3n tambi\u00e9n es importante. Las lecturas generadas por los protocolos DNA-seq, ChIP-seq o Hi-C se alinear\u00e1n con la secuencia de referencia del genoma. Por otro lado, como el ARN transcrito a partir del ADN se procesa posteriormente en ARNm (es decir, se eliminan los intrones), muchas lecturas de ARN-seq no se alinear\u00e1n con una secuencia de referencia del genoma. En su lugar, tenemos que alinearlas con las secuencias de referencia del transcriptoma o utilizar alineadores que tengan en cuenta la divisi\u00f3n (v\u00e9ase m\u00e1s adelante) cuando se utiliza la secuencia del genoma como referencia. Relacionado con esto est\u00e1 la elecci\u00f3n de la fuente para la anotaci\u00f3n de la secuencia de referencia, es decir, la base de datos con las coordenadas de los genes, transcritos, centr\u00f3meros, etc. Yo suelo utilizar la base de datos <\/span><a href=\"https:\/\/www.gencodegenes.org\/human\/\"><span style=\"font-weight: 300;\">Anotaci\u00f3n de GENCODE<\/span><\/a><span style=\"font-weight: 300;\"> ya que combina una exhaustiva anotaci\u00f3n de genes y secuencias de transcripci\u00f3n.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Se ha desarrollado una larga lista de herramientas de alineaci\u00f3n de secuencias de lectura corta (v\u00e9ase la secci\u00f3n de alineaci\u00f3n de secuencias de lectura corta <\/span><a href=\"https:\/\/en.wikipedia.org\/wiki\/List_of_sequence_alignment_software\"><span style=\"font-weight: 300;\">aqu\u00ed<\/span><\/a><span style=\"font-weight: 300;\">). Revisarlas va m\u00e1s all\u00e1 del alcance de este art\u00edculo (los detalles sobre los algoritmos detr\u00e1s de estas herramientas se pueden encontrar <\/span><a href=\"https:\/\/www.ncbi.nlm.nih.gov\/pmc\/articles\/PMC5425171\/\"><span style=\"font-weight: 300;\">aqu\u00ed<\/span><\/a><span style=\"font-weight: 300;\">). Seg\u00fan mi experiencia, entre los m\u00e1s populares est\u00e1n <\/span><a href=\"http:\/\/bowtie-bio.sourceforge.net\/bowtie2\/index.shtml\"><span style=\"font-weight: 300;\">Pajarita2<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"http:\/\/bio-bwa.sourceforge.net\/\"><span style=\"font-weight: 300;\">BWA<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"http:\/\/daehwankimlab.github.io\/hisat2\/\"><span style=\"font-weight: 300;\">HISAT2<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"https:\/\/github.com\/lh3\/minimap2\"><span style=\"font-weight: 300;\">Mapa m\u00ednimo2<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"https:\/\/www.ncbi.nlm.nih.gov\/pmc\/articles\/PMC3530905\/\"><span style=\"font-weight: 300;\">STAR<\/span><\/a><span style=\"font-weight: 300;\"> y <\/span><a href=\"http:\/\/ccb.jhu.edu\/software\/tophat\/index.shtml\"><span style=\"font-weight: 300;\">TopHat<\/span><\/a><span style=\"font-weight: 300;\">. Mi recomendaci\u00f3n es que elija su alineador teniendo en cuenta factores clave como el tipo de datos HTS<\/span><span style=\"font-weight: 300;\"> y aplicaci\u00f3n, as\u00ed como la aceptaci\u00f3n por parte de la comunidad, la calidad de la documentaci\u00f3n y el n\u00famero de usuarios. Por ejemplo, se necesitan alineadores como STAR o Bowtie2 que tengan en cuenta las uniones ex\u00f3n-ex\u00f3n al mapear el ARN-seq con el genoma.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">La mayor\u00eda de los mapeadores tienen la necesidad de indexar la secuencia utilizada como referencia antes de realizar el alineamiento. Este paso puede llevar mucho tiempo, pero s\u00f3lo hay que hacerlo una vez para cada secuencia de referencia. La mayor\u00eda de los mapeadores almacenan los alineamientos en archivos SAM\/BAM, que siguen el esquema <\/span><a href=\"https:\/\/samtools.github.io\/hts-specs\/SAMv1.pdf\"><span style=\"font-weight: 300;\">Formato SAM\/BAM<\/span><\/a><span style=\"font-weight: 300;\"> (Los archivos BAM son versiones binarias de los archivos SAM). El alineamiento es uno de los pasos que m\u00e1s computaciones y tiempo consume en el an\u00e1lisis de los datos de secuenciaci\u00f3n y los archivos SAM\/BAM son pesados (del orden de los gigabytes). Por lo tanto, es importante asegurarse de que se dispone de los recursos necesarios (v\u00e9ase la secci\u00f3n final m\u00e1s abajo) para ejecutar el alineamiento en un tiempo razonable y almacenar los resultados. Asimismo, debido al tama\u00f1o y al formato binario de los archivos BAM, evite abrirlos con editores de texto; en su lugar, utilice comandos de Unix o herramientas dedicadas como <\/span><a href=\"http:\/\/www.htslib.org\/\"><span style=\"font-weight: 300;\">SAMtools<\/span><\/a><span style=\"font-weight: 300;\">.<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"From_the_alignments\"><\/span><b>De las alineaciones<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">Yo dir\u00eda que no hay un paso com\u00fan claro despu\u00e9s de la alineaci\u00f3n, ya que en este punto es donde cada tipo de datos HTS y aplicaci\u00f3n puede diferir.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Un an\u00e1lisis posterior com\u00fan para los datos de DNA-seq es la llamada de variantes, es decir, la identificaci\u00f3n de posiciones en el genoma que var\u00edan en relaci\u00f3n con la referencia del genoma y entre individuos. Un marco de an\u00e1lisis popular para esta aplicaci\u00f3n es <\/span><a href=\"https:\/\/gatk.broadinstitute.org\/hc\/en-us\"><span style=\"font-weight: 300;\">GATK<\/span><\/a><span style=\"font-weight: 300;\"> para polimorfismo de un solo nucle\u00f3tido (SNP) o peque\u00f1as inserciones\/deleciones (indels) (<\/span><b>Figura 2<\/b><span style=\"font-weight: 300;\">). Las variantes que comprenden trozos m\u00e1s grandes de ADN (tambi\u00e9n denominadas variantes estructurales) requieren m\u00e9todos de llamada espec\u00edficos (v\u00e9ase <\/span><a href=\"https:\/\/genomebiology.biomedcentral.com\/articles\/10.1186\/s13059-019-1720-5\"><span style=\"font-weight: 300;\">este art\u00edculo<\/span><\/a><span style=\"font-weight: 300;\"> para una comparaci\u00f3n exhaustiva). Al igual que con los alineadores, aconsejo seleccionar la herramienta adecuada teniendo en cuenta factores clave como el tipo de variantes (SNP, indel o variantes estructurales), la aceptaci\u00f3n por parte de la comunidad, la calidad de la documentaci\u00f3n y el n\u00famero de usuarios.<\/span><\/p>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"alignnone wp-image-7262 size-large\" src=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-1024x576.png\" alt=\"\" width=\"702\" height=\"395\" srcset=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-1024x576.png 1024w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-300x169.png 300w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-768x432.png 768w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-1536x864.png 1536w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-1080x608.png 1080w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk.png 1600w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-300x169@2x.png 600w\" sizes=\"(max-width: 702px) 100vw, 702px\" \/><\/p>\n<p><span style=\"font-weight: 300;\">Probablemente, la aplicaci\u00f3n m\u00e1s frecuente de RNA-seq es la cuantificaci\u00f3n de la expresi\u00f3n g\u00e9nica. Hist\u00f3ricamente, las lecturas deb\u00edan alinearse con la secuencia de referencia y, a continuaci\u00f3n, el n\u00famero de lecturas alineadas con un determinado gen o transcrito se utilizaba como indicador para cuantificar sus niveles de expresi\u00f3n. Este enfoque de alineaci\u00f3n+cuantificaci\u00f3n se realiza con herramientas como <\/span><a href=\"http:\/\/cole-trapnell-lab.github.io\/cufflinks\/manual\/\"><span style=\"font-weight: 300;\">Gemelos<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"https:\/\/github.com\/deweylab\/RSEM\"><span style=\"font-weight: 300;\">RSEM<\/span><\/a><span style=\"font-weight: 300;\"> o <\/span><a href=\"http:\/\/subread.sourceforge.net\/\"><span style=\"font-weight: 300;\">featureCounts<\/span><\/a><span style=\"font-weight: 300;\">. Sin embargo, este enfoque ha sido superado cada vez m\u00e1s por nuevos m\u00e9todos implementados en software como <\/span><a href=\"https:\/\/pachterlab.github.io\/kallisto\/\"><span style=\"font-weight: 300;\">Kallisto<\/span><\/a><span style=\"font-weight: 300;\"> y <\/span><a href=\"https:\/\/combine-lab.github.io\/salmon\/\"><span style=\"font-weight: 300;\">Salm\u00f3n<\/span><\/a><span style=\"font-weight: 300;\">. Conceptualmente, con estas herramientas no es necesario alinear la secuencia completa de una lectura con la secuencia de referencia. En su lugar, s\u00f3lo necesitamos alinear suficientes nucle\u00f3tidos para estar seguros de que una lectura se origin\u00f3 a partir de un determinado transcrito. En pocas palabras, el enfoque de alineaci\u00f3n+cuantificaci\u00f3n se reduce a un solo paso. Este enfoque se conoce como pseudo-mapeo y aumenta en gran medida la velocidad de la cuantificaci\u00f3n de la expresi\u00f3n g\u00e9nica. Por otro lado, hay que tener en cuenta que el pseudo-mapeo no es adecuado para aplicaciones en las que se necesita la alineaci\u00f3n completa (por ejemplo, la llamada de variantes a partir de datos de RNA-seq).<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Otro ejemplo de las diferencias en los pasos de an\u00e1lisis posteriores y las herramientas necesarias en las aplicaciones basadas en la secuenciaci\u00f3n es ChIP-seq. Las lecturas generadas con esta t\u00e9cnica se utilizar\u00e1n para la llamada de picos, que consiste en detectar regiones en el genoma con un exceso significativo de lecturas que indica d\u00f3nde se une la prote\u00edna objetivo. Existen varios \"peak callers\" y <\/span><a href=\"https:\/\/academic.oup.com\/bib\/article\/18\/3\/441\/2453291\"><span style=\"font-weight: 300;\">esta publicaci\u00f3n<\/span><\/a><span style=\"font-weight: 300;\"> los estudia. Como \u00faltimo ejemplo mencionar\u00e9 los datos Hi-C, en los que los alineamientos se utilizan como entrada para herramientas que determinan las matrices de interacci\u00f3n y, a partir de ellas, las caracter\u00edsticas 3D del genoma. Comentar todos los ensayos basados en la secuenciaci\u00f3n va m\u00e1s all\u00e1 del alcance de este art\u00edculo (para una lista relativamente completa, v\u00e9ase <\/span><a href=\"https:\/\/liorpachter.wordpress.com\/seq\/\"><span style=\"font-weight: 300;\">este art\u00edculo<\/span><\/a><span style=\"font-weight: 300;\">).<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Before_you_start%E2%80%A6\"><\/span><b>Antes de empezar...<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">La parte restante de este art\u00edculo aborda aspectos que pueden no considerarse estrictamente como pasos en el an\u00e1lisis de los datos de HTS y que se ignoran en gran medida. Por el contrario, sostengo que es capital que se piense en las cuestiones planteadas en <\/span><b>Tabla 1<\/b><span style=\"font-weight: 300;\"> antes de empezar a analizar los datos de HTS (o cualquier tipo de datos, de hecho), y he escrito sobre estos temas <\/span><a href=\"https:\/\/www.slideshare.net\/slideshow\/embed_code\/key\/vwyxcqSsQTYBhl\"><span style=\"font-weight: 300;\">aqu\u00ed<\/span><\/a><span style=\"font-weight: 300;\"> y <\/span><a href=\"https:\/\/academic.oup.com\/gigascience\/article\/6\/11\/gix100\/4557140\"><span style=\"font-weight: 300;\">aqu\u00ed<\/span><\/a><span style=\"font-weight: 300;\">.<\/span><\/p>\n<p><b>Tabla 1<\/b><\/p>\n<table>\n<tbody>\n<tr>\n<td><b>Piensa en ello<\/b><\/td>\n<td><b>Acci\u00f3n propuesta<\/b><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">\u00bfTiene toda la informaci\u00f3n de su muestra necesaria para el an\u00e1lisis?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Recoger sistem\u00e1ticamente los metadatos de los experimentos<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">\u00bfSer\u00e1 capaz de identificar inequ\u00edvocamente su muestra?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Establecer un sistema para asignar a cada muestra un identificador \u00fanico<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">\u00bfD\u00f3nde estar\u00e1n los datos y los resultados?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Organizaci\u00f3n estructurada y jer\u00e1rquica de los datos<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">\u00bfPodr\u00e1 procesar varias muestras sin problemas?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Escalabilidad, paralelizaci\u00f3n, configuraci\u00f3n autom\u00e1tica y modularidad del c\u00f3digo<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">\u00bfPodr\u00e1 usted o alguien m\u00e1s reproducir los resultados?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Documente su c\u00f3digo y sus procedimientos.<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>&nbsp;<\/p>\n<p><span style=\"font-weight: 300;\">Como ya se ha mencionado, los datos brutos de HTS y algunos de los archivos generados durante su an\u00e1lisis son del orden de gigabytes, por lo que no es excepcional que un proyecto que incluya decenas de muestras requiera terabytes de almacenamiento. Adem\u00e1s, algunos pasos del an\u00e1lisis de los datos HTS son intensivos desde el punto de vista inform\u00e1tico (por ejemplo, la alineaci\u00f3n). Sin embargo, la infraestructura de almacenamiento y computaci\u00f3n necesaria para analizar los datos de HTS es una consideraci\u00f3n importante y a menudo se pasa por alto o no se discute. Como ejemplo, como parte de un an\u00e1lisis reciente, revisamos decenas de art\u00edculos publicados que realizaban an\u00e1lisis de asociaci\u00f3n de todo el fenotipo (PheWAS). Los PheWAS modernos analizan entre 100 y 1.000 variantes gen\u00e9ticas y fenotipos, lo que supone una gran capacidad de almacenamiento de datos y de computaci\u00f3n. Y, sin embargo, pr\u00e1cticamente ninguno de los art\u00edculos que revisamos comentaba la infraestructura necesaria para el an\u00e1lisis PheWAS. No es de extra\u00f1ar que mi recomendaci\u00f3n sea que planifiquen por adelantado los requisitos de almacenamiento y computaci\u00f3n a los que se enfrentar\u00e1n y los compartan con la comunidad.<\/span><\/p>\n<p><strong>\u00bfNecesita ayuda para analizar los datos de secuenciaci\u00f3n de ADN? P\u00f3ngase en contacto con <a href=\"https:\/\/www.kolabtree.com\/find-an-expert\/subject\/bioinformatics?utm_source=Blog&amp;utm_medium=Post&amp;utm_campaign=DNASeqGuide\">freelance bioinformatics specialist<\/a> y <a href=\"https:\/\/www.kolabtree.com\/find-an-expert\/subject\/genomics\">expertos en gen\u00f3mica<\/a> en Kolabtree.\u00a0<\/strong><\/p>","protected":false},"excerpt":{"rendered":"<p>Dr. Javier Quilez Oliete, an experienced freelance bioinformatics consultant on Kolabtree, provides a comprehensive guide to DNA sequencing data analysis, including tools and software used to read data.\u00a0 Introduction Deoxyribonucleic acid (DNA) is the molecule that carries most of the genetic information of an organism. (In some types of virus, genetic information is carried by<\/p>\n<div class=\"read-more\"><a href=\"https:\/\/www.kolabtree.com\/blog\/es\/guia-paso-por-paso-del-analisis-delos-datos-del-na\/\" title=\"Leer m\u00e1s\">Leer m\u00e1s<\/a><\/div>","protected":false},"author":12,"featured_media":7266,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[442,398,435],"tags":[755,754],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO Premium plugin v20.1 (Yoast SEO v20.1) - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>A Step-By-Step Guide to DNA Sequencing Data Analysis<\/title>\n<meta name=\"description\" content=\"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.kolabtree.com\/blog\/es\/guia-paso-por-paso-del-analisis-delos-datos-del-na\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"A Step-By-Step Guide to DNA Sequencing Data Analysis\" \/>\n<meta property=\"og:description\" content=\"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.kolabtree.com\/blog\/es\/guia-paso-por-paso-del-analisis-delos-datos-del-na\/\" \/>\n<meta property=\"og:site_name\" content=\"The Kolabtree Blog\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/kolabtree\" \/>\n<meta property=\"article:published_time\" content=\"2020-03-23T12:40:48+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2023-04-18T11:12:54+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/dna-sequencing-data-analysis-guide.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"1350\" \/>\n\t<meta property=\"og:image:height\" content=\"900\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Ramya Sriram\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@kolabtree\" \/>\n<meta name=\"twitter:site\" content=\"@kolabtree\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"Ramya Sriram\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data2\" content=\"13 minutos\" \/>\n<!-- \/ Yoast SEO Premium plugin. -->","yoast_head_json":{"title":"A Step-By-Step Guide to DNA Sequencing Data Analysis","description":"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.kolabtree.com\/blog\/es\/guia-paso-por-paso-del-analisis-delos-datos-del-na\/","og_locale":"es_ES","og_type":"article","og_title":"A Step-By-Step Guide to DNA Sequencing Data Analysis","og_description":"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.","og_url":"https:\/\/www.kolabtree.com\/blog\/es\/guia-paso-por-paso-del-analisis-delos-datos-del-na\/","og_site_name":"The Kolabtree Blog","article_publisher":"https:\/\/www.facebook.com\/kolabtree","article_published_time":"2020-03-23T12:40:48+00:00","article_modified_time":"2023-04-18T11:12:54+00:00","og_image":[{"width":1350,"height":900,"url":"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/dna-sequencing-data-analysis-guide.jpg","type":"image\/jpeg"}],"author":"Ramya Sriram","twitter_card":"summary_large_image","twitter_creator":"@kolabtree","twitter_site":"@kolabtree","twitter_misc":{"Escrito por":"Ramya Sriram","Tiempo de lectura":"13 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#article","isPartOf":{"@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/"},"author":{"name":"Ramya Sriram","@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/person\/81992f5863a1b06d132a47822e7b4400"},"headline":"A Step-By-Step Guide to DNA Sequencing Data Analysis","datePublished":"2020-03-23T12:40:48+00:00","dateModified":"2023-04-18T11:12:54+00:00","mainEntityOfPage":{"@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/"},"wordCount":2769,"commentCount":0,"publisher":{"@id":"https:\/\/www.kolabtree.com\/blog\/#organization"},"keywords":["DNA Sequencing Data Analysts","Freelance Bioinformatics Consultants"],"articleSection":["Biotechnology","Data Science","Research"],"inLanguage":"es","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","url":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","name":"A Step-By-Step Guide to DNA Sequencing Data Analysis","isPartOf":{"@id":"https:\/\/www.kolabtree.com\/blog\/#website"},"datePublished":"2020-03-23T12:40:48+00:00","dateModified":"2023-04-18T11:12:54+00:00","description":"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.","breadcrumb":{"@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/www.kolabtree.com\/blog\/"},{"@type":"ListItem","position":2,"name":"A Step-By-Step Guide to DNA Sequencing Data Analysis"}]},{"@type":"WebSite","@id":"https:\/\/www.kolabtree.com\/blog\/#website","url":"https:\/\/www.kolabtree.com\/blog\/","name":"The Kolabtree Blog","description":"Expert Views on Science, Innovation and Product Development","publisher":{"@id":"https:\/\/www.kolabtree.com\/blog\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.kolabtree.com\/blog\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"es"},{"@type":"Organization","@id":"https:\/\/www.kolabtree.com\/blog\/#organization","name":"Kolabtree","url":"https:\/\/www.kolabtree.com\/blog\/","logo":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/logo\/image\/","url":"","contentUrl":"","caption":"Kolabtree"},"image":{"@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/kolabtree","https:\/\/twitter.com\/kolabtree","https:\/\/instagram.com\/kolabtree","https:\/\/www.linkedin.com\/company\/kolabtree","https:\/\/en.m.wikipedia.org\/wiki\/Kolabtree"]},{"@type":"Person","@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/person\/81992f5863a1b06d132a47822e7b4400","name":"Ramya Sriram","image":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/8100b45c960ebbbbe420e8b3f250515f?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/8100b45c960ebbbbe420e8b3f250515f?s=96&d=mm&r=g","caption":"Ramya Sriram"},"description":"Ramya Sriram manages digital content and communications at Kolabtree (kolabtree.com), the world's largest freelancing platform for scientists. She has over a decade of experience in publishing, advertising and digital content creation.","url":"https:\/\/www.kolabtree.com\/blog\/es\/author\/ramyas\/"}]}},"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/www.kolabtree.com\/blog\/es\/wp-json\/wp\/v2\/posts\/7246"}],"collection":[{"href":"https:\/\/www.kolabtree.com\/blog\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.kolabtree.com\/blog\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/es\/wp-json\/wp\/v2\/users\/12"}],"replies":[{"embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/es\/wp-json\/wp\/v2\/comments?post=7246"}],"version-history":[{"count":8,"href":"https:\/\/www.kolabtree.com\/blog\/es\/wp-json\/wp\/v2\/posts\/7246\/revisions"}],"predecessor-version":[{"id":10583,"href":"https:\/\/www.kolabtree.com\/blog\/es\/wp-json\/wp\/v2\/posts\/7246\/revisions\/10583"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/es\/wp-json\/wp\/v2\/media\/7266"}],"wp:attachment":[{"href":"https:\/\/www.kolabtree.com\/blog\/es\/wp-json\/wp\/v2\/media?parent=7246"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/es\/wp-json\/wp\/v2\/categories?post=7246"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/es\/wp-json\/wp\/v2\/tags?post=7246"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}