{"id":7246,"date":"2020-03-23T12:40:48","date_gmt":"2020-03-23T12:40:48","guid":{"rendered":"https:\/\/www.kolabtree.com\/blog\/?p=7246"},"modified":"2023-04-18T11:12:54","modified_gmt":"2023-04-18T11:12:54","slug":"a-step-by-step-guide-to-dna-sequencing-data-analysis","status":"publish","type":"post","link":"https:\/\/www.kolabtree.com\/blog\/de\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","title":{"rendered":"A Step-By-Step Guide to DNA Sequencing Data Analysis"},"content":{"rendered":"<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_45_1 counter-flat ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\">Das Inhaltsverzeichnis<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" area-label=\"ez-toc-toggle-icon-1\"><label for=\"item-69f1d662050d4\" aria-label=\"Table of Content\"><span style=\"display: flex;align-items: center;width: 35px;height: 30px;justify-content: center;direction:ltr;\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/label><input  type=\"checkbox\" id=\"item-69f1d662050d4\"><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/www.kolabtree.com\/blog\/de\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#Introduction\" title=\"Einf\u00fchrung\">Einf\u00fchrung<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/www.kolabtree.com\/blog\/de\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#Quality_control_QC_of_raw_reads\" title=\"Qualit\u00e4tskontrolle (QC) von Rohdaten\">Qualit\u00e4tskontrolle (QC) von Rohdaten<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/www.kolabtree.com\/blog\/de\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#Read_trimming\" title=\"Beschneiden lesen\">Beschneiden lesen<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/www.kolabtree.com\/blog\/de\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#Alignment\" title=\"Ausrichtung\">Ausrichtung<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/www.kolabtree.com\/blog\/de\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#From_the_alignments\" title=\"Von den Alignments\">Von den Alignments<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/www.kolabtree.com\/blog\/de\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#Before_you_start%E2%80%A6\" title=\"Bevor Sie anfangen...\">Bevor Sie anfangen...<\/a><\/li><\/ul><\/nav><\/div>\n<p><em><span style=\"font-weight: 300;\">Dr. Javier Quilez Oliete, ein erfahrener <a href=\"https:\/\/www.kolabtree.com\/find-an-expert\/subject\/bioinformatics\" target=\"_blank\" rel=\"noopener\">freelance bioinformatics consultant<\/a> auf Kolabtree, bietet einen umfassenden Leitfaden f\u00fcr die Analyse von DNA-Sequenzierungsdaten, einschlie\u00dflich der zum Lesen der Daten verwendeten Werkzeuge und Software.\u00a0<\/span><\/em><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Introduction\"><\/span><b>Einf\u00fchrung<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">Die Desoxyribonukleins\u00e4ure (DNA) ist das Molek\u00fcl, das den gr\u00f6\u00dften Teil der genetischen Information tr\u00e4gt <\/span><span style=\"font-weight: 300;\">eines Organismus<\/span><span style=\"font-weight: 300;\">. (Bei einigen Virustypen wird die genetische Information durch Ribonukleins\u00e4ure (RNA) \u00fcbertragen).  Nukleotide (\u00fcblicherweise durch die Buchstaben A, C, G oder T dargestellt) sind die Grundeinheiten von DNA-Molek\u00fclen. Konzeptionell, <a href=\"https:\/\/www.kolabtree.com\/find-an-expert\/subject\/dna-sequencing?utm_source=Blog&amp;utm_medium=Post&amp;utm_campaign=DNASeqGuide\">DNA-Sequenzierung<\/a> ist der Prozess des Lesens der Nukleotide, aus denen ein DNA-Molek\u00fcl besteht (z. B. \"GCAAACCAAT\" ist eine DNA-Kette mit 10 Nukleotiden). Aktuelle Sequenzierungstechnologien erzeugen Millionen solcher DNA-Leseabschnitte <\/span><span style=\"font-weight: 300;\">in einer angemessenen Zeit und zu relativ geringen Kosten. So sind die Kosten f\u00fcr die Sequenzierung eines menschlichen Genoms - ein Genom ist der vollst\u00e4ndige Satz von DNA-Molek\u00fclen in einem Organismus - um die H\u00e4lfte gesunken. <\/span><a href=\"https:\/\/www.technologyreview.com\/s\/615289\/china-bgi-100-dollar-genome\/\"><span style=\"font-weight: 300;\">$100 Barriere<\/span><\/a><span style=\"font-weight: 300;\"> und kann innerhalb weniger Tage durchgef\u00fchrt werden. Dies steht im Gegensatz zu der ersten Initiative zur Sequenzierung der <\/span><a href=\"https:\/\/www.nature.com\/articles\/35057062\"><span style=\"font-weight: 300;\">menschliches Genom<\/span><\/a><span style=\"font-weight: 300;\">das in einem Jahrzehnt fertiggestellt wurde und etwa $2,7 Milliarden kostete.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Diese F\u00e4higkeit, DNA mit hohem Durchsatz und zu geringen Kosten zu sequenzieren, hat die Entwicklung einer wachsenden Zahl von auf Sequenzierung basierenden Methoden und Anwendungen erm\u00f6glicht. So kann beispielsweise die Sequenzierung ganzer Genome oder ihrer proteinkodierenden Regionen (zwei Ans\u00e4tze, die als Ganzgenom- bzw. Exom-Sequenzierung bekannt sind) bei kranken und gesunden Personen auf krankheitsverursachende DNA-Ver\u00e4nderungen hinweisen. Auch die Sequenzierung der RNA, die von der DNA transkribiert wird - eine Technik, die als RNA-Sequenzierung bekannt ist - wird verwendet, um die Genaktivit\u00e4t zu quantifizieren und festzustellen, wie sich diese unter verschiedenen Bedingungen (z. B. unbehandelt und behandelt) ver\u00e4ndert. Auf der anderen Seite werden mit Chromosomen-Konformations-Capture-Sequenzierungsmethoden Wechselwirkungen zwischen nahegelegenen DNA-Molek\u00fclen aufgesp\u00fcrt und so die r\u00e4umliche Verteilung der Chromosomen innerhalb der Zelle bestimmt.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Diesen und anderen Anwendungen der DNA-Sequenzierung ist gemeinsam, dass sie Datens\u00e4tze in der Gr\u00f6\u00dfenordnung von Gigabytes erzeugen, die Millionen von Lesesequenzen umfassen. Daher erfordert die Auswertung von Hochdurchsatz-Sequenzierungsexperimenten (HTS) umfangreiche Datenanalysef\u00e4higkeiten. Gl\u00fccklicherweise gibt es f\u00fcr die meisten HTS-Datentypen spezielle Berechnungs- und Statistik-Tools und relativ standardisierte Analyse-Workflows. W\u00e4hrend einige der (anf\u00e4nglichen) Analyseschritte f\u00fcr die meisten Sequenzierungsdatentypen gleich sind, h\u00e4ngt die weitere nachgelagerte Analyse von der Art der Daten und\/oder dem letztendlichen Ziel der Analyse ab. Im Folgenden gebe ich eine Einf\u00fchrung in die grundlegenden Schritte der Analyse von HTS-Daten und verweise auf g\u00e4ngige Tools.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Einige der folgenden Abschnitte befassen sich mit der Analyse von Daten, die mit Short-Read-Sequenzierungstechnologien erzeugt wurden (meist <\/span><a href=\"https:\/\/www.illumina.com\/\"><span style=\"font-weight: 300;\">Illumina<\/span><\/a><span style=\"font-weight: 300;\">), da diese in der Vergangenheit den HTS-Markt dominiert haben. Neuere Technologien, die l\u00e4ngere Lesezeiten erzeugen (z. B. <\/span><a href=\"https:\/\/nanoporetech.com\/\"><span style=\"font-weight: 300;\">Oxford-Nanopore-Technologien<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"https:\/\/www.pacb.com\/\"><span style=\"font-weight: 300;\">PacBio<\/span><\/a><span style=\"font-weight: 300;\">) sind schnell auf dem Vormarsch. Da die Long-Read-Sequenzierung einige Besonderheiten aufweist (z. B. h\u00f6here Fehlerquoten), werden derzeit spezielle Werkzeuge f\u00fcr die Analyse dieser Art von Daten entwickelt.\u00a0<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Quality_control_QC_of_raw_reads\"><\/span><b>Qualit\u00e4tskontrolle (QC) von Rohdaten<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">Der eifrige Analytiker beginnt die Analyse mit FASTQ-Dateien; der <\/span><a href=\"https:\/\/en.wikipedia.org\/wiki\/FASTQ_format\"><span style=\"font-weight: 300;\">FASTQ-Format<\/span><\/a><span style=\"font-weight: 300;\"> ist seit langem der Standard f\u00fcr die Speicherung von Short-read-Sequenzierungsdaten. Im Wesentlichen enthalten FASTQ-Dateien die Nukleotidsequenz und die basenbezogene<\/span><span style=\"font-weight: 300;\"> Aufrufqualit\u00e4t f\u00fcr Millionen von Reads. Obwohl die Dateigr\u00f6\u00dfe von der tats\u00e4chlichen Anzahl der Reads abh\u00e4ngt, sind FASTQ-Dateien in der Regel gro\u00df (in der Gr\u00f6\u00dfenordnung von Megabytes und Gigabytes) und komprimiert. Die meisten Tools, die FASTQ-Dateien als Eingabe verwenden, k\u00f6nnen sie in komprimiertem Format verarbeiten. Um Speicherplatz zu sparen, wird empfohlen, sie nicht zu dekomprimieren. Als Konvention werde ich hier eine FASTQ-Datei mit einer Sequenzierungsprobe gleichsetzen.<\/span><\/p>\n<p><a href=\"https:\/\/www.bioinformatics.babraham.ac.uk\/projects\/fastqc\/\"><span style=\"font-weight: 300;\">FastQC<\/span><\/a><span style=\"font-weight: 300;\"> ist wahrscheinlich das beliebteste Tool zur Durchf\u00fchrung der Qualit\u00e4tskontrolle von Rohdaten. Es kann \u00fcber eine visuelle Schnittstelle oder programmatisch ausgef\u00fchrt werden. W\u00e4hrend die erste Option f\u00fcr Benutzer, die sich mit der Befehlszeilenumgebung nicht wohlf\u00fchlen, bequemer ist, bietet die letztere eine unvergleichliche Skalierbarkeit und Reproduzierbarkeit (man denke nur daran, wie m\u00fchsam und fehleranf\u00e4llig es sein kann, das Tool manuell f\u00fcr Dutzende von Dateien auszuf\u00fchren). Wie auch immer, die Hauptausgabe von FastQC ist eine <\/span><a href=\"https:\/\/www.bioinformatics.babraham.ac.uk\/projects\/fastqc\/good_sequence_short_fastqc.html\"><span style=\"font-weight: 300;\">HTML-Datei<\/span><\/a><span style=\"font-weight: 300;\"> die wichtige zusammenfassende Statistiken \u00fcber die Gesamtqualit\u00e4t der Rohsequenzierungs-Reads einer bestimmten Probe liefern. Es ist m\u00fchsam, Dutzende von FastQC-Berichten einzeln zu pr\u00fcfen, und es erschwert den Vergleich zwischen verschiedenen Proben. Daher sollten Sie Folgendes verwenden <\/span><a href=\"https:\/\/multiqc.info\/\"><span style=\"font-weight: 300;\">MultiQC<\/span><\/a><span style=\"font-weight: 300;\">das die HTML-Berichte von FastQC (sowie von anderen nachgeschalteten Tools, z. B. Adapter Trimming, Alignment) in einem einzigen Bericht zusammenfasst<\/span><span style=\"font-weight: 300;\">.<\/span><\/p>\n<div id=\"attachment_7265\" style=\"width: 712px\" class=\"wp-caption alignnone\"><img aria-describedby=\"caption-attachment-7265\" decoding=\"async\" loading=\"lazy\" class=\"wp-image-7265 size-large\" src=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-1024x576.png\" alt=\"\" width=\"702\" height=\"395\" srcset=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-1024x576.png 1024w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-300x169.png 300w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-768x432.png 768w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-1536x864.png 1536w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-1080x608.png 1080w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC.png 1600w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/MultiQC-300x169@2x.png 600w\" sizes=\"(max-width: 702px) 100vw, 702px\" \/><p id=\"caption-attachment-7265\" class=\"wp-caption-text\">MultiQC<\/p><\/div>\n<p><span style=\"font-weight: 300;\">Die QC-Informationen sollen es dem Benutzer erm\u00f6glichen zu beurteilen, ob die Proben von guter Qualit\u00e4t sind und daher f\u00fcr die nachfolgenden Schritte verwendet werden k\u00f6nnen oder ob sie verworfen werden m\u00fcssen. Leider gibt es keinen einheitlichen Schwellenwert auf der Grundlage der FastQC-Metriken, um Proben als von guter oder schlechter Qualit\u00e4t zu klassifizieren. Der von mir verwendete Ansatz ist der folgende. Ich erwarte, dass alle Proben, die dasselbe Verfahren durchlaufen haben (z. B. DNA-Extraktion, Bibliotheksvorbereitung), \u00e4hnliche Qualit\u00e4tsstatistiken und eine Mehrheit von \"Pass\"-Flags aufweisen. Wenn einige Proben eine unterdurchschnittliche Qualit\u00e4t aufweisen, verwende ich sie dennoch in der nachgelagerten Analyse, wobei ich dies ber\u00fccksichtige. Andererseits, wenn alle Proben im Experiment systematisch \"Warnung\" oder \"Nicht bestanden\" in mehreren Metriken erhalten (siehe <\/span><a href=\"https:\/\/www.bioinformatics.babraham.ac.uk\/projects\/fastqc\/bad_sequence_fastqc.html\"><span style=\"font-weight: 300;\">dieses Beispiel<\/span><\/a><span style=\"font-weight: 300;\">), vermute ich, dass bei dem Experiment etwas schief gelaufen ist (z. B. schlechte DNA-Qualit\u00e4t, Bibliotheksvorbereitung usw.), und ich empfehle, es zu wiederholen.<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Read_trimming\"><\/span><b>Beschneiden lesen<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">Die Qualit\u00e4tskontrolle von Rohdaten hilft, problematische Proben zu identifizieren, verbessert aber nicht die tats\u00e4chliche Qualit\u00e4t der Daten. Zu diesem Zweck m\u00fcssen wir die Reads trimmen, um technische Sequenzen und qualitativ schlechte Enden zu entfernen.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Technische Sequenzen sind \u00dcberbleibsel des experimentellen Verfahrens (z. B. Sequenzieradapter). Wenn solche Sequenzen an die tats\u00e4chliche Sequenz des Reads angrenzen, kann das Alignment (siehe unten) die Reads an der falschen Position im Genom zuordnen oder das Vertrauen in ein bestimmtes Alignment verringern. Neben technischen Sequenzen k\u00f6nnen auch Sequenzen biologischen Ursprungs entfernt werden, wenn diese in den Reads stark vertreten sind. So kann beispielsweise bei suboptimalen DNA-Pr\u00e4parationsverfahren ein hoher Anteil an DNA-umgewandelter ribosomaler RNA (rRNA) in der Probe zur\u00fcckbleiben. Sofern diese Art von Nukleins\u00e4ure nicht das Ziel des Sequenzierungsexperiments ist, erh\u00f6ht die Beibehaltung von Reads, die von rRNA stammen, nur den Rechenaufwand der nachgeschalteten Schritte und kann die Ergebnisse verf\u00e4lschen. Wenn der Anteil an technischen Sequenzen, rRNA oder anderen Verunreinigungen sehr hoch ist, was wahrscheinlich bereits bei der Qualit\u00e4tskontrolle festgestellt wurde, sollten Sie die gesamte Sequenzierprobe verwerfen.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Bei der Short-Read-Sequenzierung wird die DNA-Sequenz Nukleotid f\u00fcr Nukleotid bestimmt (technisch gesehen ein Nukleotid pro Sequenzierzyklus). Mit anderen Worten: Die Anzahl der Sequenzierzyklen bestimmt die Lesel\u00e4nge. Ein bekanntes Problem der HTS-Sequenzierungsmethoden ist die Abnahme der Genauigkeit, mit der die Nukleotide bestimmt werden, wenn die Sequenzierungszyklen zunehmen. Dies spiegelt sich in einer allgemeinen Abnahme der Qualit\u00e4t des Callings pro Base wider, insbesondere gegen Ende des Reads. Wie bei technischen Sequenzen kann der Versuch, Reads mit minderwertigen Enden zu alignieren, zu Fehlplatzierungen oder schlechter Mapping-Qualit\u00e4t f\u00fchren.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Zur Entfernung von technischen\/verunreinigenden Sequenzen und minderwertigen Enden lesen Sie Trimming-Tools wie <\/span><a href=\"http:\/\/www.usadellab.org\/cms\/?page=trimmomatic\"><span style=\"font-weight: 300;\">Trimmomatic<\/span><\/a><span style=\"font-weight: 300;\"> und <\/span><a href=\"https:\/\/cutadapt.readthedocs.io\/en\/stable\/\"><span style=\"font-weight: 300;\">Cutadapt<\/span><\/a><span style=\"font-weight: 300;\"> existieren und sind weit verbreitet. Im Wesentlichen entfernen solche Tools technische Sequenzen (intern verf\u00fcgbar und\/oder vom Nutzer bereitgestellt) und trimmen Reads auf der Grundlage der Qualit\u00e4t bei gleichzeitiger Maximierung der Lesel\u00e4nge. Reads, die nach dem Trimming zu kurz sind, werden verworfen (zu kurze Reads, z. B. &lt;36 Nukleotide, erschweren den Alignment-Schritt, da sie wahrscheinlich mehreren Stellen im Genom zugeordnet sind). Sie sollten sich den Prozentsatz der Reads ansehen, die das Trimming \u00fcberleben, da ein hoher Anteil an verworfenen Reads wahrscheinlich ein Zeichen f\u00fcr schlechte Datenqualit\u00e4t ist.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Abschlie\u00dfend f\u00fchre ich in der Regel FastQC erneut auf den getrimmten Reads aus, um zu \u00fcberpr\u00fcfen, ob dieser Schritt effektiv war und die QC-Metriken systematisch verbessert hat.<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Alignment\"><\/span><b>Ausrichtung<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">Mit Ausnahmen (z.B. <\/span><a href=\"https:\/\/en.wikipedia.org\/wiki\/De_novo_sequence_assemblers\"><span style=\"font-weight: 300;\">De-novo-Versammlung<\/span><\/a><span style=\"font-weight: 300;\">) ist das Alignment (auch als Mapping bezeichnet) bei den meisten HTS-Datentypen und -Anwendungen der n\u00e4chste Schritt. Das Read-Alignment besteht in der Bestimmung der Position im Genom, von der die Sequenz des Reads stammt (in der Regel ausgedr\u00fcckt als Chromosom:Start-Ende). Daher ben\u00f6tigen wir in diesem Schritt eine Referenzsequenz, an der wir die Reads ausrichten\/zuordnen k\u00f6nnen.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Die Wahl der Referenzsequenz wird durch mehrere Faktoren bestimmt. Zum einen von der Art, von der die sequenzierte DNA stammt. W\u00e4hrend die Zahl der Arten, f\u00fcr die eine qualitativ hochwertige Referenzsequenz zur Verf\u00fcgung steht, zunimmt, kann dies bei einigen weniger erforschten Organismen noch nicht der Fall sein. In diesen F\u00e4llen sollten Sie die Reads an einer evolutiv nahen Art ausrichten, f\u00fcr die ein Referenzgenom verf\u00fcgbar ist. Da es zum Beispiel keine Referenzsequenz f\u00fcr das Genom des Kojoten gibt, k\u00f6nnen wir f\u00fcr das Read-Alignment die Sequenz des nahe verwandten Hundes verwenden. Ebenso kann es sein, dass wir unsere Reads an einer eng verwandten Art ausrichten wollen, f\u00fcr die eine qualitativ hochwertigere Referenzsequenz existiert. Das Genom des Gibbons zum Beispiel ist zwar bereits <\/span><a href=\"https:\/\/www.nature.com\/articles\/nature13679\"><span style=\"font-weight: 300;\">ver\u00f6ffentlicht<\/span><\/a><span style=\"font-weight: 300;\">Dieses ist in Tausende von Fragmenten zerlegt, die die Organisation dieses Genoms in Dutzende von Chromosomen nicht vollst\u00e4ndig wiedergeben. In diesem Fall kann es von Vorteil sein, den Abgleich anhand der menschlichen Referenzsequenz durchzuf\u00fchren.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Ein weiterer zu ber\u00fccksichtigender Faktor ist die Version der Referenzsequenz, da neue Versionen ver\u00f6ffentlicht werden, wenn die Sequenz aktualisiert und verbessert wird. Wichtig ist, dass die Koordinaten eines bestimmten Alignments zwischen den Versionen variieren k\u00f6nnen. So finden sich beispielsweise mehrere Versionen des menschlichen Genoms in der <\/span><a href=\"https:\/\/genome.ucsc.edu\/cgi-bin\/hgGateway?redirect=manual&amp;source=genome.ucsc.edu\"><span style=\"font-weight: 300;\">UCSC Genom-Browser<\/span><\/a><span style=\"font-weight: 300;\">. Auf jeden Fall empfehle ich, auf die neueste Assembly-Version zu migrieren, sobald diese vollst\u00e4ndig freigegeben ist. Dies kann w\u00e4hrend der Umstellung zu einigen Unannehmlichkeiten f\u00fchren, da bereits vorhandene Ergebnisse auf \u00e4ltere Versionen bezogen werden, aber langfristig zahlt es sich aus.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Au\u00dferdem spielt die Art der Sequenzierungsdaten eine Rolle. Reads, die aus DNA-seq-, ChIP-seq- oder Hi-C-Protokollen stammen, werden an der Genomreferenzsequenz ausgerichtet. Da jedoch die von der DNA transkribierte RNA zu mRNA weiterverarbeitet wird (d. h. Introns werden entfernt), k\u00f6nnen viele RNA-seq-Reads nicht an einer Genomreferenzsequenz ausgerichtet werden. Stattdessen m\u00fcssen wir sie entweder an Transkriptom-Referenzsequenzen ausrichten oder split-aware Aligner verwenden (siehe unten), wenn wir die Genomsequenz als Referenz verwenden. Damit verbunden ist die Wahl der Quelle f\u00fcr die Annotation der Referenzsequenz, d. h. der Datenbank mit den Koordinaten der Gene, Transkripte, Zentromere usw. Ich verwende normalerweise die <\/span><a href=\"https:\/\/www.gencodegenes.org\/human\/\"><span style=\"font-weight: 300;\">GENCODE-Anmerkung<\/span><\/a><span style=\"font-weight: 300;\"> da es eine umfassende Genannotation und Transkriptsequenzen kombiniert.<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Eine lange Liste von Short-Read-Sequence-Alignment-Tools wurde entwickelt (siehe den Abschnitt Short-Read-Sequence-Alignment <\/span><a href=\"https:\/\/en.wikipedia.org\/wiki\/List_of_sequence_alignment_software\"><span style=\"font-weight: 300;\">hier<\/span><\/a><span style=\"font-weight: 300;\">). Es w\u00fcrde den Rahmen dieses Artikels sprengen, auf sie einzugehen (Einzelheiten zu den Algorithmen hinter diesen Tools finden Sie <\/span><a href=\"https:\/\/www.ncbi.nlm.nih.gov\/pmc\/articles\/PMC5425171\/\"><span style=\"font-weight: 300;\">hier<\/span><\/a><span style=\"font-weight: 300;\">). Meiner Erfahrung nach sind die beliebtesten <\/span><a href=\"http:\/\/bowtie-bio.sourceforge.net\/bowtie2\/index.shtml\"><span style=\"font-weight: 300;\">Bowtie2<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"http:\/\/bio-bwa.sourceforge.net\/\"><span style=\"font-weight: 300;\">BWA<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"http:\/\/daehwankimlab.github.io\/hisat2\/\"><span style=\"font-weight: 300;\">HISAT2<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"https:\/\/github.com\/lh3\/minimap2\"><span style=\"font-weight: 300;\">Minimap2<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"https:\/\/www.ncbi.nlm.nih.gov\/pmc\/articles\/PMC3530905\/\"><span style=\"font-weight: 300;\">STAR<\/span><\/a><span style=\"font-weight: 300;\"> und <\/span><a href=\"http:\/\/ccb.jhu.edu\/software\/tophat\/index.shtml\"><span style=\"font-weight: 300;\">TopHat<\/span><\/a><span style=\"font-weight: 300;\">. Ich empfehle Ihnen, Ihr Aligner unter Ber\u00fccksichtigung von Schl\u00fcsselfaktoren wie der Art der HTS-Daten auszuw\u00e4hlen<\/span><span style=\"font-weight: 300;\"> und Anwendung sowie die Akzeptanz in der Gemeinschaft, die Qualit\u00e4t der Dokumentation und die Anzahl der Nutzer. Man braucht z. B. Aligner wie STAR oder Bowtie2, die Exon-Exon-Verbindungen bei der Zuordnung von RNA-seq zum Genom ber\u00fccksichtigen.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Den meisten Mappern ist gemeinsam, dass sie die als Referenz verwendete Sequenz indizieren m\u00fcssen, bevor das eigentliche Alignment stattfindet. Dieser Schritt kann zeitaufwendig sein, muss aber nur einmal f\u00fcr jede Referenzsequenz durchgef\u00fchrt werden. Die meisten Mapper speichern die Alignments in SAM\/BAM-Dateien, die nach dem <\/span><a href=\"https:\/\/samtools.github.io\/hts-specs\/SAMv1.pdf\"><span style=\"font-weight: 300;\">SAM\/BAM-Format<\/span><\/a><span style=\"font-weight: 300;\"> (BAM-Dateien sind bin\u00e4re Versionen von SAM-Dateien). Das Alignment geh\u00f6rt zu den rechenintensivsten und zeitaufw\u00e4ndigsten Schritten bei der Analyse von Sequenzierungsdaten, und SAM\/BAM-Dateien sind sehr gro\u00df (in der Gr\u00f6\u00dfenordnung von Gigabytes). Daher m\u00fcssen Sie sicherstellen, dass Sie \u00fcber die erforderlichen Ressourcen verf\u00fcgen (siehe den letzten Abschnitt unten), um das Alignment in einer angemessenen Zeit durchzuf\u00fchren und die Ergebnisse zu speichern. Aufgrund der Gr\u00f6\u00dfe und des Bin\u00e4rformats von BAM-Dateien sollten Sie sie nicht mit Texteditoren \u00f6ffnen, sondern Unix-Befehle oder spezielle Tools wie <\/span><a href=\"http:\/\/www.htslib.org\/\"><span style=\"font-weight: 300;\">SAMtools<\/span><\/a><span style=\"font-weight: 300;\">.<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"From_the_alignments\"><\/span><b>Von den Alignments<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">Ich w\u00fcrde sagen, dass es nach dem Abgleich keinen eindeutigen gemeinsamen Schritt gibt, da sich an diesem Punkt jeder HTS-Datentyp und jede Anwendung unterscheiden kann.\u00a0<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Eine g\u00e4ngige nachgelagerte Analyse f\u00fcr DNA-seq-Daten ist das Varianten-Calling, d. h. die Identifizierung von Positionen im Genom, die im Vergleich zur Genomreferenz und zwischen Individuen variieren. Ein beliebter Analyserahmen f\u00fcr diese Anwendung ist <\/span><a href=\"https:\/\/gatk.broadinstitute.org\/hc\/en-us\"><span style=\"font-weight: 300;\">GATK<\/span><\/a><span style=\"font-weight: 300;\"> f\u00fcr Einzelnukleotid-Polymorphismus (SNP) oder kleine Insertionen\/Deletionen (Indels) (<\/span><b>Abbildung 2<\/b><span style=\"font-weight: 300;\">). Varianten, die gr\u00f6\u00dfere DNA-Bl\u00f6cke umfassen (auch als Strukturvarianten bezeichnet), erfordern spezielle Aufrufmethoden (siehe <\/span><a href=\"https:\/\/genomebiology.biomedcentral.com\/articles\/10.1186\/s13059-019-1720-5\"><span style=\"font-weight: 300;\">dieser Artikel<\/span><\/a><span style=\"font-weight: 300;\"> f\u00fcr einen umfassenden Vergleich). Wie bei den Alignern empfehle ich, bei der Auswahl des richtigen Tools Schl\u00fcsselfaktoren wie die Art der Varianten (SNP, Indel oder strukturelle Varianten), die Akzeptanz in der Gemeinschaft, die Qualit\u00e4t der Dokumentation und die Anzahl der Nutzer zu ber\u00fccksichtigen.<\/span><\/p>\n<p><img decoding=\"async\" loading=\"lazy\" class=\"alignnone wp-image-7262 size-large\" src=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-1024x576.png\" alt=\"\" width=\"702\" height=\"395\" srcset=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-1024x576.png 1024w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-300x169.png 300w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-768x432.png 768w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-1536x864.png 1536w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-1080x608.png 1080w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk.png 1600w, https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/gatk-300x169@2x.png 600w\" sizes=\"(max-width: 702px) 100vw, 702px\" \/><\/p>\n<p><span style=\"font-weight: 300;\">Die wahrscheinlich h\u00e4ufigste Anwendung von RNA-seq ist die Quantifizierung der Genexpression. In der Vergangenheit mussten die Reads an die Referenzsequenz angeglichen werden, und dann wurde die Anzahl der Reads, die an ein bestimmtes Gen oder Transkript angeglichen wurden, als N\u00e4herungswert f\u00fcr die Quantifizierung seiner Expressionswerte verwendet. Dieser Ansatz von Alignment und Quantifizierung wird von Tools wie <\/span><a href=\"http:\/\/cole-trapnell-lab.github.io\/cufflinks\/manual\/\"><span style=\"font-weight: 300;\">Manschettenkn\u00f6pfe<\/span><\/a><span style=\"font-weight: 300;\">, <\/span><a href=\"https:\/\/github.com\/deweylab\/RSEM\"><span style=\"font-weight: 300;\">RSEM<\/span><\/a><span style=\"font-weight: 300;\"> oder <\/span><a href=\"http:\/\/subread.sourceforge.net\/\"><span style=\"font-weight: 300;\">featureCounts<\/span><\/a><span style=\"font-weight: 300;\">. Dieser Ansatz wird jedoch zunehmend von neueren Methoden \u00fcberholt, die in Software wie <\/span><a href=\"https:\/\/pachterlab.github.io\/kallisto\/\"><span style=\"font-weight: 300;\">Kallisto<\/span><\/a><span style=\"font-weight: 300;\"> und <\/span><a href=\"https:\/\/combine-lab.github.io\/salmon\/\"><span style=\"font-weight: 300;\">Lachs<\/span><\/a><span style=\"font-weight: 300;\">. Mit solchen Werkzeugen muss nicht die gesamte Sequenz eines Read an die Referenzsequenz angeglichen werden. Stattdessen m\u00fcssen wir nur gen\u00fcgend Nukleotide alignieren, um sicher zu sein, dass ein Read von einem bestimmten Transkript stammt. Vereinfacht ausgedr\u00fcckt, wird der Ansatz von Alignment und Quantifizierung auf einen einzigen Schritt reduziert. Dieser Ansatz wird als Pseudo-Mapping bezeichnet und erh\u00f6ht die Geschwindigkeit der Quantifizierung der Genexpression erheblich. Auf der anderen Seite ist zu beachten, dass Pseudo-Mapping nicht f\u00fcr Anwendungen geeignet ist, bei denen ein vollst\u00e4ndiges Alignment erforderlich ist (z. B. Variantenaufruf aus RNA-seq-Daten).<\/span><\/p>\n<p><span style=\"font-weight: 300;\">Ein weiteres Beispiel f\u00fcr die Unterschiede in den nachgelagerten Analyseschritten und den erforderlichen Werkzeugen bei sequenzierungsbasierten Anwendungen ist ChIP-seq. Die mit dieser Technik erzeugten Reads werden f\u00fcr das Peak-Calling verwendet, das darin besteht, Regionen im Genom mit einem signifikanten \u00dcberschuss an Reads aufzusp\u00fcren, die anzeigen, wo das Zielprotein gebunden ist. Es gibt mehrere Peak-Caller und <\/span><a href=\"https:\/\/academic.oup.com\/bib\/article\/18\/3\/441\/2453291\"><span style=\"font-weight: 300;\">diese Ver\u00f6ffentlichung<\/span><\/a><span style=\"font-weight: 300;\"> untersucht sie. Als letztes Beispiel m\u00f6chte ich die Hi-C-Daten nennen, bei denen Alignments als Input f\u00fcr Tools verwendet werden, die die Interaktionsmatrizen und daraus die 3D-Merkmale des Genoms bestimmen. Es w\u00fcrde den Rahmen dieses Artikels sprengen, alle sequenzierungsbasierten Assays zu kommentieren (eine relativ vollst\u00e4ndige Liste finden Sie unter <\/span><a href=\"https:\/\/liorpachter.wordpress.com\/seq\/\"><span style=\"font-weight: 300;\">dieser Artikel<\/span><\/a><span style=\"font-weight: 300;\">).<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"Before_you_start%E2%80%A6\"><\/span><b>Bevor Sie anfangen...<\/b><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p><span style=\"font-weight: 300;\">Der verbleibende Teil dieses Artikels befasst sich mit Aspekten, die nicht unbedingt als Schritte bei der Analyse von HTS-Daten angesehen werden k\u00f6nnen und die weitgehend ignoriert werden. Im Gegensatz dazu behaupte ich, dass es von entscheidender Bedeutung ist, dass Sie \u00fcber die Fragen nachdenken, die in <\/span><b>Tabelle 1<\/b><span style=\"font-weight: 300;\"> bevor Sie mit der Analyse von HTS-Daten (oder \u00fcberhaupt von Daten) beginnen, und ich habe \u00fcber diese Themen geschrieben <\/span><a href=\"https:\/\/www.slideshare.net\/slideshow\/embed_code\/key\/vwyxcqSsQTYBhl\"><span style=\"font-weight: 300;\">hier<\/span><\/a><span style=\"font-weight: 300;\"> und <\/span><a href=\"https:\/\/academic.oup.com\/gigascience\/article\/6\/11\/gix100\/4557140\"><span style=\"font-weight: 300;\">hier<\/span><\/a><span style=\"font-weight: 300;\">.<\/span><\/p>\n<p><b>Tabelle 1<\/b><\/p>\n<table>\n<tbody>\n<tr>\n<td><b>\u00dcberlegen Sie es sich<\/b><\/td>\n<td><b>Vorgeschlagene Ma\u00dfnahme<\/b><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">Verf\u00fcgen Sie \u00fcber alle f\u00fcr die Analyse erforderlichen Informationen zu Ihrer Probe?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Systematische Erfassung der Metadaten der Experimente<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">Werden Sie in der Lage sein, Ihre Probe eindeutig zu identifizieren?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Einrichtung eines Systems, das jeder Probe eine eindeutige Kennung zuweist<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">Wo werden die Daten und Ergebnisse gespeichert?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Strukturierte und hierarchische Organisation der Daten<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">Werden Sie in der Lage sein, mehrere Proben nahtlos zu verarbeiten?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Skalierbarkeit, Parallelisierung, automatische Konfiguration und Modularit\u00e4t des Codes<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 300;\">K\u00f6nnen Sie oder jemand anderes die Ergebnisse reproduzieren?<\/span><\/td>\n<td><span style=\"font-weight: 300;\">Dokumentieren Sie Ihren Code und Ihre Verfahren!<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>&nbsp;<\/p>\n<p><span style=\"font-weight: 300;\">Wie bereits erw\u00e4hnt, liegen die HTS-Rohdaten und einige der bei ihrer Analyse erzeugten Dateien in der Gr\u00f6\u00dfenordnung von Gigabytes, so dass es nicht ungew\u00f6hnlich ist, dass ein Projekt mit Dutzenden von Proben Terabytes an Speicherplatz ben\u00f6tigt. Au\u00dferdem sind einige Schritte bei der Analyse von HTS-Daten rechenintensiv (z. B. das Alignment). Die f\u00fcr die Analyse von HTS-Daten erforderliche Speicher- und Datenverarbeitungsinfrastruktur ist jedoch ein wichtiger Aspekt, der oft \u00fcbersehen oder nicht diskutiert wird. Als Beispiel haben wir im Rahmen einer k\u00fcrzlich durchgef\u00fchrten Analyse Dutzende von ver\u00f6ffentlichten Arbeiten durchgesehen, die ph\u00e4nomenweite Assoziationsanalysen (PheWAS) durchf\u00fchren. Bei modernen PheWAS werden 100-1.000 genetische Varianten und Ph\u00e4notypen analysiert, was zu einer erheblichen Datenspeicherung und Rechenleistung f\u00fchrt. Dennoch ging praktisch keine der von uns gepr\u00fcften Arbeiten auf die f\u00fcr die PheWAS-Analyse erforderliche Infrastruktur ein. Es \u00fcberrascht daher nicht, dass ich Ihnen empfehle, die Speicher- und Rechenanforderungen, mit denen Sie konfrontiert werden, im Voraus zu planen und sie mit der Gemeinschaft zu teilen.<\/span><\/p>\n<p><strong>Ben\u00f6tigen Sie Hilfe bei der Analyse von DNA-Sequenzierungsdaten? Nehmen Sie Kontakt auf mit <a href=\"https:\/\/www.kolabtree.com\/find-an-expert\/subject\/bioinformatics?utm_source=Blog&amp;utm_medium=Post&amp;utm_campaign=DNASeqGuide\">freelance bioinformatics specialist<\/a> und <a href=\"https:\/\/www.kolabtree.com\/find-an-expert\/subject\/genomics\">Genomik-Experten<\/a> auf Kolabtree.\u00a0<\/strong><\/p>","protected":false},"excerpt":{"rendered":"<p>Dr. Javier Quilez Oliete, an experienced freelance bioinformatics consultant on Kolabtree, provides a comprehensive guide to DNA sequencing data analysis, including tools and software used to read data.\u00a0 Introduction Deoxyribonucleic acid (DNA) is the molecule that carries most of the genetic information of an organism. (In some types of virus, genetic information is carried by<\/p>\n<div class=\"read-more\"><a href=\"https:\/\/www.kolabtree.com\/blog\/de\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/\" title=\"Mehr lesen\">Mehr lesen<\/a><\/div>","protected":false},"author":12,"featured_media":7266,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[442,398,435],"tags":[755,754],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO Premium plugin v20.1 (Yoast SEO v20.1) - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>A Step-By-Step Guide to DNA Sequencing Data Analysis<\/title>\n<meta name=\"description\" content=\"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.kolabtree.com\/blog\/de\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"A Step-By-Step Guide to DNA Sequencing Data Analysis\" \/>\n<meta property=\"og:description\" content=\"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.kolabtree.com\/blog\/de\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/\" \/>\n<meta property=\"og:site_name\" content=\"The Kolabtree Blog\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/kolabtree\" \/>\n<meta property=\"article:published_time\" content=\"2020-03-23T12:40:48+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2023-04-18T11:12:54+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/dna-sequencing-data-analysis-guide.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"1350\" \/>\n\t<meta property=\"og:image:height\" content=\"900\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Ramya Sriram\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@kolabtree\" \/>\n<meta name=\"twitter:site\" content=\"@kolabtree\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"Ramya Sriram\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"13\u00a0Minuten\" \/>\n<!-- \/ Yoast SEO Premium plugin. -->","yoast_head_json":{"title":"A Step-By-Step Guide to DNA Sequencing Data Analysis","description":"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.kolabtree.com\/blog\/de\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","og_locale":"de_DE","og_type":"article","og_title":"A Step-By-Step Guide to DNA Sequencing Data Analysis","og_description":"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.","og_url":"https:\/\/www.kolabtree.com\/blog\/de\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","og_site_name":"The Kolabtree Blog","article_publisher":"https:\/\/www.facebook.com\/kolabtree","article_published_time":"2020-03-23T12:40:48+00:00","article_modified_time":"2023-04-18T11:12:54+00:00","og_image":[{"width":1350,"height":900,"url":"https:\/\/www.kolabtree.com\/blog\/wp-content\/uploads\/2020\/03\/dna-sequencing-data-analysis-guide.jpg","type":"image\/jpeg"}],"author":"Ramya Sriram","twitter_card":"summary_large_image","twitter_creator":"@kolabtree","twitter_site":"@kolabtree","twitter_misc":{"Verfasst von":"Ramya Sriram","Gesch\u00e4tzte Lesezeit":"13\u00a0Minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#article","isPartOf":{"@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/"},"author":{"name":"Ramya Sriram","@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/person\/81992f5863a1b06d132a47822e7b4400"},"headline":"A Step-By-Step Guide to DNA Sequencing Data Analysis","datePublished":"2020-03-23T12:40:48+00:00","dateModified":"2023-04-18T11:12:54+00:00","mainEntityOfPage":{"@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/"},"wordCount":2769,"commentCount":0,"publisher":{"@id":"https:\/\/www.kolabtree.com\/blog\/#organization"},"keywords":["DNA Sequencing Data Analysts","Freelance Bioinformatics Consultants"],"articleSection":["Biotechnology","Data Science","Research"],"inLanguage":"de","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","url":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/","name":"A Step-By-Step Guide to DNA Sequencing Data Analysis","isPartOf":{"@id":"https:\/\/www.kolabtree.com\/blog\/#website"},"datePublished":"2020-03-23T12:40:48+00:00","dateModified":"2023-04-18T11:12:54+00:00","description":"An expert guide to DNA sequencing data analysis, including tools used for reading raw data, trimming reads and quality control.","breadcrumb":{"@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#breadcrumb"},"inLanguage":"de","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/www.kolabtree.com\/blog\/a-step-by-step-guide-to-dna-sequencing-data-analysis\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/www.kolabtree.com\/blog\/"},{"@type":"ListItem","position":2,"name":"A Step-By-Step Guide to DNA Sequencing Data Analysis"}]},{"@type":"WebSite","@id":"https:\/\/www.kolabtree.com\/blog\/#website","url":"https:\/\/www.kolabtree.com\/blog\/","name":"The Kolabtree Blog","description":"Expert Views on Science, Innovation and Product Development","publisher":{"@id":"https:\/\/www.kolabtree.com\/blog\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.kolabtree.com\/blog\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"de"},{"@type":"Organization","@id":"https:\/\/www.kolabtree.com\/blog\/#organization","name":"Kolabtree","url":"https:\/\/www.kolabtree.com\/blog\/","logo":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/logo\/image\/","url":"","contentUrl":"","caption":"Kolabtree"},"image":{"@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/kolabtree","https:\/\/twitter.com\/kolabtree","https:\/\/instagram.com\/kolabtree","https:\/\/www.linkedin.com\/company\/kolabtree","https:\/\/en.m.wikipedia.org\/wiki\/Kolabtree"]},{"@type":"Person","@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/person\/81992f5863a1b06d132a47822e7b4400","name":"Ramya Sriram","image":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/www.kolabtree.com\/blog\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/8100b45c960ebbbbe420e8b3f250515f?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/8100b45c960ebbbbe420e8b3f250515f?s=96&d=mm&r=g","caption":"Ramya Sriram"},"description":"Ramya Sriram manages digital content and communications at Kolabtree (kolabtree.com), the world's largest freelancing platform for scientists. She has over a decade of experience in publishing, advertising and digital content creation.","url":"https:\/\/www.kolabtree.com\/blog\/de\/author\/ramyas\/"}]}},"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/www.kolabtree.com\/blog\/de\/wp-json\/wp\/v2\/posts\/7246"}],"collection":[{"href":"https:\/\/www.kolabtree.com\/blog\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.kolabtree.com\/blog\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/de\/wp-json\/wp\/v2\/users\/12"}],"replies":[{"embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/de\/wp-json\/wp\/v2\/comments?post=7246"}],"version-history":[{"count":8,"href":"https:\/\/www.kolabtree.com\/blog\/de\/wp-json\/wp\/v2\/posts\/7246\/revisions"}],"predecessor-version":[{"id":10583,"href":"https:\/\/www.kolabtree.com\/blog\/de\/wp-json\/wp\/v2\/posts\/7246\/revisions\/10583"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/de\/wp-json\/wp\/v2\/media\/7266"}],"wp:attachment":[{"href":"https:\/\/www.kolabtree.com\/blog\/de\/wp-json\/wp\/v2\/media?parent=7246"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/de\/wp-json\/wp\/v2\/categories?post=7246"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.kolabtree.com\/blog\/de\/wp-json\/wp\/v2\/tags?post=7246"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}