Information

Reicht das Festlegen von hohen Mismatch- und Gap-Strafen aus, um perfekte Mapping-Reads zu unterscheiden?

Reicht das Festlegen von hohen Mismatch- und Gap-Strafen aus, um perfekte Mapping-Reads zu unterscheiden?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich habe einen fetten Haufen von 125bp Whole Genom Shotgun Reads, die einer Qualitätskontrolle unterzogen wurden, und ich möchte nur diese Reads herausziehen, die nicht perfekt auf das Genom abbilden. Wenn ich extrem hohe Strafen für Mismatches und Gap Opens/Extensions (mitbwa mem -B 1000 -O [1000,1000] -E [1000,1000]), es sieht aus wie die Ausrichtungen für die perfekte Zuordnung von Lesevorgängen werden angezeigt, und der Rest der Lesevorgänge wird als nicht zugeordnet gemeldet. Wenn dies wahr ist, könnte ich dann die nicht zugeordneten Reads mit herausziehensamtools -f 4.

Gibt es hier irgendwelche Lücken in meiner Argumentation, oder wird es funktionieren, alle Reads zu verwerfen, die perfekt zum Genom passen?


Die kurze Antwort: Nein, das Festlegen extrem hoher Strafen (100 oder 1000) scheint nicht zu funktionieren. Ich bin mir nicht sicher warum.

Die mittlere Antwort: Da ich die Frage gepostet habe, habe ich ein wenig nachgeforscht, und es sieht so aus, als ob die Reads, die perfekt übereinstimmen, die Reads sind, die nicht weich abgeschnitten sind und einen Bearbeitungsabstand von Null haben, wie durch die CIGAR-Zeichenfolge und das NM-Tag angegeben. bzw.

Die lange Antwort: Siehe https://standage.github.io/how-to-distinguish-perfectly-mapped-reads-from-a-sambam-file.html.


Die bevorzugte Methode besteht darin, normal zuzuordnen und dann stromabwärts unvollkommene Übereinstimmungen herauszufiltern:

bwa mem ref.fa liest.fq | perl -ane 'print if /^@/ || ($F[5]=~/^d+M$/ && /	NM:i:0/)'

Das Ändern des Bewertungsschemas beeinträchtigt die Kartierungsgenauigkeit.


Verbesserung der Lesekartierung alter DNA gegenüber modernen Referenzgenomen

Next-Generation Sequencing hat unseren Ansatz zur Erforschung alter DNA (aDNA) revolutioniert, indem es vollständige Genomsequenzen alter Individuen und ausgestorbener Arten bereitstellt. Die Gewinnung von genetischem Material aus längst verstorbenen Organismen wird jedoch immer noch durch eine Reihe von Problemen erschwert, darunter Obduktion DNA-Schäden und hohe Umweltverschmutzung. Zusammen mit Fehlerprofilen, die für die Art der verwendeten Sequenzierungsplattformen spezifisch sind, könnten diese Spezifitäten unsere Fähigkeit einschränken, Sequenzierungs-Reads gegen moderne Referenzgenome abzubilden und daher unsere Fähigkeit, endogene antike Reads zu identifizieren, einschränken, was die Effizienz der Shotgun-Sequenzierung von aDNA verringert.

Ergebnisse

In dieser Studie vergleichen wir verschiedene Computermethoden zur Verbesserung der Genauigkeit und Sensitivität der aDNA-Sequenzidentifikation, basierend auf Shotgun-Sequenzierungs-Reads, die aus pleistozänen Pferdeextrakten mit Illumina GAIIx und Helicos Heliscope-Plattformen gewonnen wurden. Wir zeigen, dass die Leistung des Burrows Wheeler Aligner (BWA), der für das Mapping von unbeschädigten Sequenzierungs-Reads unter Verwendung von Plattformen mit niedrigen Raten von Sequenzierungsfehlern vom Indel-Typ entwickelt wurde, zu akzeptablen Laufzeiten genutzt werden kann, indem Standardparameter in modifiziert werden plattformspezifisch. Wir untersuchen auch, ob das Trimmen wahrscheinlich beschädigter Positionen an den Leseenden die Wiedergewinnung echter aDNA-Fragmente erhöhen kann und ob eine genaue Identifizierung einer menschlichen Kontamination mit einer zuvor vorgeschlagenen Strategie basierend auf der besten Trefferfilterung erreicht werden kann. Wir zeigen, dass die Kombination unserer verschiedenen Kartierungs- und Filteransätze die Anzahl der wiedergefundenen hochwertigen endogenen Treffer um bis zu 33% erhöhen kann.

Schlussfolgerungen

Wir haben gezeigt, dass aus aDNA-Extrakten gewonnene Illumina- und Helicos-Sequenzen nicht mit der gleichen Effizienz an moderne Referenzgenome angepasst werden können, es sei denn, die Kartierungsparameter werden für die spezifischen Fehlerarten optimiert, die von diesen Plattformen und durch Obduktion DNA-Schäden. Unsere Ergebnisse haben wichtige Auswirkungen auf die zukünftige aDNA-Forschung, da wir Kartierungsrichtlinien definieren, die unsere Fähigkeit verbessern, echte aDNA-Sequenzen zu identifizieren, was wiederum die Genotypisierungsgenauigkeit alter Proben verbessern könnte. Unser Framework bietet eine deutliche Verbesserung gegenüber den Standardverfahren zur Charakterisierung alter Genome, die durch Kontamination und oft geringe Mengen an DNA-Material in Frage gestellt werden.


Hintergrund

Die High-Throughput-Sequencing (HTS)-Technologie hat in letzter Zeit eine rasante und beeindruckende Entwicklung gezeigt, die dazu geführt hat, dass in wenigen Stunden Giabasen der Sequenz zu einem Bruchteil der früheren Kosten hergestellt werden können [1]. HTS hat dank der Entwicklung spezifischer Anwendungen wie der Genom-Resequenzierung (Genom-Sequenzierung und gezielte Sequenzierung) eine Wissensexplosion in der Genetik und Genomik hervorgebracht. Parallel zu dieser technologischen Entwicklung wurden neue Algorithmen entwickelt, um mit der Quantität und Qualität der erzeugten Lesevorgänge umzugehen. Ein grundlegender Analyseschritt bei Resequenzierungsansätzen ist die Kartierung der Reads auf ein Referenzgenom. Dieser Schritt, der die genaue Positionierung von Reads auf einer Referenzgenomsequenz beinhaltet, ist von großer Bedeutung, da er die globale Qualität von Downstream-Analysen bestimmt. Die für diesen Schritt verwendeten Algorithmen werden Mapper genannt. Mapper müssen empfindlich und genau und möglichst schnell und nicht zu rechenintensiv sein. Sie sollten in der Lage sein, die wahre Position jedes Reads auf einem Referenzgenom zu finden und idealerweise zwischen technischen Sequenzierungsfehlern und natürlichen genetischen Variationen zu unterscheiden.

In den letzten Jahren wurden viele Mapper entwickelt und vertrieben (mehr als 60 Mapper sind in [2] aufgeführt). Zwei Studien [2, 3] haben Mapper mit einer Vielzahl von Merkmalen klassifiziert, darunter: die Art der Daten, ihre Anwendung, die Sequenzierungsplattform, die Leselänge, die zulässige Fehlerrate, die parallele Implementierung, die Fähigkeit, mit mehreren zugeordnete Lesevorgänge (d.h. an mehreren Orten ausgerichtete Lesevorgänge), die Eingabe- und Ausgabeformate und die verfügbaren Parameter. Mapper haben sich vervielfacht und damit auch der Bereich der möglichen Einstellungen. Daher wurde die zunehmende Schwierigkeit bei der Auswahl eines Mappers in neueren Studien angesprochen, die darauf abzielten, die Mapper-Leistungen durch eine Vielzahl von Vergleichskriterien zu bewerten. Einige dieser Studien konzentrierten sich auf die Mapper-Sensitivität (Fähigkeit, Reads korrekt abzubilden) [4–6]. Schbad et al. untersuchten die Fähigkeit von Mappern, einzigartige und mehrfach zugeordnete Reads zu identifizieren, indem ein gut kontrollierter Benchmark verwendet wurde, der Reads mit genau drei Mismatches enthielt [7]. Hatem et al. führte eine Benchmarking-Suite zur Analyse von Mapping-Tools ein [8], die aus Tests besteht, die Eingabeeigenschaften und algorithmische Merkmale abdecken.

Neben der Schwierigkeit bei der Festlegung von Bewertungskriterien, der Auswahl einer geeigneten Bewertungsmethode, d.h. Auch der Vergleich von Mappern nach den Bewertungskriterien und die Verwendung der entsprechenden Metriken sind problematisch. Die Verwendung echter Datensätze zur Bewertung der Mapper-Leistung ermöglicht nur eine grobe Bewertung und Klassifizierung von Mappern durch den Vergleich des Prozentsatzes der zugeordneten Lesevorgänge, zeigt jedoch nicht die tatsächliche Genauigkeit der Mapper. Es wurde versucht, diese Falle zu vermeiden, indem simulierte Datensätze verwendet wurden, in denen die ursprünglichen Lesepositionen bekannt sind. Eine weitere Schwierigkeit liegt in der genauen Definition dessen, was ein korrekt zugeordneter Read ist. Die grundlegende Definition besteht darin, einen Lesevorgang als korrekt abgebildet zu betrachten, wenn der ursprüngliche Ort wiederhergestellt wird [4]. Ruffalo et al. erweiterten diese Definition um eine Bedingung für den Qualitätsfaktor, der über einem bestimmten Schwellenwert liegen musste [5]. In einer neueren Arbeit [8] wurde eine neue Definition eingeführt, in der ein Read als korrekt abgebildet angesehen wurde, wenn die Mapping-Kriterien nicht verletzt wurden, d.h. enthielt weniger Fehler als der vom Benutzer eingestellte Schwellenwert.

Die Verwendung simulierter Daten ermöglicht es, numerische Werte zu erhalten und zwischen einem Satz von Mappern zu vergleichen. Simulierte Daten haben jedoch nicht dieselben Eigenschaften wie reale Daten, selbst wenn ein auf realen Daten basierendes Fehlermodell verwendet wird. Echte HTS-Daten weisen Verzerrungen auf [9], die sehr schwer zu simulieren sind. Darüber hinaus weist die derzeitige Definition der Mapping-Korrektheit, die nur auf der ursprünglichen Startposition basiert, einige Schwächen auf: Ein Read kann mehrere korrekte Positionen auf der Referenzsequenz haben und Sequenzierungsfehler oder echte genetische Variationen können zu einem besseren Alignment in einer anderen Genomposition als das Original. Holtwache et al. führten die Intervalldefinition anstelle der Genomposition ein, um ein Read-Mapping zu beschreiben [6] und verwendeten einen Full-Sensitivity-Algorithmus, um alle möglichen passenden Intervalle innerhalb eines gegebenen Fehlerratenbereichs für jeden Read zu identifizieren. Diese Methode wurde in RABEMA (Read Alignment BEnchMArk) implementiert, einem Tool, das das Ergebnis von beliebigen Read-Mappern auswertet, die das SAM-Ausgabeformat mit realen und simulierten Datensätzen unterstützen. Unsere Analyse der veröffentlichten Literatur zur Mapper-Evaluierung führte zu dem Schluss, dass für einen vollständigen und robusten Vergleich von Mappern reale und simulierte Datensätze verwendet werden sollten. Die Verwendung echter Datensätze vermeidet Simulationsfehler und gibt ein echtes Bild des Mapper-Verhaltens, während simulierte Datensätze Benchmarks sind, von denen aus alle Parameter kontrolliert werden können. Darüber hinaus muss eine solide, vollständigere Definition dessen, was einen korrekt zugeordneten Read ausmacht, in Betracht gezogen werden (siehe unten).

In allen vorherigen Studien wurde die Mapper-Leistung anhand großer eukaryontischer Genome (hauptsächlich des menschlichen Genoms) bewertet und größtenteils wurden kurze Illumina- oder Illumina-ähnliche Lesedaten verwendet, außer in [4, 6], wo 454 Datensätze ausgewertet wurden mit einer reduzierten Anzahl von Mappern und Metriken. Die Art der Sequenzierungsfehler und ihre Häufigkeit sind der Sequenzierungstechnologie und genauer den verwendeten Nukleotid-Elongations-Nachweisverfahren inhärent. So zeigte beispielsweise die Sequenzierung von Life Technologies durch Oligonukleotid-Ligation und -Detektion (SOLiD) eine starke Verzerrung bei der Abdeckung repetitiver Elemente [10], während die reversible Farbstoff-Terminator-Sequenzierungstechnologie (HiSeq) von Illumina hauptsächlich Substitutionen verursachte [11]. Pyrosequenzierung auf festem Träger (454/Roche) und Ionenhalbleiter-Sequenzierungstechnologie (Ion Torrent, Life Technologies) erzeugten Indel-Fehler im Zusammenhang mit Homopolymer-Regionen [12]. In den veröffentlichten Bewertungen wurden die getesteten Kriterien und die Standardparameter der Mapper in der Regel gewählt, um Fehler vom Substitutionstyp zu adressieren oder zu behandeln und sind daher weniger aussagekräftig für das Mapping der Reads von neuen Technologien wie der Ion Torrent-Plattform.

Darüber hinaus stellt die Analyse kleiner mikrobieller Genome im Vergleich zur Analyse großer eukaryontischer Genome andere Herausforderungen, da mikrobielle Genome eine große Bandbreite an GC-Gehalten aufweisen, die manchmal extrem ist. Sehr hoher oder sehr niedriger GC-Gehalt bedeutet, dass die Wahrscheinlichkeit hoch ist, in einer Genomsequenz auf Homopolymere zu stoßen, und dies ist bekanntermaßen ein spezifisches Problem für Pyrosequenzierung und Ionenhalbleitersequenzer. Eine jüngste Entwicklung der HTS-Technologien hat Benchtop-Sequenzer zur Verfügung gestellt, die auf die schnelle und kostengünstige Sequenzierung kleiner bis mittelgroßer Genome, hauptsächlich Bakterien, Viren, Pilze und Parasiten, ausgerichtet sind. Es könnte angenommen werden, dass kleine mikrobielle Genomsequenzen einen einfacheren, weniger anspruchsvollen Kartierungsprozess darstellen als der Kartierungsprozess für größere eukaryontische Genome. Dies ist jedoch nur teilweise richtig, da die Eigenschaften kleiner mikrobieller Genome nicht dieselben sind wie die eukaryontischer Genome. Auch die interessierenden Fragen sind in der Regel unterschiedlich und folglich sind die erwarteten Qualitätskriterien für die Abbildung nicht genau gleich. Die Sequenzierung des gesamten Genoms oder die Neusequenzierung ist eine wichtige Anwendung auf dem neuen Gebiet der Charakterisierung von Mikroorganismen unter Verwendung von HTS. Beispielsweise werden die klinische Diagnostik und die epidemiologische Untersuchung der mikrobiellen Stammzirkulation in naher Zukunft durch den Einsatz von HTS grundlegend umgestaltet, das schon sehr bald als Charakterisierungsansatz für Krankheitserreger verwendet werden sollte und wahrscheinlich langsam die gegenwärtige PCR ersetzen wird und biochemisch basierte Charakterisierungsmethoden [13, 14]. In diesem speziellen Kontext stehen die Resequenzierungsanwendungen und abgeleiteten Analysen im Vordergrund der Forschung und Entwicklung. Der Fokus umfasst die Sequenzierung der gesamten Länge eines mikrobiellen Genoms und die Analyse der erhaltenen Reads durch Kartierung auf einen oder mehrere Referenzstämme, um potenziell relevante Veränderungen im untersuchten Genom zu identifizieren. Ziel ist es, den Gewinn oder Verlust genetischer Elemente (Gene oder Teile von Genen, Prophagen und Plasmiden) sowie kleine Veränderungen (Mutationen und Indels) genau zu identifizieren, um einen möglichen neuen Phänotyp oder ein abgeleitetes neues Pathogenitätsprofil vorherzusagen. Diese Anforderung birgt mehrere Herausforderungen, von denen die wichtigste die Notwendigkeit ist, echte genetische Variationen von Sequenzierungsfehlern zu unterscheiden.

In diesem Artikel konzentrieren wir uns auf die Evaluierung von Mappern im Zusammenhang mit der Sequenzierung des gesamten Genoms oder der Neusequenzierung für kleine mikrobielle, hauptsächlich bakterielle Genome. Wir haben 14 Mapper getestet, wobei die meisten ihre Standardeinstellungen im allgemeinen Kontext für nicht erfahrene Benutzer verwendet haben. Wir haben vier Kriterien ausgewählt, um diesem Kontext gerecht zu werden: (i) Anforderungen an Rechenressourcen und Zeit, (ii) Robustheit der Kartierung durch die Bewertung von Präzision, Rückruf und F-Maß, (iii) Fähigkeit, Positionen für Lesevorgänge in sich wiederholenden Regionen zu melden, und (iv) Fähigkeit, echte genetische Variationspositionen abzurufen. Um die Robustheit eines Mappers an simulierten Datensätzen zu bewerten, haben wir eine neue Definition eines korrekt zugeordneten Lesevorgangs eingeführt. Zusätzlich zur ursprünglichen Startposition (d.h. die Position, von der aus ein Read simuliert wird), die in den meisten früheren Studien verwendet wurde, die Endposition sowie die Anzahl der Insertionen, Deletionen und Substitutionen im Alignment wurden ebenfalls verwendet, um das Mapping eines Reads als korrekt zu klassifizieren. Diese Definition ist strenger als die vorherigen, da sie impliziert, dass es sich um eine Leseausrichtung voller Länge handelt und dass die Fehlerzählung korrekt ist. Tatsächlich können Sequenzierungsfehler bedeuten, dass die ursprüngliche Position eines Reads nicht unbedingt die beste Ausrichtungsposition ist. Mit Mappern, die so eingestellt sind, dass sie alle möglichen Treffer melden („all“-Modus) und eine höhere Fehlerrate akzeptieren als die bei simulierten Lesevorgängen eingeführte Fehlerrate, sollte es möglich sein, den ursprünglichen Standort zusätzlich zu möglichen äquivalenten oder besseren Treffern abzurufen. Mit der in dieser Studie verwendeten neuen Definition eines korrekt zugeordneten Reads stellten wir sicher, dass der Mapper trotz unvermeidlicher Sequenzierungsfehler in den Reads das erwartete ursprüngliche Alignment abrufen konnte, wodurch eine echte Bewertung der Robustheit des Mappers ermöglicht wurde.

Die Analyse wurde auf Daten angewendet, die von der Ion Torrent Personal Genome Machine (PGM) generiert wurden, einer neu eingeführten Technologie, die sich hauptsächlich der Sequenzierung kleiner Genome widmet, für die die Mapper-Leistungen noch nicht bewertet wurden. Es wurden Lesevorgänge aus realen Datensätzen und künstlich simulierte Lesevorgänge verwendet. Simulierte Lesevorgänge wurden mit einem neuen anpassbaren Lesesimulator, CuReSim, generiert, der Lesevorgänge mit benutzerdefinierten Längen mit Einfügungen, Löschungen und Ersetzungen mit kontrollierter Geschwindigkeit und mit einer einstellbaren Fehlerverteilung entlang des Lesevorgangs generieren kann. CuReSim und CuReSimEval, ein Skript, das zur Bewertung der Kartenqualität verwendet werden kann, wurden in Java entwickelt, um auf allen Betriebssystemen zu laufen (siehe Abschnitt 2 der Zusatzdatei 1 für weitere Details) und sind frei verfügbar unter http://www.pegase- biosciences.com/tools/curesim/. Wir haben gezeigt, dass bei der mikrobiellen Genomsequenzierung einige Mapper wie Segemehl eine höhere Robustheit aufweisen als andere, insbesondere wenn die Anzahl der Sequenzierungsfehler hoch war. Andere Mapper sind robuster für andere Anwendungen, die andere Qualitätskriterien erfordern. Beispielsweise könnten BWASW, SHRiMP2, SMALT, SSAHA2 und TMAP besonders gut für die Sequenzierung mit Fokus auf die Entdeckung seltener Varianten abschneiden, da sie eine robuste Unterscheidung von Varianten zeigen. SMALT kann die meisten Positionen von Lesevorgängen lokalisieren, die sich in wiederholten Regionen befinden. Einige Mapper wie Novoalign, SMALT und SRmapper benötigten sehr kleine Speicherressourcen (ca. 20 MB), während SNAP sehr schnell war und nur etwa zwei Minuten benötigte, um die in dieser Studie verwendeten größeren Datensätze zu verarbeiten. Diese Ergebnisse unterstreichen die Beobachtung, dass die Wahl des Mappers anwendungsabhängig ist und Benutzer das angestrebte Ziel sorgfältig abwägen sollten, bevor sie sich für einen Mapper entscheiden. Der hier vorgestellte Bewertungsansatz kann zusammen mit den entwickelten Werkzeugen (CuReSim zur Generierung simulierter Lesevorgänge und CuReSimEval zur Bewertung der Mapping-Qualität) als allgemeine Methode zur Bewertung bestehender oder in der Entwicklung befindlicher Mapper betrachtet werden und könnte sich bei der Bewertung der Leistung von Mapper für die kommende dritte Generation von Sequenzern, die möglicherweise noch eine andere Art und Rate von Fehlern aufweisen.


Ergebnisse

Digitale Demaskierung von Nukleotid-Umwandlungen in k-mers

DUNK geht die Herausforderungen der Unterscheidung von Nukleotidkonversionen von Sequenzierungsfehlern und echten SNPs in Hochdurchsatz-Sequenzierungsdatensätzen durch die Ausführung von vier Hauptschritten an (Abb. 1): Erstens erleichtert ein Nukleotidkonversions-bewusster Read-Mapping-Algorithmus das Alignment von Reads (k- mers) mit erhöhter Anzahl von Fehlpaarungen (Abb. 1a). Zweitens verwendet DUNK optional eine Wiederherstellungsstrategie für Multi-Mapping-Reads, um robuste Nukleotid-Umwandlungs-Readouts in repetitiven oder niedrigkomplexen Regionen wie 3'-UTRs bereitzustellen. Anstatt alle Multi-Mapping-Lesevorgänge zu verwerfen, verwirft DUNK nur Lesevorgänge, die gleich gut auf zwei verschiedene 3′-Intervalle abgebildet werden. Reads mit mehreren Ausrichtungen auf das gleiche 3′-Intervall oder auf ein einzelnes 3′-Intervall und eine Region des Genoms, die nicht Teil eines 3′-Intervalls ist, werden beibehalten (Abb. 1b). Drittens identifiziert DUNK Single-Nukleotid-Polymorphismen (SNPs), um falsch-positive Nukleotid-Umwandlungen an SNP-Positionen zu maskieren ( 1c ). Schließlich wird das qualitativ hochwertige Nukleotid-Umwandlungssignal vom Sequenzierungsfehler entfaltet und verwendet, um die Umwandlungsfrequenzen für alle 3′-Intervalle unter Berücksichtigung der Leseabdeckung und des Basengehalts des Intervalls zu berechnen ( 1d ).

Digitale Demaskierung von Nukleotid-Umwandlungen in k-mers: Legende: Mögliche Basenergebnisse für eine gegebene Nukleotid-Umwandlung: Übereinstimmung mit Referenz (weiß), Nukleotid-Umwandlung als Fehlpaarung bewertet (rot), Nukleotid-Umwandlung bewertet mit Nukleotid-Umwandlungsbewusster Bewertung (blau), Nukleotid von geringer Qualität Umwandlung (schwarz) und gefilterte Nukleotid-Umwandlung (undurchsichtig) ein Naive Nukleotidkonversionsverarbeitung und Quantifizierung vs. DUNK: Der naive Read-Mapper (links) ordnet 11 Reads (grau) dem Referenzgenom zu und verwirft fünf Reads (hellgrau), die viele konvertierte Nukleotide (rot) umfassen. Der DUNK-Mapper (rechts) bildet alle 16 Reads ab. B DUNK verarbeitet Multi-Mapping-Reads (R5, R6, R7, links), dass diejenigen (R3, R6), die eindeutig einem 3′-Intervall zugeordnet werden können, identifiziert und dieser Region zugeordnet werden, R5 und R7 können nicht a . zugeordnet werden 3′-Intervall und wird aus nachgeschalteten Analysen gelöscht. R2 wird aufgrund einer allgemein niedrigen Ausrichtungsqualität verworfen. C Falsch positive Nukleotidumwandlungen, die von Single-Nukleotid-Polymorphismen stammen, werden maskiert. D Qualitativ hochwertige Nukleotidumwandlungen werden quantifiziert, indem sie auf Abdeckung und Basengehalt normalisiert werden

Im Folgenden demonstrieren wir die Leistungsfähigkeit und Validität jedes Analyseschritts, indem wir DUNK auf mehrere veröffentlichte und simulierte Datensätze anwenden.

Nukleotidumwandlungsbewusstes Mapping verbessert die Nukleotidumwandlungsquantifizierung

Das korrekte Alignment von Reads zu einem Referenzgenom ist eine zentrale Aufgabe der meisten Hochdurchsatz-Sequenzierungsanalysen. Um die optimale Ausrichtung zwischen einem Lese- und dem Referenzgenom zu identifizieren, verwenden Kartierungsalgorithmen eine Bewertungsfunktion, die Strafen für Fehlpaarungen und Lücken beinhaltet. Die Strafen sollen die Wahrscheinlichkeit widerspiegeln, ein Mismatch oder eine Lücke zu beobachten. Bei Standard-Sequenzierungsexperimenten mit hohem Durchsatz nimmt man eine Fehlpaarungsstrafe unabhängig von der Art der Nukleotid-Fehlpaarung an (Standardbewertung). Im Gegensatz dazu produzieren SLAMseq oder ähnliche Protokolle Datensätze, bei denen eine spezifische Nukleotid-Umwandlung häufiger auftritt als alle anderen. Um dies zu berücksichtigen, verwendet DUNK ein konversionsbewusstes Bewertungsschema (siehe Tabelle 1). SLAM-DUNK bestraft beispielsweise keine T > C-Fehlanpassung zwischen Referenz & gtread.

Wir verwendeten simulierte SLAMseq-Daten mit Konversionsraten von 0% (keine Konversionen), 2,4 und 7% (Konversionsraten beobachtet in embryonalen Stammzellen der Maus (mESC) SLAMseq-Daten [4] und HeLa SLAMseq-Daten (unveröffentlicht) unter gesättigten 4SU-Markierungsbedingungen ) und einer überhöhten Konversionsrate von 15% (siehe Tabelle 2), um das in Tabelle 1 gezeigte Bewertungsschema zu bewerten. Für jeden simulierten Datensatz verglichen wir die abgeleiteten Nukleotid-Umwandlungsstellen entweder mit dem Standard-Scoring oder dem konversionsbewussten Bewertungsschema zu den simulierten „wahren“ Umrechnungen und berechneten den Median der relativen Fehler [%] aus der simulierten Wahrheit (siehe Methoden). Bei einer „Umwandlungsrate“ von 0 % zeigten beide Bewertungsschemata einen Medianfehler von < 0,1 % (Abb. 2a, Zusatzdatei 1: Abbildung S1). Bemerkenswert ist, dass der mittlere Fehler des Standardbewertungsschemas geringer ist als bei dem umwandlungsbewussten Bewertungsschema (0,288 gegenüber 0,297 Nukleotid-Umwandlungen), was die Standardbewertung für Datensätze ohne experimentell eingeführte Nukleotid-Umwandlungen begünstigt. Bei einer Konversionsrate von 2,4 % ergaben das Standard- und das konversionsbewusste Scoring-Schema einen Fehler von 4,5 bzw. 2,3 %. Eine Erhöhung der Conversion-Rate auf 7 % erhöhte den Fehler der Standardbewertung weiter auf 5 %. Im Gegensatz dazu blieb der Fehler der SLAM-DUNK-Bewertungsfunktion bei 2,3%. Somit reduzierte ein konversionsbewusstes Scoring den medianen Konversionsquantifizierungsfehler im Vergleich zum Standard-Scoring-Schema um 49–54 %.

Nukleotidkonversionsbewusstes Read-Mapping: ein Bewertung von Nukleotid-Conversion-bewusstem Scoring vs. naivem Scoring während des Read-Mappings: Medianer Fehler [%] der wahren vs. wiedergewonnenen Nukleotid-Conversions für simulierte Daten mit 100 bp Leselänge und steigender Nukleotid-Conversion-Rate bei 100-facher Abdeckung. B Anzahl der Reads, die ihrem 3′-Ursprungsintervall korrekt zugeordnet wurden, für typischerweise angetroffene Nukleotid-Umwandlungsraten von 0,0, 2,4 und 7,0 % sowie übermäßige Umwandlungsraten von 15, 30 und 60 %. C Prozentsätze der zurückbehaltenen Reads und linearer Regression mit 95 % CI-Banden nach Kartierung von 21 Pulse-Chase-Zeitverlaufsproben von Maus-ES-Zellen mit steigendem Nukleotid-Umwandlungsgehalt für Standardkartierung und DUNK

DUNK ordnet Lesewerte unabhängig von ihrer Nukleotid-Umwandlungsrate korrekt zu

Mismatches aufgrund von SNPs oder Sequenzierungsfehlern sind eine der zentralen Herausforderungen von Read-Mapping-Tools. Typische RNA-Seq-Datensätze zeigen eine SNP-Rate zwischen 0,1 und 1,0 % und einen Sequenzierungsfehler von bis zu 1 %. Protokolle, die chemisch induzierte Nukleotidumwandlungen verwenden, erzeugen Datensätze mit einem breiten Spektrum von Fehlpaarungsfrequenzen. Während nukleotidkonversionsfreie (unmarkierte) Reads die gleiche Anzahl von Fehlpaarungen zeigen wie RNA-Seq-Reads, enthalten nukleotidkonversionshaltige (markierte) Reads zusätzliche Fehlpaarungen, abhängig von der Nukleotid-Konversionsrate des Experiments und der Anzahl der Nukleotide, die in einen Read umgewandelt werden. Um die Wirkung der Nukleotid-Umwandlungsrate auf das Read-Mapping zu beurteilen, haben wir zufällig 1000 genomische 3′-Intervalle exprimierter Transkripte ausgewählt, die aus einer veröffentlichten mESC-3′-End-Annotation extrahiert wurden, und zwei Datensätze markierter Reads mit einer Nukleotid-Umwandlungsrate von 2,4 und 7% simuliert. (siehe Tabelle 2). Als nächstes ordnete SLAM-DUNK die simulierten Daten dem Mausgenom zu und wir berechneten die Anzahl der Reads, die dem richtigen 3′-Intervall pro Datensatz zugeordnet wurden. Abbildung 2b zeigt, dass sich die Kartierungsrate (91 %) bei einer Leselänge von 50 bp und einer Nukleotid-Umwandlungsrate von 2,4% im Vergleich zu einem Datensatz unmarkierter Lesevorgänge nicht signifikant unterscheidet. Eine Erhöhung der Nukleotid-Umwandlungsrate auf 7% verursachte einen moderaten Abfall der korrekt kartierten Reads auf 88%. Dieser Abfall kann korrigiert werden, indem die Leselänge auf 100 oder 150 bp erhöht wird, wobei die Kartierungsraten mindestens 96 % für Nukleotid-Umwandlungsraten von bis zu 15 % betragen ( 2b ).

Während wir bei höheren Conversion-Raten (> 15 %) bei kürzeren Reads (50 bp) einen erheblichen Rückgang des Prozentsatzes korrekt zugeordneter Reads beobachten, blieb die Zuordnungsrate von SLAM-DUNK bei längeren Reads (100 und 150 bp) bei Datensätzen über 88%. mit bis zu 15 bzw. 30% Konversionsraten, was zeigt, dass SLAM-DUNK-Karten mit und ohne Nukleotid-Konversion auch bei hohen Konversionsfrequenzen gleich gut lesen.

Um diesen Befund in realen Daten zu bestätigen, haben wir SLAM-DUNK verwendet, um 21 veröffentlichte (7 Zeitpunkte mit jeweils drei Replikaten) SLAMseq-Datensätze [4] aus einem Puls-Chase-Zeitverlauf in mESCs (siehe Tabelle 3) mit geschätzten Konversionsraten von . abzubilden 2,4 %. Aufgrund der biologischen Natur des Experiments erwarten wir, dass die SLAMseq-Daten vom ersten Zeitpunkt (Beginn von 4SU-Wash-out/Chase) die höchste Anzahl an markierten Reads enthalten, während die Daten vom letzten Zeitpunkt praktisch keine markierten Reads enthalten .

Abbildung 2c zeigt die erwartete positive Korrelation (Spearman’s Rho: 0,565, P-value: 0,004) zwischen dem Anteil der zugeordneten Lesevorgänge und den Zeitpunkten, wenn ein Mapper verwendet wird, der keine Conversion erkennt (NextGenMap mit Standardwerten). Als nächstes wiederholten wir die Analyse mit SLAM-DUNK. Trotz der unterschiedlichen Anzahl von markierten Lesevorgängen in diesen Datensätzen beobachteten wir einen konstanten Anteil von 60–70 % der zugeordneten Lesevorgänge in allen Stichproben (Abb. 2c) und beobachteten keine signifikante Korrelation zwischen dem Zeitpunkt und der Anzahl der zugeordneten Lesevorgänge (Spearman's Rho: 0,105, P-Wert: 0,625). Somit liest DUNK auch in experimentell erzeugten Daten unabhängig von der Nukleotid-Umwandlungsrate.

Multi-Mapper-Wiederherstellung erhöht die Anzahl der Gene, die für die 3'-End-Sequenzierungsanalyse zugänglich sind

Genomische Regionen mit geringer Komplexität und Repeats stellen große Herausforderungen für Read-Aligner dar und sind eine der Hauptfehlerquellen bei der Sequenzierungsdatenanalyse. Aus diesem Grund werden Multi-Mapping-Reads oft verworfen, um irreführende Signale zu reduzieren, die von falsch zugeordneten Reads herrühren: Da die meisten Transkripte lang genug sind, um ausreichend lange einzigartige Regionen des Genoms zu überspannen, ist der Gesamteffekt des Verwerfens aller Multi-Mapping-Reads auf die Expressionsanalyse tolerierbar ( mittlere Maus (GRCm38) RefSeq-Transkriptlänge: 4195 bp). Indem Sie nur die

250 Nukleotide am 3'-Ende eines Transkripts, 3'-Endsequenzierung erhöht den Durchsatz und vermeidet Normalisierungen, die unterschiedliche Genlängen berücksichtigen. Folglich deckt die 3'-Endsequenzierung typischerweise nur 3'-UTR-Regionen ab, die im Allgemeinen von geringerer Komplexität sind als die kodierende Sequenz von Transkripten [9] (Zusatzdatei 1: Abbildung S2a). Daher erzeugt die 3'-Endsequenzierung einen hohen Prozentsatz (bis zu 25 % in 50 bp-mESC-Proben) an Multi-Mapping-Reads. Das Ausschließen dieser Lesevorgänge kann zu einem massiven Signalverlust führen. Der zentrale Pluripotenzfaktor Okt4 ist ein Beispiel [10]: Obwohl Oct4 in mESCs stark exprimiert wird, zeigte es fast keine gemappten Reads in den 3′-Endsequenzierungs-mESC-Samples, wenn Multi-Mapping-Reads verworfen wurden (zusätzliche Datei 1: Abbildung S3a). Der hohe Anteil an Multi-Mapping-Reads ist auf eine 340 bp lange Subsequenz zurückzuführen, die im Okt4 3′ UTR und eine intronische Region von Rfwd2.

Um den Einfluss der geringen Komplexität von 3′-UTRs auf die Anzahl der Lesevorgänge bei der 3′-Endsequenzierung zu beurteilen, haben wir die Mappingability-Scores [11] für jede 3′-UTR berechnet. Ein hoher Mapping-Score (im Bereich von 0,0 bis 1,0) von a k-mer in einer 3′-UTR zeigt die Einzigartigkeit dieses k-mers an. Als nächstes berechneten wir für jede 3′-UTR die %-Eindeutigkeit, d. h. den Prozentsatz ihrer Sequenz mit einem Mapping-Score von 1. Die 3′-UTRs wurden anschließend entsprechend ihrer %-Eindeutigkeit in 5%-Bins kategorisiert. Für jeden Bin verglichen wir dann die Read-Counts der entsprechenden 3′-Intervalle (3 x 4SU 0 h-Proben, siehe Tabelle 3) mit den Read-Counts des entsprechenden Gens aus einem RNA-Seq-Datensatz [4]. Abbildung 3a zeigt die Zunahme der Korrelation mit zunehmender %-Eindeutigkeit. Wenn Multi-Mapper enthalten sind, ist die Korrelation stärker als wenn nur Unique-Mapper gezählt werden. Somit stellt die Wiederherstellungsstrategie von Multimappern, wie oben beschrieben, effizient und korrekt Lesevorgänge in Regionen geringer Komplexität wie etwa 3′-UTRs wieder her. Bemerkenswerterweise lag die Gesamtkorrelation für alle 3′-Intervalle mit mehr als 10 % der einzigartigen Sequenz durchgängig über 0,7.

Multimapper-Wiederherstellungsstrategie in Regionen mit geringer Komplexität: ein Korrelation von mESC -4SU SLAMseq vs. mESC RNA-seq-Proben (je 3 Replikate) für Unique-Mapping-Reads vs. Multi-Mapping-Wiederherstellungsstrategie. Die mittlere Spearman-Korrelation aller gegen alle Proben ist für Gene mit RNAseq tpm > 0 auf der y-Achse für ansteigende Cutoffs für den Prozentsatz der einzelnen bp in der entsprechenden 3′-UTR gezeigt. Fehlerbalken werden schwarz angezeigt. B Prozentsätze der Reads, die auf richtiges (linkes Feld) oder falsches (rechtes Feld) 3′-Intervall für Nukleotid-Umwandlungsraten von 0, 2,4 und 7% bzw nur C Streudiagramm der eindeutigen vs. Multi-Mapping-Lesezählungen (log2) von

20.000 3′-Intervalle, gefärbt durch einen relativen Fehlergrenzwert von 5% für Gene mit > 0 eindeutigen und Multi-Mapping-Read-Counts

Um die Leistung des Multi-Mapper-Recovery-Ansatzes weiter zu bewerten, haben wir auf simulierte SLAMseq-Datensätze zurückgegriffen: Wir quantifizierten die Prozentsätze der Reads, die ihrem korrekten 3′-Intervall zugeordnet wurden (wie aus der Simulation bekannt) und die Anzahl der Reads, die einem falschen 3 . zugeordnet wurden ′-Intervall, wiederum unter Verwendung von Nukleotid-Umwandlungsraten von 0,0, 2,4 und 7,0 % und Leselängen von 50, 100 und 150 bp (siehe Tabelle 2): Der Ansatz der Multi-Mapper-Wiederherstellung erhöht die Anzahl der korrekt zugeordneten Reads zwischen 1 und 7 % , mit nur einer geringfügigen Zunahme von < 0,03% falsch zugeordneten Lesevorgängen (Fig. 3b).

Als nächstes analysierten wir experimentell erzeugte 3'-Endsequenzierungsdaten (siehe Tabelle 3) in der nukleotidumwandlungsfreien mESC-Probe. Für jedes 3′-Intervall verglichen wir Read-Counts mit und ohne Multi-Mapper-Recovery (Abb. 3c). Bei Einbeziehung von Multimappern änderten 82 % der 19.592 3′-Intervalle die Anzahl der zugeordneten Lesevorgänge um weniger als 5 %. Für viele der 18 % verbleibenden 3′-Intervalle wurde die Anzahl der zugeordneten Lesevorgänge jedoch mit der Multi-Mapper-Zuweisungsstrategie stark erhöht. Wir fanden heraus, dass diese Intervalle einen signifikant niedrigeren assoziierten 3′ UTR-Mapping-Score aufweisen, was bestätigt, dass unsere Multi-Mapper-Zuweisungsstrategie speziell auf Intervalle mit geringer Mapping-Fähigkeit abzielt (Zusätzliche Datei 1: Abbildung S2b,c).

Abbildung 3c zeigt auch den signifikanten Anstieg der Oct4-Read-Zählungen, wenn Multi-Mapper einbezogen werden (3 x keine 4SU-Proben, mittlerer Unique-Mapper-CPM 2,9 vs. mittlerer Multimapper-CPM 1841.1, mittlerer RNA-Seq-TPM 1673.1, zusätzliche Datei 1, Abbildung S3b) und punktet in den oberen 0,2% der Read-Count-Verteilung. Die Simulation bestätigte, dass es sich tatsächlich um Reads handelt, die vom Oct4-Locus stammen: Ohne Multi-Mapper-Zuweisung wurden nur 3% der simulierten Reads korrekt zugeordnet Okt4, während alle Lesevorgänge korrekt zugeordnet wurden, wenn die Multi-Mapper-Wiederherstellung angewendet wurde.

Die Maskierung von Einzelnukleotidpolymorphismen verbessert die Quantifizierung der Nukleotidumwandlung

Echte SNPs beeinflussen die Quantifizierung der Nukleotid-Umwandlung, da Reads, die einen T > C-SNP abdecken, als Nukleotid-Konvertierung enthaltende Reads fehlinterpretiert werden. Daher führt DUNK SNP-Aufrufe auf den kartierten Lesevorgängen durch, um echte SNPs zu identifizieren und ihre jeweiligen Positionen im Genom zu maskieren. DUNK betrachtet jede Position im Genom als echte SNP-Position, wenn der Anteil der Reads mit einer alternativen Base unter allen Reads einen bestimmten Schwellenwert überschreitet (im Folgenden Variantenfraktion genannt).

Um einen optimalen Schwellenwert zu identifizieren, haben wir Variantenfraktionen im Bereich von 0 bis 1 in Schritten von 0,1 in drei nukleotidkonversionsfreien mESC QuantSeq-Datensätzen verglichen (siehe Tabelle 3). Als Ground Truth für den Benchmark haben wir einen echten SNP-Datensatz verwendet, der durch Genomsequenzierung derselben Zelllinie generiert wurde. Wir fanden, dass für Variantenfraktionen zwischen 0 und 0,8 der SNP-Aufruf von DUNK zwischen 93 und 97% der SNPs identifiziert, die in der Wahrheitsmenge (Sensitivität) vorhanden sind (Abb. 4a, −4SU). Beachten Sie, dass die in dieser Studie verwendeten mESCs von haploiden mESCs abgeleitet wurden [12]. Daher wird erwartet, dass SNPs über die Reads an der jeweiligen genomischen Position hinweg vollständig penetrant sind. Bei Variantenfraktionen über 0,8 fällt die Sensitivität bei allen Proben schnell unter 85 %. Im Gegensatz dazu nimmt die Anzahl der identifizierten SNPs, die nicht im Wahrheitssatz vorhanden sind (Falsch-Positiv-Rate), für alle Stichproben mit zunehmenden Variantenfraktionen schnell ab und beginnt sich für die meisten Stichproben bei etwa 0,8 einzupendeln. Um den Einfluss der Nukleotid-Umwandlung auf das SNP-Calling zu beurteilen, wiederholten wir das Experiment mit drei mESC-Proben, die eine hohe Zahl von Nukleotid-Umwandlungen enthielten (24 h Behandlung mit 4 SU). Während wir keinen auffälligen Unterschied in der Sensitivität zwischen unmarkierten und stark markierten Replikaten beobachteten, waren die falsch-positiven Raten für Fraktionen mit niedriger Variantenfraktion größer, was darauf hindeutet, dass Nukleotidumwandlungen als SNPs fehlinterpretiert werden könnten, wenn eine niedrige Variantenfraktionsschwelle verwendet wird. Ausgehend von den ROC-Kurven stellten wir fest, dass eine Variantenfraktion von 0,8 ein guter Kompromiss zwischen Sensitivität und falsch-positiver Rate mit einer durchschnittlichen Sensitivität von 94,2 % und einer mittleren falsch-positiven Rate von 16,8 % ist.

Einzelnukleotid-Polymorphismus-Maskierung: ein ROC-Kurven für drei unmarkierte mESC-Replikate (-4SE) vs. drei markierte Replikate (+4SU) über Variantenfraktionen von 0 bis 1 in Schritten von 0,1. B Log10 relative Fehler der simulierten T > C vs. wiederhergestellten T > C-Umwandlungen für naive (rot) und SNP-maskierte (blau) Datensätze für Nukleotid-Umwandlungsraten von 2,4 und 7%. C Barcodeplot von 3′-Intervallen, geordnet nach ihrer T > C-Lesezahl, einschließlich SNP-induzierter T > C-Umwandlungen. Schwarze Balken zeigen 3′-Intervalle an, die echte SNPs enthalten. D Barcodeplot von 3′-Intervallen, geordnet nach ihrer T > C-Leseanzahl, die SNP-maskierte T > C-Umwandlungen ignoriert

Um den Einfluss der Maskierung von SNPs vor der Quantifizierung der Nukleotidumwandlungen zu demonstrieren, simulierten wir SLAMseq-Daten (Tabelle 2): Für jedes 3′-Intervall berechneten wir die Differenz zwischen der Anzahl simulierter und detektierter Nukleotidumwandlungen und normalisierten sie durch die Anzahl der simulierten Konvertierung (relative Fehler) – einmal mit und einmal ohne SNP-Maskierung (Abb. 4b). Der relative Fehler bei der Anwendung von SNP-Maskierung wurde im Vergleich zu Datensätzen ohne SNP-Maskierung signifikant reduziert: Bei einer Konversionsrate von 2,4 % sank der mittlere relative Fehler von 53 auf 0,07 % und bei einer Konversionsrate von 7 % von 17 auf 0,002 %.

Um den Effekt der SNP-Maskierung in realen Daten zu untersuchen, korrelierten wir die Anzahl der identifizierten Nukleotidumwandlungen und die Anzahl der echten T > C-SNPs in 3′-Intervallen. Zu diesem Zweck haben wir alle 3′-Intervalle aus den drei markierten mESC-Proben (24 h 4SU-Markierung) nach ihrer Anzahl von T > C-enthaltenden Lesevorgängen geordnet und die Verteilung von 3′-Intervallen untersucht, die einen echten T > C-SNP innerhalb dieser Rangordnung enthalten (Abb. 4c und d, ein Replikat gezeigt). In allen drei Replikaten beobachteten wir eine starke Anreicherung (P-Werte < 0,01, 0,02 und 0,06) von SNPs in 3′-Intervallen mit höheren Zahlen von T > C-Lesevorgängen (Fig. 4c, ein Replikat gezeigt). Da nicht angenommen wird, dass T > C-SNPs mit T > C-Umwandlungen assoziiert sind, erwarten wir, dass sie gleichmäßig über alle 3'-Intervalle verteilt sind, wenn sie richtig von Nukleotidumwandlungen getrennt werden. Tatsächlich führte die Anwendung von SNP-Maskierung dazu, dass die Anreicherung von SNP in 3′-Intervallen mit einer höheren Anzahl von T > C-enthaltenden Reads nicht signifikant war (P-Werte 0,56, 0,6 und 0,92) in allen Replikaten (Fig. 4d, ein Replikat gezeigt).

SLAM-DUNK: Quantifizierung von Nukleotidkonversionen in SLAMseq-Datensätzen

Die Hauptauslesung eines SLAMseq-Experiments ist die Anzahl der 4SU-markierten Transkripte, im Folgenden als markierte Transkripte für ein bestimmtes Gen in einer bestimmten Probe bezeichnet. Markierte Transkripte können jedoch nicht direkt beobachtet werden, sondern nur durch Zählen der Anzahl der Reads, die umgewandelte Nukleotide zeigen. Zu diesem Zweck liefert SLAM-DUNK genaue Quantifizierungen der T > C-Lesezählungen für alle 3′-Intervalle in einer Probe. Um die Fähigkeit von SLAM-DUNK zum Nachweis von T > C-Reads zu validieren, haben wir SLAM-DUNK auf simulierte mESC-Datensätze angewendet (für Details siehe Tabelle 2) und den Prozentsatz der korrekt identifizierten T > C-Reads quantifiziert, dh den Anteil, der von einem markierten Transkript stammt (Sensitivität ). Darüber hinaus haben wir den Prozentsatz der Reads berechnet, die von unmarkierten Transkripten stammen (Spezifität). Für eine perfekte Simulation, bei der alle Reads, die von markierten Transkripten stammten, eine T > C-Konvertierung enthielten, zeigte SLAM-DUNK eine Sensitivität von > 95 % und eine Spezifität von > 99 % unabhängig von der Leselänge und der Conversion-Rate (Zusatzdatei 1: Abbildung S4 ). In realen Datensätzen enthalten jedoch nicht alle Lesevorgänge, die von einem markierten Transkript stammen, T > C-Konvertierungen. Um den Einfluss der Leselänge und der Konversionsrate auf die Fähigkeit von SLAMseq, das Vorhandensein markierter Transkripte zu erkennen, zu demonstrieren, führten wir eine realistischere Simulation durch, bei der die Anzahl der T > C-Konvertierungen pro Lesevorgang einer Binomialverteilung folgt (unter Berücksichtigung von 0 T > C Conversions pro Lesevorgang).

Wie erwartet wurde die Spezifität durch diese Änderung nicht beeinflusst (Abb. 5a). Die Empfindlichkeit änderte sich jedoch drastisch in Abhängigkeit von der Leselänge und der T > C-Umwandlungsrate.Während wir eine Sensitivität von 94 % für 150-bp-Reads und eine Conversion-Rate von 7 % beobachteten, sinkt sie bei einer Read-Länge von 50 bp und einer Conversion-Rate von 2,4 % auf 23 %. Basierend auf diesen Ergebnissen berechneten wir als Nächstes die Wahrscheinlichkeit, mindestens einen T > C-Read für ein 3′-Intervall zu erkennen, wobei der Anteil markierter und unmarkierter Transkripte für dieses Gen (markierte Transkriptfraktion) für verschiedene Sequenzierungstiefen, Leselängen und Konversionsraten gegeben ist ( siehe Methoden) (Abb. 5b, Zusatzdatei 1: Abbildung S5). Gegen die Intuition sind kürzere Leselängen längeren Leselängen überlegen, um mindestens einen Lesevorgang zu detektieren, der von einem markierten Transkript stammt, insbesondere für geringe Anteile markierter Transkripte. Während für 150-bp-Reads eine 26-fache Abdeckung erforderlich ist, um einen Read aus einem markierten Transkript mit einem Bruchteil von 0,1 und einer Konversionsrate von 2,4% zu erkennen, ist für 50-bp-Reads nur eine 22-fache Abdeckung erforderlich (Zusätzliche Datei 1: Tabelle S1) . Dies legt nahe, dass die höhere Anzahl von kurzen Lesevorgängen mehr zur Wahrscheinlichkeit des Nachweises von Lesevorgängen aus einem markierten Transkript beiträgt als die höhere Wahrscheinlichkeit für die Beobachtung einer T > C-Umwandlung von längeren Lesevorgängen. Eine Erhöhung der Conversion-Rate auf 7% reduziert die erforderliche Deckung um

50 % über Fraktionen markierter Transkripte, wobei wiederum die Leselängen von 50 bp am meisten von der Zunahme profitieren. Im Allgemeinen konvergiert die Erkennungswahrscheinlichkeit für höher markierte Transkriptfraktionen wie 1.0 für alle Leselängen zu einer Abdeckung von 2–3 X und 1 X für Konversionsraten von 2,4 bzw. 7% (Zusatzdatei 1: Abbildung S5). Obwohl diese Ergebnisse eine Best-Case-Annäherung darstellen, können sie als Richtlinie dafür dienen, wie viel Abdeckung erforderlich ist, wenn ein SLAMseq-Experiment entworfen wird, das auf T > C-Read-Zählungen beruht, um markierte Transkripte zu erkennen.

Quantifizierung von Nukleotid-Umsätzen: ein Sensitivität und Spezifität von SLAM-DUNK bei simulierten markierten Reads gegenüber wiedergewonnenen T > C enthaltenden Reads für Read-Längen von 50, 100 und 150 bp und Nukleotid-Umwandlungsraten von 2,4 und 7%. B Heatmap der Wahrscheinlichkeit des Nachweises mindestens eines Reads, das von einem markierten Transkript stammt, aus einer gegebenen Fraktion markierter Transkripte und Abdeckung für eine Konversionsrate von 2,4% und eine Read-Länge von 50 bp. Der weiße Farbcode markiert die Wahrscheinlichkeitsgrenze von 0,95. C Verteilung der relativen Fehler von Read-based und SLAM-DUNKs T-Content normalized based Fraktion des markierten Transkripts Schätzungen für 18 Gene mit unterschiedlichem T-Gehalt für jeweils 1000 simulierte Replikate. D Verteilung der relativen Fehler des T-Gehalts von SLAM-DUNK normalisiert Fraktion des markierten Transkripts Schätzungen für 1000 Gene mit T > C-Konversionsraten von 2,4 und 7% und Sequenzierungstiefe von 25 bis 200x

Während die Schätzung der Anzahl markierter Transkripte aus T > C-Read-Zählungen für Experimente zum Vergleich derselben Gene unter verschiedenen Bedingungen und zur Durchführung von differentiellen Genexpressions-ähnlichen Analysen ausreichend ist, berücksichtigt sie nicht die unterschiedliche Häufigkeit von Gesamttranskripten beim Vergleich verschiedener Gene. Um dieses Problem anzugehen, muss die Zahl der markierten Transkripte für ein spezifisches Gen durch die Gesamtzahl der für dieses Gen vorhandenen Transkripte normalisiert werden. Wir nennen das die Anteil markierter Transkripte. Ein einfacher Ansatz zur Schätzung der Anteil markierter Transkripte besteht darin, die Anzahl der markierten Reads mit der Gesamtzahl der sequenzierten Reads für ein bestimmtes Gen zu vergleichen (siehe Methoden). Dieser Ansatz berücksichtigt jedoch nicht die Anzahl der Uridine im 3′-Intervall. Reads, die von einem U-reichen Transkript oder einem T-reichen Teil des entsprechenden genomischen 3'-Intervalls stammen, weisen eine höhere Wahrscheinlichkeit auf, eine T > C-Umwandlung zu zeigen. Daher werden die T > C-Lesezählungen durch die Basenzusammensetzung des Transkripts und das Abdeckungsmuster beeinflusst. Und so kam es dass der Anteil markierter Transkripte wird für T-reiche Intervalle überschätzt und für T-arme 3′-Intervalle unterschätzt. Um die Basiszusammensetzung zu normalisieren, implementiert SLAM-DUNK einen normalisierten Ansatz für den T-Content und die Read Coverage zum Schätzen der Bruchteile markierter Transkripte (siehe Methoden). Um beide Ansätze zu evaluieren, haben wir 18 Beispielgene mit unterschiedlichem T-Gehalt in ihren 3′-Intervallen, 3′-Intervallen und Mapping-Fähigkeiten ausgewählt (siehe Zusätzliche Datei 1: Tabelle S2 für vollständige Liste), simulierte 1000 SLAMseq-Datensätze (siehe Tabelle 2) für jedes Gen und verglichen die wiedergewonnenen Anteil markierter Transkripte mit der simulierten Wahrheit (Abb. 5c). Im Durchschnitt zeigte die auf Read-Count basierende Methode einen mittleren relativen Fehler von 15%. Im Gegensatz dazu zeigte der T-Content-normalisierte Ansatz von SLAM-DUNK einen mittleren relativen Fehler von nur

2%. Die Untersuchung der 18 Gene ergab eine hohe Variabilität in den Schätzungen der Read-Count-basierten Methode. Während beide Methoden gleich gut für Schritt1, variiert der Medianfehler der anderen 17 Gene zwischen 6 und 39 % für die Read-basierte Methode und nur zwischen 1 und 4 % für SLAM-DUNK. Wir beobachteten eine starke Korrelation des relativen Fehlers und des T-Gehalts mit der Read-Count-basierten Methode (Pearsons r: 0,41) und nur eine sehr schwache Assoziation mit dem T-Content-normalisierten Ansatz von SLAM-DUNK (Pearsons r: −0,04). Die Erweiterung der Analyse von 18 auf 1000 Gene bestätigte das Ergebnis. Für den lesebasierten Ansatz von T > C zeigten 23% der 3′-Intervalle einen relativen Fehler von mehr als 20%. Für den normalisierten T-Gehalt-Ansatz von SLAM-DUNK waren es nur 8%.

Wichtige Faktoren dafür, wie sicher wir die Anteil markierter Transkripte eines gegebenen Gens sind die T > C-Umwandlungsrate, die Leselänge und die Sequenzierungstiefe. Um zu beurteilen, wie viel SLAMseq-Leseabdeckung für eine gegebene Leselänge erforderlich ist, haben wir den relativen Fehler in . berechnet Anteil markierter Transkripte unter Verwendung der T-Content-Normalized-Approach-Schätzung von SLAM-DUNK für Datensätze mit einer Konversionsrate von 2,4 und 7 %, Leselängen von 50, 100 und 150 bp und einer Sequenzierungstiefe von 25 bis 200 (Abb. 5d). Zuerst haben wir uns Datensätze mit einer T > C-Conversion-Rate von 2,4 % angesehen. Mit einer Leselänge von 50 bp unterschätzt SLAM-DUNK die Fraktionen der markierten Transkripte um etwa 10 %. Dies wird durch Multi-Mapping-Reads verursacht, die keinem einzelnen 3′-Intervall zugeordnet werden können. Durch die Erhöhung der Leselänge auf 100 oder 150 bp kann SLAM-DUNK mehr Lesevorgänge eindeutig dem Genom zuordnen. Daher wird der mittlere relative Fehler für diese Datensätze auf 3% reduziert. Die Sequenzierungstiefe zeigte keinen Einfluss auf den mittleren relativen Fehler. Es beeinflusst jedoch die Varianz der Schätzungen. Bei einer Leselänge von 100 bp und einer Abdeckung von 50X zeigen 18% der 3′-Intervalle einen relativen Fehler von > 20%. Eine Erhöhung der Abdeckung auf 100X oder 150X reduziert diese Zahl auf 6 bzw. 0,8%.

Die Erhöhung der T > C-Conversion-Rate auf 7 % verbesserte sich insgesamt Anteil markierter Transkripte Schätzungen deutlich. Für 100 bp-Reads und eine Abdeckung von 50X, 100X und 200X wird der Prozentsatz der 3′-Intervalle mit einem relativen Fehler > 20 % auf 3, 0,2 bzw. 0 % reduziert. Unabhängig von Leselänge, Abdeckung und T > C-Umwandlungsrate ist die T > C-Lesebasis Anteil markierter Transkripte Schätzwerte schnitten schlechter ab als die SLAM-DUNK-Schätzungen (siehe Zusatzdatei 1: Abbildung S6).

Beide Anteil markierter Transkripte Schätzungen sowie rohe T > C-Lesezählungen werden durch Sequenzierungsfehler beeinflusst, insbesondere wenn die T > C-Umwandlungsrate niedrig ist. Um die Auswirkungen von Sequenzierungsfehlern auf die jeweiligen Quantifizierungsmaßnahmen abzuschwächen, wendet SLAM-DUNK optional einen Basisqualitätsfilter auf Umwandlungsaufrufe an. Wie in Fig. 6c gezeigt, reduziert diese Strategie das Signal von fehlerhaften Sequenzierungszyklen wesentlich. Darüber hinaus ermöglicht SLAM-DUNK die Quantifizierung von Anteil markierter Transkripte Schätzungen sowie rohe T > C-Read-Zählungen sind auf Reads beschränkt, die > 1-Nukleotid-Umwandlungen tragen. Muharet al. [5] zeigten, dass mit dieser Strategie der Beitrag des Hintergrundsignals von Reads mit 1 T > C-Umwandlung fast vollständig eliminiert wurde, wenn Reads mit 2 T > C-Umwandlungen verwendet wurden. Alternativ könnte das Hintergrundsignal ohne 4SU subtrahiert werden, um den Sequenzierungsfehler zu adressieren, wie von Herzog et al. [4].

Integrierte Qualitätskontrollen: ein Nukleotid-Umwandlungsraten von Read-Sets aus 6 repräsentativen mESC-Zeitverläufen, die eine Abnahme der T > C-Umwandlungen proportional zu ihrer jeweiligen Chase-Zeit zeigen. B T > C-Konvertierung, die lesebasierte PCA von 6 mESC-Zeitpunkten (je 3 Replikate) enthält. C Die Verteilung von Nicht-T > C-Fehlanpassungen über die Lesepositionen zeigt Spitzen in den Fehlerraten (gelb hervorgehoben) für eine Probe mit niedrigem T > C-Umwandlungsgehalt (keine 4 SU) und einer Probe mit hoher T > C-Umwandlung (12 h Verfolgung), die gedämpft sind oder bei der Anwendung von Filtern mit Basisqualität beseitigt. D Nukleotid-Umwandlungsverteilung entlang 3′-Endpositionen in einem statischen 250 bp an 3′-UTR-Enden für den mESC-Zeitverlauf, der charakteristische Kurvenverschiebungen gemäß ihrem vermuteten T > C-Umwandlungsgehalt (Zeitpunkt) und eine starke Basenumwandlungsverzerrung in Richtung 3′ zeigt Ende (gelb hervorgehoben) induziert durch allgemein reduzierten T-Gehalt in den letzten Basen von 3′ UTRs

Qualitätskontrolle und Interpretation von SLAMseq-Datensätzen

Um die SLAMseq-Probeninterpretation zu erleichtern, haben wir mehrere QC-Module pro Probe in SLAM-DUNK implementiert. Um die Notwendigkeit der Interpretation von Proben in einem experimentellen Kontext zu berücksichtigen, bieten wir MultiQC-Unterstützung [13] für SLAM-DUNK. Das MultiQC-Modul von SLAM-DUNK ermöglicht die Überprüfung von Konversionsraten, die Identifizierung systematischer Verzerrungen und zusammenfassende Statistiken über Proben.

Um die QS-Fähigkeiten von SLAM-DUNK zu demonstrieren, haben wir es auf 6 repräsentative mESC-Zeitverlaufsdatensätze mit erwartetem steigendem Nukleotid-Umwandlungsgehalt angewendet (siehe Tabelle 3). Zuerst verglichen wir die Gesamt-Nukleotid-Umwandlungsraten aller Zeitpunkte und beobachteten die erwartete Abnahme der T > C-Nukleotid-Umwandlungen zu späteren Zeitpunkten ( 6a , ein Replikat gezeigt). Als nächstes führten wir eine PCA basierend auf einer T > C-Umwandlung mit Lesevorgängen unter Verwendung aller drei Replikate durch. Wir haben festgestellt, dass sich Replikate wie erwartet gruppieren. Darüber hinaus bildeten 24 h Verfolgung und keine 4SU-Proben einen größeren Cluster. Dies kann erklärt werden, da nach 24 Stunden Verfolgung erwartet wird, dass die Proben T > C-Umwandlungsfrei sind ( 6b ).

Durch die Untersuchung von Fehlanpassungsraten entlang der Lesepositionen für zwei repräsentative Stichproben konnten wir Lesezyklen mit erhöhten Fehlerraten identifizieren (Abb. 6c). Um das vom Lesezyklus abhängige Nukleotid-Mismatch-Rauschen zu reduzieren, haben wir in SLAM-DUNK einen Base-Quality-Cutoff für T > C Conversion Calling implementiert. Durch die Anwendung der Cutoffs für die Basisqualität wurde die Gesamtdatenqualität deutlich erhöht, wodurch fehleranfällige Lesepositionen abgeschwächt oder sogar beseitigt werden. Schließlich visualisierten wir die durchschnittlichen T > C-Umwandlungsraten über die letzten 250 Nukleotide jedes Transkripts, um positionelle T > C-Umwandlungsfehler über die 3'-Intervalle zu untersuchen. Wir haben keine Conversion-Bias in den statischen 250-bp-Fenstern festgestellt, mit Ausnahme eines Rückgangs bei den T > C-Conversions

20 Nukleotide stromaufwärts vom 3'-Ende, was höchstwahrscheinlich durch einen geringeren genomischen T-Gehalt verursacht wird, ein charakteristisches Merkmal von mRNA-3'-Endsequenzen (siehe Zusätzliche Datei 1: Abbildung S7).


Bioinformatik-Prüfung #1

(3) Sie können gemeinsame Vorfahren mithilfe von Proteinsequenzen von vor über 1 Milliarde Jahren finden, während DNA-Sequenzen nur vor 600 Millionen Jahren zurückreichen können.

BLOSUM62 & PAM120: Gehe zu Ausrichtungen

An einem Punkt sind zwei homologe Proteine ​​zu unterschiedlich, als dass das Alignment als signifikant erkannt werden könnte.

Für PAM-Matrizen gibt es die sogenannte Twilight Zone. Nach

Das Ziel von Needleman and Wunsch ist es, eine optimale Ausrichtung zu finden. Sie erstellen eine neue Matrix mit m+1 oder n+1, da Sie jedem Paar eine Punktzahl zuweisen. Lückenstrafen (-2 für jede Lückenposition) werden entlang der ersten Zeile und Spalte platziert. Dadurch können wir eine beliebig lange Klemmenlücke einführen.

Ein wesentlicher Unterschied besteht darin, dass die Punktzahl nicht negativ sein kann. Wenn sie negativ sind, sollten sie eine Punktzahl von Null erhalten. Wertung: +1 für Match -0,33 für Mismatch -1,3 für eine Lücke der Länge 1 (je größer die Lücke, desto härter die Strafe).

BLASTN: vergleicht DNA mit DNA (Nukleotide zu Nukleotiden)

BLASTX: übersetzt DNA in sechs Proteinsequenzen unter Verwendung aller sechs möglichen Leserahmen und vergleicht dann jedes dieser Proteine ​​mit einer Proteindatenbank.

TBLASTN: Übersetzen Sie jede DNA-Sequenz in einer Datenbank in sechs potenzielle Proteine ​​und vergleichen Sie dann Ihre Proteinanfrage mit jedem dieser übersetzten Proteine.


Befehlszeilensyntax

Wenn Sie mit BLASTZ vertraut sind, können Sie LASTZ genauso ausführen, wie Sie BLASTZ ausgeführt haben, mit denselben Optionen und Eingabedateien. Neben dieser BLASTZ-Kompatibilität bietet LASTZ weitere Optionen.

Das allgemeine Format der LATZ-Befehlszeile ist

Die spitzen Klammern <> weisen auf metasyntaktische Variablen hin, die durch Ihre Werte ersetzt werden sollten, während die eckigen [] auf optionale Elemente hinweisen. Leerzeichen trennen Felder auf der Befehlszeile Ein Feld, das ein Leerzeichen enthalten muss (z. B. innerhalb eines Dateinamens), muss in doppelte Anführungszeichen "" eingeschlossen werden. Elemente können in beliebiger Reihenfolge erscheinen, wobei die einzige Einschränkung darin besteht, dass <query>, falls vorhanden, nach dem <target> erscheinen muss. Die Ausgabe wird im Allgemeinen in stdout geschrieben, sofern für eine bestimmte Option nicht anders angegeben.

<target> und <query> sind normalerweise nur die Namen von Dateien, die die auszurichtenden Sequenzen enthalten, entweder im FASTA-, Nib- oder 2Bit-Format. Es kann sich jedoch um HSX-Indexdateien handeln, die indirekt auf die Sequenzen verweisen, und sie können auch Vorverarbeitungsaktionen angeben, wie z. B. das Auswählen einer Untersequenz aus der Datei (Details finden Sie unter Sequenzspezifizierer). Bei bestimmten Optionen wie ‑‑self wird die <query> nicht benötigt, ansonsten werden die Abfragesequenzen von stdin gelesen, wenn sie nicht angegeben werden (obwohl dies bei wahlfreien Formaten wie 2Bit nicht funktioniert). Als Sonderfall wird <target> bei Verwendung der Option ‑‑targetcapsule weggelassen, da die Zielsequenz in die Kapseldatei eingebettet ist.

Für Optionen ist das allgemeine Format ‑‑<keyword> oder ‑‑<keyword>=<value> , aber aus Gründen der BLASTZ-Kompatibilität haben einige Optionen auch eine alternative Syntax <letter>=<number> . (Seien Sie vorsichtig, wenn Sie Optionen aus den folgenden Tabellen kopieren, da einige der Bindestriche hier Sonderzeichen sind, um einen umständlichen Zeilenumbruch in bestimmten Webbrowsern zu vermeiden. Wenn Sie Probleme haben, ersetzen Sie die eingefügten Bindestriche in Ihrer Befehlszeile durch normale eingegebene Bindestriche.)

Bitte haben Sie Verständnis dafür, dass LASTZ ein komplexes Programm ist und seine Optionen nicht alle unabhängig sind, d.h. einige Optionen sind nicht in Kombination mit bestimmten anderen gültig. Es wäre schwierig und umständlich, hier alle möglichen Konflikte aufzuzählen, anstatt nur einige der wichtigsten zu nennen. Wenn Sie sich bei einer bestimmten Kombination nicht sicher sind, probieren Sie es einfach aus und LASTZ wird Ihnen sagen, ob es nicht zulässig ist.

Wenn Sie den Befehl lastz ohne Argumente ausführen, wird eine Hilfenachricht mit den am häufigsten verwendeten Optionen ausgegeben, während die Ausführung alle Optionen auflistet.

Wo zu suchen

‑‑querydepth=keep:<n> kann verwendet werden, wenn einige Ausrichtungen für solche Abfragen/Stränge beibehalten werden sollen.

<n> ist eine reelle Zahl und entspricht einem Schwellenwert für die Abdeckungstiefe. Ein Wert von 5,0 würde beispielsweise eine Beendigung verursachen, sobald eine Abfrage/ein Strang durchschnittlich fünf Ausrichtungen für jede Basis in der Abfrage aufweist. Der Zähler ist die Anzahl der Übereinstimmungen oder Ersetzungen (aber keine Lücken), der Nenner ist die Länge der Abfragesequenz.

Der Zweck dieser Option besteht darin, Zeit zu sparen. Es ist nützlich, um die Verarbeitung von Anfragen mit hohem Wiederholungsinhalt automatisch zu beenden, bei denen andere Methoden zum Umgang mit sich wiederholenden Inhalten versagen.

Wertung

Dies sind grundlegende Parameter für die Ausrichtungsbewertung, die in mehreren Phasen verwendet werden.

Beachten Sie, dass die Angabe von ‑‑match die Standardeinstellungen für einige der anderen Optionen ändert (z. B. die Scoring-Strafen für Lücken und verschiedene Erweiterungsschwellenwerte), wie in den jeweiligen Abschnitten beschrieben. Die regulären Standardwerte werden aus Gründen der Kompatibilität mit BLASTZ ausgewählt, aber da BLASTZ ‑‑match nicht unterstützt, folgert LASTZ, dass Sie für diesen Lauf keine BLASTZ-Kompatibilität erwarten, sodass es kostenlos ist, verbesserte Standardwerte zu verwenden.

Es kann eine <penalty> angegeben werden, die für jede Nicht-Übereinstimmungs-Substitution mit N gilt. Wenn auch <reward> angegeben ist, gilt dies für eine N-gegen-N-Übereinstimmung (andernfalls werden diese Übereinstimmungen mit Null gewertet). Beachten Sie, dass <penalty> in der Bewertungsmatrix negiert wird, während <reward> dies nicht ist.

Eine ausführlichere Diskussion finden Sie unter Nicht-ACGT-Zeichen. Diese Option ist bei Quanten-DNA nicht gültig.

Es kann eine <penalty> angegeben werden, die für jede Nicht-Übereinstimmungs-Substitution gilt, die ein mehrdeutiges Nukleotid beinhaltet. Wenn auch <reward> angegeben ist, gilt dies für eine Übereinstimmung mit mehrdeutigen Nukleotiden (andernfalls werden diese Übereinstimmungen mit Null gewertet). Beachten Sie, dass <penalty> in der Bewertungsmatrix negiert wird, während <reward> dies nicht ist.

Eine ausführlichere Diskussion finden Sie unter Nicht-ACGT-Zeichen. Diese Option ist bei Quanten-DNA nicht gültig.

Beachten Sie, dass dies nicht bedeutet, dass LATZ die spezifische Mehrdeutigkeit berücksichtigt, die mit jedem Zeichen verbunden ist (z. B. dass R als Übereinstimmung mit einem A oder G betrachtet würde, aber nicht mit einem C oder T). Stattdessen werden sie alle bewertet, als ob sie ein N wären.

Die Strafen für die Versäumnislücke werden wie folgt bestimmt. Wenn ‑‑match angegeben wird, beträgt die Open-Strafe das 3,25-fache der Mismatch-Strafe und die Extended-Strafe das 0,24375-fache der Mismatch-Strafe. (Dies sind die gleichen Verhältnisse wie die Standardwerte von BLASTZ.) Beide Strafen werden auf die nächste ganze Zahl aufgerundet. Andernfalls betragen die Lückenstrafen 400 für Open, 30 für Extend.

Indizierung

Wenn Sie dies als Prozentsatz festlegen, ist es einfacher, die Konsistenz zwischen den Durchläufen aufrechtzuerhalten. Die tatsächliche Anzahl hängt von der Sequenzlänge und Zusammensetzung sowie vom Schrittversatz und dem Seed-Muster ab. Abbildung 4 zeigt beispielsweise die Variation zwischen den menschlichen Chromosomen in hg18 für ‑‑seed=match13 , ‑‑step=15 und ‑‑maxwordcount=90 % . Die grauen Balken zeigen den Prozentsatz der beibehaltenen Startwortpositionen (die rote Linie zeigt die idealen 90%). Die blauen Zahlen zeigen die äquivalente Anzahl, die stark variiert.

Insbesondere wird eine kumulative Zählung der Anzahl von Malen geführt, die jeder Zielort ausgerichtet wird. Nachdem jede Abfragesequenz und jeder Strang verarbeitet wurde, werden alle Positionen, die in mindestens <count> Alignment-Blöcken ausgegeben wurden, maskiert, sodass sie von der Seeding-Phase ausgeschlossen werden für anschließend Abfragesequenzen. Da bei der Verarbeitung eines Sequenzstrangs entdeckte Wiederholungen nur für nachfolgende Sequenzstränge maskiert werden, hat diese Option keine Auswirkung auf den ersten Strang der ersten Sequenz in der Abfragedatei.

Diese Option erfordert je nach <count> ein, zwei oder vier Byte Speicher für jede Zielposition. Wenn <count> 254 oder weniger beträgt, wird ein Byte verwendet, wenn es 65.534 oder weniger beträgt, werden zwei Byte verwendet.

Aussaat

HSPs finden (lückenlose Erweiterung)

Wenn die ‑‑Match-Scoring verwendet wird, beträgt der standardmäßige X-Drop-Beendigungsschwellenwert das 10-fache der Quadratwurzel der Nichtübereinstimmungsstrafe, aufgerundet auf die nächste ganze Zahl. Andernfalls ist der Standardwert das 10-fache des A-vs.-A-Substitutionswerts.

Wenn die ‑‑Matchbewertung verwendet wird, beträgt der standardmäßige HSP-Score-Schwellenwert das 30-fache der Match-Belohnung (entspricht der Punktzahl einer 30-bp-genauen Übereinstimmung). Andernfalls ist die Standardeinstellung 3000.

Verkettung

MöglichkeitBLASTZ-ÄquivalentBedeutung
--Kette C=1 oder C=2 Führen Sie die Verkettung von HSPs ohne Strafen durch.
--chain=<diag>,<anti> C=1 oder C=2
G=<diag>
R=<anti>
Führen Sie eine Verkettung mit den angegebenen Strafen für Diagonal und Antidiagonal in der DP-Matrix durch. Diese werden als positive Werte angegeben, wobei implizit davon ausgegangen wird, dass vom Score abgezogen wird.
--keine Kette C=0 oder C=3 Überspringen Sie die Verkettungsphase.
Standardwerte: Standardmäßig wird die Verkettungsstufe übersprungen.

Lückenhafte Erweiterung

Wenn die ‑‑match-Bewertung verwendet wird, ist der standardmäßige y-Drop-Schwellenwert das Doppelte des x-Drop-Schwellenwerts (oder wenn die x-Drop-Erweiterung nicht durchgeführt wurde, das Doppelte des standardmäßigen x-Drop-Schwellenwerts), andernfalls ist es der Score einer 300-bp-Lücke.

Der Standardwert für den Gap-Score-Schwellenwert ist der gleiche Wert wie für den HSP-Schwellenwert (der über ‑‑hspthresh einstellbar ist). Wenn der HSP-Schwellenwert adaptiv war, wird der beibehaltene HSP mit der niedrigsten Bewertung für diesen Standard verwendet. Wenn keine x-drop-Erweiterung durchgeführt wurde, wird der Wert verwendet, der der Standard-HSP-Schwellenwert gewesen wäre.

Back-End-Filterung

Interpolation

Ausgabe

Wenn bei allen lav-Formaten <output_file> weggelassen wird, wird die Zählung als spezielle Zeilengruppe in die Ausgabe aufgenommen. Für alle anderen Formate ist <output_file> obligatorisch.

Zimmerreinigung

Verknüpfungen für Yasra

Es gibt mehrere Shortcut-Optionen, um den Yasra-Mapping-Assembler zu unterstützen. Diese bieten vorgefertigte Sätze von Optionseinstellungen, die sich gut zum Ausrichten einer zusammengesetzten Referenzsequenz (als Ziel) mit einem Satz Schrotflinten-Lesevorgänge (als Abfrage) eignen. Sie werden basierend auf dem erwarteten Identitätsgrad zwischen den Sequenzen ausgewählt. Beispielsweise sollte ‑‑yasra90 verwendet werden, wenn wir eine Identität von 90 % erwarten. Die ‑‑‑yasraXXshort-Optionen sind geeignet, wenn die Reads sehr kurz sind (weniger als 50 bp).

Möglichkeit Äquivalent
--yasra98 T=2 Z=20 ‑‑match=1,6 O=8 E=1 Y=20 K=22 L=30 ‑‑filter=identity:98 ‑‑ambiguuous=n ‑&# 8209noytrim
--yasra95 T=2 Z=20 ‑‑match=1,5 O=8 E=1 Y=20 K=22 L=30 ‑‑filter=identity:95 ‑‑ambiguuous=n ‑&# 8209noytrim
--yasra90 T=2 Z=20 ‑‑match=1,5 O=6 E=1 Y=20 K=22 L=30 ‑‑filter=identity:90 ‑‑zweideutig=n ‑&# 8209noytrim
--yasra85 T=2 ‑‑match=1,2O=4 E=1 Y=20 K=22 L=30 ‑‑filter=identity:85 ‑‑ambiguuous=n ‑‑noytrim
--yasra75 T=2 ‑‑match=1,1O=3 E=1 Y=20 K=22 L=30 ‑‑filter=identity:75 ‑‑ambiguuous=n ‑‑noytrim
--yasra95short T=2 ‑‑match=1,7O=6 E=1 Y=14 K=10 L=14 ‑‑filter=identity:95 ‑‑ambiguuous=n ‑‑noytrim
--yasra85short T=2 ‑‑match=1,3O=4 E=1 Y=14 K=11 L=14 ‑‑filter=identity:85 ‑‑ambiguuous=n ‑‑noytrim

Gelegentlich ändern neuere Versionen von LATZ die Yasra-Verknüpfungsoptionen. Dies dient als Verbesserung, daher werden die meisten Benutzer die oben gezeigten Verknüpfungen verwenden möchten. Um jedoch die Abwärtskompatibilität für Benutzer zu unterstützen, die frühere Ergebnisse reproduzieren möchten, sind alle früheren Versionen der Verknüpfungen enthalten. Die Syntax lautet ‑‑<shortcut>:<version> , wobei <version> die LASTZ-Versionsnummer ist, die die Verknüpfung enthält.

Möglichkeit LASTZ-Version Äquivalent
--yasra98:<version> 1.02.45 oder früher T=2 Z=20 ‑‑match=1,6 O=8 E=1 Y=20 K=22 L=30 ‑‑filter=identity:98
--yasra95:<version> 1.02.45 oder früher T=2 Z=20 ‑‑match=1,5 O=8 E=1 Y=20 K=22 L=30 ‑‑filter=Identität:95
--yasra90:<version> 1.02.45 oder früher T=2 Z=20 ‑‑match=1,5 O=6 E=1 Y=20 K=22 L=30 ‑‑filter=Identität:90
--yasra85:<version> 1.02.45 oder früher T=2 ‑‑match=1,2O=4 E=1 Y=20 K=22 L=30 ‑‑filter=identity:85
--yasra75:<version> 1.02.45 oder früher T=2 ‑‑match=1,1O=3 E=1 Y=20 K=22 L=30 ‑‑filter=identity:75
--yasra95short:<version> 1.02.45 oder früher T=2 ‑‑match=1,7O=6 E=1 Y=14 K=10 L=14 ‑‑filter=identity:95
--yasra85short:<version> 1.02.45 oder früher T=2 ‑‑match=1,3O=4 E=1 Y=14 K=11 L=14 ‑‑filter=identity:85

Sequenzspezifizierer

Ein Ziel- oder Abfragesequenzspezifizierer gibt normalerweise nur eine Datei an, die im Alignment verwendet werden soll, es können jedoch auch verschiedene Vorverarbeitungsaktionen angegeben werden. Diese werden ausgeführt, während die Sequenzen aus der Datei gelesen werden, und können das Auswählen einer bestimmten Sequenz und/oder eines Unterbereichs, Maskieren, Anpassen von Sequenznamen usw. umfassen.

Das Format eines Sequenzspezifizierers ist

Das Feld <file_name> ist erforderlich, die Aktionsliste ist optional. Beachten Sie, dass die <actions> in literale eckige Klammern eingeschlossen sind (zusätzlich zu den Meta-Klammern, die nur angeben, dass sie optional sind) und aus einer durch Kommas getrennten Liste (ohne Leerzeichen) bestehen, z. [Aktion1,Aktion2. ] . Das * zeigt an, dass mehrere Aktionslisten angehängt werden können. Sie werden so behandelt, als ob sie in einer einzigen Liste wären.

Alternativ können Aktionen mit den Befehlen ‑‑action:target=<action> und ‑‑action:query=<action> angegeben werden. Dadurch können Aktionen ohne eckige Klammern gesetzt werden (eckige Klammern sind in einigen Befehlsshells problematisch).

Beachten Sie, dass die Aktionen für jede Sequenz in der Datei gelten. Wenn Sie beispielsweise einen Unterbereich von beispielsweise [100..] angeben, werden die ersten 99 bp in jeder Sequenz übersprungen.

Folgende Aktionen werden unterstützt:

Aus Gründen der BLASTZ-Kompatibilität wird auch die alternative Syntax <start>,<end> erkannt. In diesem Fall sind sowohl <start> als auch <end> erforderlich.

Ein “Zoom-Out-Faktor” kann ebenfalls mit der Syntax <start>..<end>+<zoom>% eingefügt werden. Das angegebene Intervall wird an jedem Ende um <zoom> Prozent erweitert. Dies ist nützlich, wenn Sie beispielsweise die Lage eines Gens kennen und flankierende Regionen in das Alignment einbeziehen möchten.

Eine weitere nützliche Syntax hierfür ist <start>#<length> , die praktisch ist, um ein Intervall bekannter Länge an einer bestimmten Position anzugeben. Es entspricht <start>..<start+length&minus1> . In ähnlicher Weise spezifiziert <center>^<length> ein Intervall bekannter Länge, das an der gegebenen Position zentriert ist. Große Längen können auf Wunsch mit M- oder K-Einheiten angegeben werden, z. 10,2 Mio. .

Wenn ein Unterbereich <start> größer als <end> hat, wird außerdem das umgekehrte Komplement des extrahierten Bereichs verwendet. Dies kann jedoch zu nicht offensichtlichen Wechselwirkungen mit anderen Funktionen wie Strangreporting, Sequenzmaskierung und Segmentdateien führen, daher sollte es mit Vorsicht verwendet werden. Normalerweise ist es einfacher, stattdessen die ‑‑strand-Optionen zu verwenden.

Das Zeichen kann ein beliebiges druckbares ASCII-Zeichen sein. Zeichen, die für das verwendete Eingabeformat wichtig sind (z. B. ein &ldquo>&rdquo in Fasta), sollten hierfür jedoch nicht verwendet werden. Darüber hinaus haben viele Eingabeformate eine begrenzte Fähigkeit, andere Zeichen als Nukleotide darzustellen. Es gibt keine Fehlerprüfung bezüglich des angegebenen <character> &mdash, wenn dieses Zeichen in der Eingabe überhaupt nicht vorkommt, wird keine Trennung durchgeführt.

Zusätzlich zu der oben gezeigten Sequenzbezeichner-Syntax unterstützt LATZ eine kompliziertere Syntax. Dies dient der Aufrechterhaltung der Kompatibilität mit BLASTZ und frühen Versionen von LASTZ. Alle hier beschriebenen Funktionen können mit der neueren obigen Syntax ausgeführt werden.

Das vollständige Format eines Sequenzspezifizierers ist

Wie bei der einfacheren Syntax ist das Feld <file_name> erforderlich, alle anderen Felder sind optional. Die Felder <file_name> und <actions> haben dieselbe Bedeutung wie in der einfacheren Syntax.

<nickname>:: entspricht dem Feld <name> in der Aktion nickname=<name>.

/<select_name> gilt nur für das 2Bit-Dateiformat und nur, wenn der Dateiname mit ".2bit" endet. Es gibt eine einzelne Sequenz aus der Datei an, die verwendet werden soll, und nicht alle Sequenzen. Dies ähnelt der Aktion subset=<names_file>, außer dass hier ein einzelner Sequenzname anstelle einer Datei mit Namen angegeben wird. Beachten Sie, dass der Name mit dem aus der Datei extrahierten Namen der verstümmelten Sequenz übereinstimmen muss.

<<mask_file>>ist identisch mit der Aktion xmask=<mask_file>.

A – (Minuszeichen) ist äquivalent zum Vertauschen der Endpunkte in der <subrange>-Aktion, es bewirkt, dass das umgekehrte Komplement der Sequenz anstelle der Sequenz selbst verwendet wird. Auch dies sollte mit Vorsicht verwendet werden, da dies zu undeutlichen Interaktionen mit anderen Funktionen führen kann. In BLASTZ wurde es benötigt, um nur den Minus-Strang zu durchsuchen, aber LASTZ bietet dafür die Option ‑‑strand.


Erklärung zur Datenverfügbarkeit

Die Chorus2-Software ist hinterlegt unter: https://github.com/zhangtaolab/Chorus2. Die Software-Tutorial-Videos wurden sowohl auf YouTube als auch auf bilibili (https://chorus2.readthedocs.io/en/latest/videos.html) hochgeladen. Als ergänzende Datei (Datei S1) wird ein Best-Practice-Handbuch zur Verfügung gestellt, das die Benutzer Schritt für Schritt durch die Verwendung der Software führt. Arabidopsis das Referenzgenom TAIR10 wurde von www.arabidopsis.org (Initiative, 2000) heruntergeladen. Das Reis-Referenzgenom TIGR7 wurde von http://rice.plantbiology.msu.edu/ heruntergeladen (Kawahara et al., 2013). Mais-Referenzgenom B73 AGPv3 und AGPv4 wurden von MaizeGDB (www.maizegdb.org) (Jiao et al., 2017). Das Kartoffel-Referenzgenom DM v404 wurde von der PGSC-Datenbank (http://solanaceae.plantbiology.msu.edu/) (Xu et al., 2011). Das Tomaten-Referenzgenom SL3.0 wurde von https://solgenomics.net/ heruntergeladen (Sato et al., 2012). Das Gersten-Referenzgenom IBSC_v2 wurde von http://plants.ensembl.org/Hordeum_vulgare/ (Mascher et al., 2017). Das Sojabohnen-Referenzgenom Gmax_ZH13_v2.0 wurde von https://bigd.big.ac.cn/gwh/Assembly/652/show (Shen et al., 2019). Das menschliche Genom hg38, das Mausgenom mm10 und das Zebrafischgenom danRer11 wurden von der UCSC Genome Browser Gateway-Website (https://hgdownload.soe.ucsc.edu/downloads.html) heruntergeladen (Gonzalez et al., 2021). Genomische Shotgun-Sequenzierung von EIN. thaliana wurde aus dem NCBI Sequence Read Archive (SRA) unter der Zugangsnummer SRR5658649, Genomic Shotgun Sequencing of O. sativa wurde von NCBI SRA unter dem Zugang SRR1630928, Genomic Shotgun Sequencing of Z. mays wurde von NCBI SRA unter der Zugangsnummer SRR2960981 abgerufen. Genomische Shotgun-Sequenzierung von Solanum tuberosum, Solanum etuberosum und Solanum jamesii wurden von NCBI SRA unter den Zugangsnummern SRR5349606, SRR5349573 bzw. SRR5349574 abgerufen (Hardigan et al., 2017). Genomische Shotgun-Sequenzierung von Hordeum vulgare wurde von NCBI SRA unter Zugang ERR3183755 (Monat et al., 2019). Genomische Shotgun-Sequenzierung von Glycin max wurde aus dem Genome Sequence Archive des Beijing Institute of Genomics (BIG) unter der Zugangsnummer CRR031689 (Shen et al., 2019). Genomische Shotgun-Sequenzierung von Homo sapiens wurde von NCBI SRA unter dem Beitritt SRR1298980 (Altshuler et al., 2015 et al., 2015). Genomische Shotgun-Sequenzierung von Muskulatur wurde von NCBI SRA unter der Zugangsnummer SRR067844 (Broad Institute) abgerufen. Genomische Shotgun-Sequenzierung von Danio rerio wurde von NCBI SRA unter dem Zugang SRR10751463 (Freire et al., 2020). Alle entwickelten Oligo-FISH-Sondendatensätze sind auf der Website http://zhangtaolab.org/download/oligo_datasets oder http://jianglab.plantbiology.msu.edu/oligo_datasets.html verfügbar.

Abbildung S1 Workflow und grafische Oberfläche von Chorus2.

Abbildung S2 Flussdiagramm der ChorusNoRef-Pipeline.

Abbildung S3 Das k-mer-Spektrum der Schrotflinten-Sequenzbibliothek von Illumina SRR2960981.

Tabelle S1 Zusammenfassung der von Chorus entworfenen Oligos, die sich auf Wiederholungen beziehen.

Tabelle S2 Oligos, entworfen von Chorus2 und OligoMiner.

Tabelle S3 Chorus2- und OligoMiner-entworfene Oligos, die den Top 200 repetitiven Clustern zugeordnet wurden, die von RepeatExplorer2 identifiziert wurden.

Tabelle S4 Zeit- und Speicherverbrauch von Chorus2 und OligoMiner.

Tabelle S5 Informationen zu entworfenen Oligo-FISH-Sonden für neun Arten.

Bitte beachten Sie: Der Herausgeber ist nicht verantwortlich für den Inhalt oder die Funktionalität der von den Autoren bereitgestellten unterstützenden Informationen. Alle Anfragen (außer fehlenden Inhalten) sollten an den entsprechenden Autor des Artikels gerichtet werden.


Zugangsoptionen

Einzelartikel kaufen

Sofortiger Zugriff auf das vollständige Artikel-PDF.

Die Steuerberechnung wird während des Bezahlvorgangs abgeschlossen.

Zeitschrift abonnieren

Sofortiger Online-Zugriff auf alle Ausgaben ab 2019. Das Abonnement wird jährlich automatisch verlängert.

Die Steuerberechnung wird während des Bezahlvorgangs abgeschlossen.


Fortgeschrittene Themen

Intervallkoordinaten

Die biologische Forschungsgemeinschaft hat mehrere konkurrierende Standards aufgestellt, die Intervalle auf einem DNA-Strang beschreiben. Verschiedene Programme verwenden oft unterschiedliche Standards. Da LASTZ mehrere Eingabe- und Ausgabeformate unterstützt, ist es unvermeidlich, dass es mehr als eine Methode zur Beschreibung eines Intervalls verwendet. Wir beschreiben hier die verschiedenen Konventionen.

Nehmen wir für diese Diskussion an, wir haben einen DNA-Strang von 50 Nukleotiden wie folgt:

Beachten Sie, dass es sich bei dieser DNA um 5'- und 3'-Enden handelt. Wir nehmen an, dass alle Eingabesequenzen der Standardpraxis folgen, die Basen mit dem 5'-Ende auf der linken Seite aufzulisten. Hier haben wir die Untersequenz hervorgehoben ATTACCTA so können wir diskutieren, wie das Intervall beschrieben wird, das es einnimmt. Dafür gibt es zwei gängige Methoden. Beide zählen von 5' bis 3' (von links nach rechts). So beginnt sie ab eins zu zählen. Umgekehrt beginnt sie bei Null zu zählen. In Ursprung-eins beginnt ATTACCTA also an Position 11, während es in Ursprung-Null an Position 10 beginnt.

Um die Endposition zu beschreiben, gibt es auch zwei gebräuchliche Methoden. Eine Möglichkeit besteht darin, die Position des letzten Nukleotids anzugeben. Das andere ist , in dem die Position nach dem letzten Nukleotid angegeben ist. Diese sind theoretisch unabhängig von den Konventionen für den Ursprung, in der Praxis werden jedoch nur zwei der Kombinationen gebräuchlich: und . Im ersteren wird gesagt, dass ATTACCTA das Intervall (11,18) einnimmt, während es im letzteren das Intervall (10,18) einnimmt. Beachten Sie, dass sich zwischen diesen beiden Paradigmen nur die erste Zahl ändert, die zweite Zahl bleibt gleich.

Ein weiterer zu berücksichtigender Faktor ist, dass DNA normalerweise doppelsträngig ist, was wie folgt aussehen würde:

In manchen Fällen ist es sinnvoll, sich auf das Intervall entlang des Komplementstrangs zu beziehen. Wenn die obige Sequenz beispielsweise eine Abfrage war und das Ziel TAGGTAAT enthielt, wie sollte die Abfrageposition einer Ausrichtung dieser beiden beschrieben werden? Eine Möglichkeit wäre, sich immer noch auf das Intervall entlang des Vorwärtsstrangs (den wir auch den oder-Strang nennen) zu beziehen und nur anzugeben, dass es tatsächlich das umgekehrte Komplement dieses Intervalls war, das ausgerichtet wurde. Wir nennen das. Eine andere Möglichkeit besteht darin, vom anderen Ende aus zu zählen, vom 5'-Ende des Komplementstrangs (den wir auch als , oder Strang bezeichnen). Wir nennen dies , und der Klarheit halber könnten wir "von seinem 5'-Ende" hinzufügen. In diesem Beispiel würden wir sagen, dass TAGGTAAT bei (33,40) entlang des Rückwärtsstrangs auftritt, wenn wir Ursprung-eins, geschlossene Zählung verwenden. Sofern nicht anders angegeben (z. B. für das Ausgabeformat R Dotplot), vertauscht LATZ beim Zählen entlang des Vorwärts- oder Rückwärtsstrangs die Endpunkte des Intervalls, falls erforderlich, so dass die Position namens start numerisch die Position namens end ist. Dies ist eine übliche Konvention, aber es gibt andere Programme, bei denen sie nicht ausgetauscht werden.

Beachten Sie, dass beim Zählen von Positionen alle Zeichen in der Sequenz gezählt werden, einschließlich Folgen von N s oder X s und sogar ungültigen Zeichen. Dies ist wichtig, damit andere Programme die gemeldeten Positionen verwenden können, um direkt in die Originalsequenzen zu indizieren.

Nicht-ACGT-Charaktere

Der Umgang mit anderen Zeichen als A, C, G und T in Sequenzen, die DNA repräsentieren sollen, ist problematisch. In gewöhnlichen (Nicht-Quanten-)DNA-Sequenzen unterstützt LATZ derzeit zwei davon, N und X. Sie können entweder in der ursprünglichen Eingabedatei vorhanden sein (mit der Ausnahme, dass die Formate Nib und 2Bit keine X s enthalten können) oder mithilfe einer xmask- oder nmask-Aktion im Sequenzbezeichner hinzugefügt werden. LASTZ kann auch so konfiguriert werden, dass es die anderen IUPAC-IUB-Mehrdeutigkeitscodes toleriert.

Viele Datenbanksequenzen enthalten N s , um Basen darzustellen, für die das tatsächliche Nukleotid nicht bekannt ist (zumindest nicht mit einem gewissen Vertrauensniveau). N s (oder besser X s) kann auch verwendet werden, um Bereiche auszublenden, die zuvor als uninteressant identifiziert wurden und daher nicht ausgerichtet werden sollten. Und unglücklicherweise gibt es auch eine Tradition, Zeichenfolgen von X s oder N s zu verwenden, um mehrere Sequenzen zusammenzufügen, um die Effizienz beim Umgang mit Programmen zu erhöhen, die auf eine einzelne Sequenz beschränkt waren.

Obwohl das Spleißen in BLASTZ nützlich war, wird es für LASTZ nicht mehr benötigt. Da LATZ mehrere Zielsequenzen verarbeiten kann (über die Mehrfachaktion im Sequenzbezeichner der Zieldatei), wird es bevorzugt, dass Benutzer nicht auf das Spleißen zurückgreifen. Das Ersetzen von BLASTZ durch LASTZ in einer bestehenden Pipeline kann jedoch immer noch gespleißte Sequenzen beinhalten sie werden normalerweise in keiner Ausrichtung angezeigt. N s sind auch vom Seeding ausgeschlossen und werden ungefähr genauso bestraft wie eine Transversionsfehlanpassung. Insbesondere wird jede Substitution mit X als &minus1000 bewertet, und jede Substitution durch irgendetwas anderes (außer A, C, G oder T) wird als &minus100 bewertet.Beachten Sie, dass Sie zwischen den Sequenzen "genug" X s oder N s einfügen müssen, damit kein Ausrichtungsblock den Spleiß kreuzt. Dies kann knifflig sein, da die Gap Scoring nur von der Länge der Lücke und nicht von den Charakteren in der Lücke abhängt. Wenn also eine Lücke mit der gleichen Länge wie der Spleiß nicht mehr als die y-Drop-Einstellung bestraft wird, kann die Ausrichtung den Spleiß überspringen. Als grobe Richtlinie reicht in der Regel eine Spleißlänge von 50 mit den Standardeinstellungen, dies kann jedoch nicht garantiert werden.

Diese Standardbehandlung von Nicht-ACGT-Zeichen funktioniert auch gut, wenn X s oder N s verwendet werden, um Bereiche auszublenden, die nicht ausgerichtet werden sollen. Es ist jedoch ungeeignet, wenn die Sequenzen N s enthalten, um mehrdeutige Basen darzustellen. Um diesen Fall zu handhaben, bietet LASTZ die Option ‑‑ambiguuous=n, die bewirkt, dass Ersetzungen mit N als Null gewertet werden. Darüber hinaus bewirkt die Option ‑‑ambiguous=iupac, dass die anderen IUPAC-IUB-Mehrdeutigkeitscodes ( B, D, H, K, M, R, S, V, W, Y ) genauso wie ein mehrdeutiges N behandelt werden.

In beiden Fällen werden Nicht-ACGT-Zeichen während der Seeding-Phase ignoriert. Nur Seed-Wörter, die vollständig aus A , C , G und/oder T bestehen, sind am Seeding beteiligt, selbst wenn die Nicht-ACGT-Zeichen an "egal"-Positionen im Seed-Muster vorkommen.

Die oben beschriebenen Bewertungswerte können geändert werden, wenn eine Bewertungsdatei angegeben ist. Der &minus1000-Score heißt bad_score und der &minus100-Score heißt fill_score . Darüber hinaus kann auch in der Bewertungsdatei angegeben werden, welches Zeichen als "schlecht" gilt (standardmäßig ist dies X ) und kann tatsächlich zwischen Ziel und Abfrage unterschiedlich sein. Wenn wir uns in diesem Dokument auf das Zeichen X beziehen, das in einer DNA-Sequenz vorkommt, meinen wir im Allgemeinen das als "schlecht" angegebene Zeichen, das standardmäßig X ist .

Anders bei Quanten-DNA-Sequenzen: Sie verwenden ein beliebiges, benutzerdefiniertes Alphabet von Symbolen, sodass die oben genannten Sonderbehandlungen für N und X nicht gelten. Das standardmäßige "schlechte" Zeichen für Quantensequenzen ist das Nullbyte ( 00 hexadezimal), das in der Sequenz nicht einmal zulässig ist, jedoch über die Bewertungsdatei in eines der gültigen Alphabetsymbole geändert werden kann. Es gibt kein Analogon zu mehrdeutigem N s für Quantenfolgen, da typischerweise jedes Symbol ein gewisses Maß an Mehrdeutigkeit aufweist.

Sequenznamen-Mangling

Oft sind die Namen in den Eingabesequenzdateien für die nachgelagerte Verarbeitung unbequem oder verursachen Probleme mit bestimmten Ausgabeformaten. Dies wird noch dadurch erschwert, dass einige Eingabeformate (insbesondere Nib) keine Sequenznamen enthalten, sodass in diesen Fällen ein Name vom Dateinamen abgeleitet werden muss. LASTZ bietet mehrere Auswahlmöglichkeiten für die Benennung der Eingabesequenzen. Diese Alternativen schließen sich gegenseitig aus, nur eine kann gleichzeitig für eine bestimmte Eingabedatei verwendet werden.

Intern wickelt LATZ die Namensgebungsaufgabe in zwei Phasen ab. Zuerst wird a für die Sequenz erstellt. Wenn das Eingabeformat einen Namen oder eine Kopfzeile bereitstellt, wird dies zur vollständigen Kopfzeile. Andernfalls wird der vollständige Header aus dem Dateinamen erstellt.

In der zweiten Phase kürzt LATZ den vollständigen Header zu einem Spitznamen. Wenn der vollständige Header mit einem Dateinamen beginnt, wird jedes Pfadpräfix entfernt, und häufig verwendete Dateierweiterungssuffixe werden ebenfalls entfernt ( .fa , .fasta , .nib , .2bit ). Dann verwendet LASTZ standardmäßig das erste Wort (das aus anderen Zeichen als Leerzeichen, vertikalem Strich oder Doppelpunkt besteht) der verbleibenden Zeichenfolge als Sequenznamen. Also ein FASTA-Header wie ">

someuser/human/hg18/chr1.fa Humanes Chromosom 1" wird zu einfach chr1 abgekürzt.

Die Aktionen nameparse=darkspace und nameparse=alphanum im Sequenzspezifizierer ändern, wie das erste Wort bestimmt wird. Darkspace (d. h. "non-whitespace") verengt den Satz der abschließenden Zeichen, damit im Wort vertikale Striche und Doppelpunkte erscheinen können, während Alphanum ihn erweitert, sodass das Wort nur auf alphabetische, numerische und Unterstrichzeichen beschränkt ist. Pfadpräfixe und Dateierweiterungen werden weiterhin entfernt.

Die Standardkürzung ist oft ausreichend. Betrachten Sie beispielsweise die folgende FASTA-Datei. Standardmäßig lauten die Namen 000007_3133_3729 und 000015_3231_1315 .

Der Benutzer kann es jedoch bequemer finden, die Zugangsnummern zu verwenden. Dazu kann sie die Aktion nameparse=tag:uaccno= verwenden. LASTZ sucht in jedem Header nach dem Tag-String uaccno= und liest den Namen aus den folgenden Zeichen bis zum ersten Zeichen, das nicht alphabetisch, numerisch oder unterstrichen ist. In diesem Fall wären die Sequenznamen FX9DQEU13H5YZN und FX9DQEU13HUTXE . Wenn der Tag-String für eine bestimmte Sequenz nicht im vollständigen Header gefunden wird, wird stattdessen die Standardkürzung verwendet.

Betrachten Sie nun diese FASTA-Datei:

In diesem Fall macht die Standardaktion nicht das, was wir wollen (alle Sequenzen würden gi genannt). Die Aktion nameparse="tag:gi|" gibt uns die Namen 197102135, 169213872 und 34784771. (Beachten Sie die Anführungszeichen, die erforderlich sind, um zu verhindern, dass die Befehlszeilen-Shell | als Pipe-Zeichen interpretiert.) Beachten Sie, dass ein Tag von ref| wird nicht funktionieren, da die dritte Sequenz gb| . benötigen würde stattdessen.

Manchmal ist es bequemer, nur einen bestimmten Namen zu vergeben. Dies kann mit der Aktion nickname=<name> erfolgen. Verwenden Sie beispielsweise die Ziel- und Abfragedateispezifizierer

someuser/human/ponAbe2/chr1.nib[nickname=orang] , zeigt die Ausgabe die Sequenzen als human und Orang an, anstatt sie beide als chr1 zu bezeichnen. Wenn <name> die Teilzeichenfolge enthält , enthält der Spitzname die Nummer der Sequenz in der Datei. Dies ist besonders nützlich, wenn die Datei mehr als eine Sequenz enthält.

Wenn Sie die Namensverzerrung ganz abschaffen möchten, können Sie die Aktion nameparse=full verwenden. Dies verwendet den vollständigen Header als Sequenznamen. Beachten Sie jedoch, dass die resultierenden Alignment-Dateien von nachgeschalteten Tools möglicherweise nicht gelesen werden können, wenn sie Leerzeichen enthält.

Die obige Diskussion gilt für gewöhnliche DNA-Sequenzen im FASTA-, Nib- oder 2Bit-Format. HSX-Indexdateien werden anders behandelt: Standardmäßig verwendet LASTZ den Namen aus dem Index unverändert, ohne ihn zu kürzen, und die verschiedenen Nameparse-Aktionen sind nicht zulässig. Die Aktion Kurzname kann verwendet werden, ist aber im Allgemeinen nicht erforderlich, da Sie die gewünschten Namen direkt im Index speichern können.

Beachten Sie, dass bei Verwendung der Aktion subset=<names_file> die Namen in der <names_file> mit den verstümmelten (oder indizierten) Namen übereinstimmen müssen.

Bei FASTA-Dateien kann eine kompliziertere Namensänderung mit Standard-Unix-Befehlszeilentools durchgeführt werden. Im zweiten Beispiel oben könnten wir die Eingabe mehrmals durch sed leiten, um jeden Namen auf die NCBI-Zugangsnummern NM_001133512.1 , XM_001716177.1 und BC006342.2 zu kürzen.

Samenmuster

Seeds sind kurze Near-Matches zwischen den Ziel- und Abfragesequenzen, wobei "kurz" typischerweise weniger als 20 bp bedeutet. Frühe Ausrichtungsprogramme verwendeten genaue Übereinstimmungen (z. B. der Länge 12) als Keime, können jedoch die Empfindlichkeit verbessern, wenn die Sequenzen divergieren.

A ist eine Liste von Positionen, in einem kurzen Wort, an denen ein Seed Nichtübereinstimmungen enthalten kann. Betrachten Sie zum Beispiel das Seed-Muster 1100101111 . Eine 1 zeigt an, dass an dieser Position eine Übereinstimmung erforderlich ist, und eine 0 zeigt an, dass eine Nichtübereinstimmung zulässig ist (effektiv ist es eine "egal"-Position). Wie das folgende Beispiel zeigt, trifft das Seed-Wort GTAGCTTCAC bei Verwendung dieses Seed-Musters zweimal in der Sequenz ACGTGACATCACACATGGCGACGTCGCTTCACTGG .

Es hat sich gezeigt, dass beabstandete Seeds empfindlicher sind als exakt passende Seeds, wobei sich die Spezifität nur geringfügig ändert. Dies ist am vorteilhaftesten, wenn die Sequenzen eine geringere Ähnlichkeit aufweisen, wie etwa Mensch vs. Maus oder Huhn. Welches Saatmuster am besten ist, hängt von den verglichenen Sequenzen ab. Siehe [Bühler 2003] für eine Diskussion über beabstandete Seeds und deren Gestaltung.

Die Seeding-Optionen von LASTZ geben dem "Benutzer" viele Möglichkeiten. Die Absicht ist, dass diese von einem Programm ausgewählt werden (daher die Anführungszeichen um "user"), aber sie sind für jeden über die Befehlszeile verfügbar.

N-mer-Match:

Allgemeine Saatmuster:

Saatmuster halber Körnung:

Einfache, doppelte oder keine Übergänge:

Filtern nach Transversionen und Übereinstimmungen:

Twin-Hit-Samen:

Any-or-Keine-Ausrichtung

Manchmal ist die einzige Antwort, die Sie von einem Aligner erwarten, ob eine Abfrage starke Ausrichtungen zum Ziel hat oder nicht. Sie möchten beispielsweise wissen, welche Reads in einem Sequenzierungslauf Nein Alignment mit einem Referenzgenom. Wenn sich in diesem Fall ein Read an tausend verschiedenen Stellen auf einem bestimmten Chromosom ausrichtet, sind Sie nicht daran interessiert zu erfahren, wo &ndash Sie nur wissen möchten, ob er ausgerichtet ist oder nicht.

Die Option ‑‑anyornone ist für solche Fälle konzipiert und kann die Ausrichtungsgeschwindigkeit erheblich verbessern. Sobald eine qualifizierende Ausrichtung gefunden wurde, wird die Verarbeitung für die aktuelle Abfrage angehalten. Die Ausrichtung wird an die Ausgabe gemeldet, und dann beginnen wir sofort mit der Verarbeitung der nächsten Abfrage. Ein qualifizierendes Alignment ist ein Alignment, das normalerweise aufgrund der anderen Parametereinstellungen ausgegeben würde, z.

Um eine Liste von Lesevorgängen zu erhalten, die mindestens eine "gute" Ausrichtung mit einer Referenzsequenz aufweisen, können Sie Folgendes tun:

Diese Option ändert leicht die übliche Verarbeitungsreihenfolge, die in der Übersicht beschrieben ist. Anstatt eine lückenlose Erweiterung für alle Seeds durchzuführen, sie in einer Liste von HSPs zu sammeln und dann eine lückenhafte Erweiterung durchzuführen, wird jede HSP sofort lückenerweitert und nach dem Back-End gefiltert. Dies vermeidet verschwendete Arbeit, um eine vollständige Frühphasenverarbeitung von Treffern durchzuführen, die einfach abgebrochen werden, sobald die erste qualifizierende Ausrichtung gefunden wurde.

Y-Drop-Mismatch-Schatten

Die Standardkonfiguration der lückenhaften Erweiterung in LATZ besteht darin, das Alignment dort zu beenden, wo die Punktzahl am höchsten wäre. Dies bedeutet, dass jedes Präfix oder Suffix des Alignments eine nicht negative Bewertung hat. Während dies für Alignments geeignet ist, die irgendwo in der Mitte zweier langer Sequenzen liegen, ist es nicht wünschenswert, wenn sich ein Alignment nahe dem Ende einer oder beider Sequenzen befindet, was beim Alignment kurzer Reads recht häufig vorkommt.

Betrachten Sie die folgende Ausrichtung einer 50-Basen-Abfrage auf ein Chromosomenziel und nehmen wir an, wir verwenden ‑‑match=1,5 , ‑‑gap=6,1 , ‑‑identity=97 und & #8209‑deckung=95 . Das gesamte gezeigte Alignment hat 97,9 % Identität (46/47) und 100 % Abdeckung. Die ersten fünf Basen ( AGAAC vs. AGAAG ) haben jedoch eine negative Bewertung: vier Übereinstimmungen mit jeweils +1 und eine Fehlanpassung bei &minus5 ergeben für dieses Präfix eine Bewertung von &minus1. Das Alignment mit der höchsten Punktzahl ist von den Positionen 6 bis 50 mit einer Punktzahl von 33 (das gesamte Alignment hat nur 32 Punkte). Wenn wir das Alignment bei der höchsten Punktzahl stoppen, sinkt die Abdeckung auf 90 % und das Alignment wird verworfen. Das Gesamtergebnis besteht darin, dass wir Lesevorgänge verwerfen, die wir nicht möchten, und wir werden eine Verzerrung gegenüber Nichtübereinstimmungen am Ende der Lesevorgänge feststellen. (Beachten Sie, dass diese Anomalie auftritt, weil das Alignment abrupt am Ende der Sequenz und nicht normalerweise durch eine Region mit niedriger Punktzahl beendet wird. Außerdem wird die Option ‑‑Coverage häufiger bei kurzen Lesevorgängen als bei längeren Sequenzen verwendet.)

Um dieses Verhalten zu vermeiden, verwenden Sie beim Ausrichten kurzer Lesevorgänge die Option ‑‑noytrim. Dies führt dazu, dass LASTZ davon absieht, solche Ausrichtungen zurück auf die Position mit der höchsten Punktzahl zu trimmen. Wenn der Prozess der lückenhaften Erweiterung auf das Ende der Sequenz trifft, wird dies insbesondere als das Ende der Ausrichtung beibehalten. In diesem Fall wird ein negativ bewertetes Präfix oder Suffix beibehalten, solange es nicht schlechter abschneidet als der ‑‑ydrop-Wert.

Schindelüberlappung

Bei einigen Anwendungen, z.B. Beim Zusammensetzen von Reads zu Contigs möchten wir ermitteln, wie sich Sequenzenden überlappen. Im Fall 1 unten überlappt beispielsweise der Beginn der Abfrage das Ende des Ziels um 30 Basen, und beide Sequenzen erstrecken sich in entgegengesetzte Richtungen übereinander. Wir nennen diese Situation "Schindeln" (wie Schindeln auf einem Dach), und das Schindelfeld des allgemeinen Ausgabeformats liefert ein Maß dafür. Ein positiver Wert gibt an, dass der Beginn der Abfrage das Ende des Ziels überlappt (Fall 1), während ein negativer Wert angibt, dass die Rollen vertauscht sind (Fall 2). Wenn keiner dieser Fälle auftritt (z. B. wenn eine Sequenz nicht über die andere hinausgeht), wird eine NA gemeldet.

Beachten Sie, dass der angegebene Wert keine Beziehung zur Anzahl der Basen hat, die in dieser Region ausgerichtet sind, noch ist er ein Hinweis darauf, dass sich die Ausrichtung bis zum Anfang oder Ende der Sequenzen erstreckt. Der Schindelwert ist nur ein Beweis dafür, dass die richtige Registrierung der beiden Lesevorgänge darin besteht, sie durch den gegebenen Wert zu überlappen &ndash Informationen, die ein Assembler beim Zusammensetzen dieser Lesevorgänge zu einem Contig verwenden könnte.

Verwenden von Zielkapseldateien

Zielkapseldateien werden bereitgestellt, um die Speicherauslastung zur Laufzeit zu verbessern, wenn mehrere CPU-Kerne auf demselben Computer LATZ mit derselben Zielsequenz ausführen. Sie ermöglichen die gemeinsame Nutzung des Löwenanteils der großen internen Datenstrukturen zwischen den Prozessen. Dadurch können mehr Kopien von LASTZ gleichzeitig mit weniger physischem Speicher ausgeführt werden, was den Durchsatz verbessern kann, wenn beispielsweise ein großer Satz von Lesevorgängen auf eine einzelne (große) Referenzsequenz abgebildet wird.

Um eine Kapseldatei zu erstellen, verwenden Sie einen Befehl wie diesen: Anwendbare Seeding-Optionen sind ‑‑seed , ‑‑step , ‑‑maxwordcount und ‑‑word .

Um die Kapseldatei zu verwenden, führen Sie LASTZ wie folgt aus: Es ist kein zusätzlicher Aufwand seitens des Benutzers erforderlich, um die gemeinsame Nutzung der Kapseldaten zwischen einzelnen Durchläufen zu handhaben. Fast alle Optionen sind erlaubt, jedoch sind die Seeding-Optionen ‑‑seed , ‑‑step , ‑‑maxwordcount und ‑‑word nicht erlaubt, da diese (oder ihre Nebenprodukte) bereits in der Kapsel gespeichert sind Datei. Außerdem ist eine ‑‑-Maskierung nicht zulässig, da dazu sowohl die Zielsequenz als auch die Positionstabelle für das Ziel-Seed-Wort geändert werden müssten, die in der Kapsel enthalten sind.

Intern fordert LATZ das Betriebssystem auf, die Kapseldatei direkt schreibgeschützt in den Speicherbereich des laufenden Programms abzubilden. Mehrere laufende Instanzen können dieselbe Datei zuordnen, jede Instanz hat ihre eigenen virtuellen Adressen für die Kapseldaten, aber der physische Speicher wird gemeinsam genutzt. Es ist nicht erforderlich, dass mehr als eine Instanz die Kapsel tatsächlich gleichzeitig verwendet. Das Ausführen einer einzelnen Kopie von lastz mit ‑‑targetcapsule funktioniert gut, und tatsächlich kann es eine kleine Geschwindigkeitsverbesserung im Vergleich zum Ausführen derselben Ausrichtung ohne eine Kapsel geben.

Der Nachteil dieser Technik ist, dass die Kapseldateien sehr groß und auch maschinenabhängig sind. Zum Beispiel ist die Datei für das menschliche Chromosom 1 ungefähr 1,4 GB groß. Beachten Sie, dass Versuche, eine Kapsel auf einem nicht übereinstimmenden Computer auszuführen, erkannt und abgelehnt werden.

Ableiten von Score-Sets

Die Bewertungsinferenz ist ein automatisiertes Verfahren zum Bestimmen geeigneter Substitutionsbewertungen und/oder Lückenstrafen direkt aus den ausgerichteten Sequenzen. Die resultierenden Bewertungsparameter können in einer Datei gespeichert und/oder sofort verwendet werden, um die Sequenzen auszurichten. Im Allgemeinen hängen diese hauptsächlich von der Art und nicht von bestimmten Regionen ab. Sobald also ein geeigneter Bewertungssatz für ein Artenpaar erhalten wurde, ist die Schlussfolgerung nicht möglich nicht müssen für jeden Ausrichtungslauf durchgeführt werden. In diesem Abschnitt geben wir einen kurzen Überblick über den Inferenzprozess, siehe [Harris 2007] für eine detailliertere Beschreibung.

Die Schlussfolgerung wird durch Berechnen der Wahrscheinlichkeit jedes der 18 verschiedenen Ausrichtungsereignisse (Lücke offen, Lückenerweiterung und 16 Substitutionen) erzielt. Diese Wahrscheinlichkeiten werden aus Alignments der Sequenzen geschätzt. Natürlich haben wir zunächst keine Ausrichtungen, also verwenden wir zunächst einen generischen Bewertungssatz, um Ausrichtungen zu erstellen, daraus Bewertungen abzuleiten, dann neu auszurichten usw., bis sich die Bewertungen stabilisieren oder "konvergieren". Ausrichtungen ohne Lücken werden durchgeführt, bis die Substitutionsbewertungen konvergieren, dann werden Ausrichtungen mit Lücken durchgeführt (wobei die Substitutionsbewertungen konstant gehalten werden), bis die Lückenstrafen konvergieren.

Damit LASTZ Scoring-Parameter ableiten kann, verwenden Sie einen entsprechend aktivierten Build von LASTZ (siehe unten) und geben Sie die Optionen ‑‑infer oder ‑‑inferonly an. (Letzteres stoppt nach dem Ableiten der Parameter, ohne die endgültige Ausrichtung durchzuführen.) Einstellungen für den Ableitungsprozess können in einer Steuerdatei angegeben werden, die diesen Optionen beigefügt ist.

Die Option ‑‑infscores bewirkt, dass die abgeleiteten Bewertungsparameter in eine separate Datei geschrieben werden. Wenn kein <output_file> angegeben ist, wird es als Kommentar in den Header der Alignment-Ausgabedatei geschrieben. Als letzte Möglichkeit, wenn kein Alignment durchgeführt wird, wird der Scoring-Satz nach stdout geschrieben. Die Parameter werden im gleichen Format geschrieben, das zur Eingabe von Scoring-Sets verwendet wird.

Normalerweise ist es unerwünscht, alle Ausrichtungsblöcke für die Inferenz zu verwenden. Blöcke mit einer hohen Substitutionsrate (niedrige Identität) sind wahrscheinlich falsch positiv. Andererseits werden Blöcke mit wenigen Substitutionen (hohe Identität) gefunden, unabhängig davon, welche Bewertungsparameter verwendet werden. Daher ist es wünschenswert, die Inferenz nur auf Statistiken aus einem mittleren Identitätsbereich zu stützen. Standardmäßig werden die mittleren 50 % verwendet (d. h. das 25. bis 75. Perzentil der Identitätsverteilung), dies kann jedoch in der Steuerdatei geändert werden.


2. AB SOLiD Reads: Kodierung und technologische Artefakte

Das SOLiD-System [21] ermöglicht eine massiv parallele Sequenzierung von klonal amplifizierten DNA-Fragmenten, die an Beads gebunden sind. Diese Sequenzierungstechnologie basiert auf der sequentiellen Ligation von farbstoffmarkierten Oligonukleotidsonden, wobei jede Sonde zwei Basenpositionen gleichzeitig bestimmt. Das System verwendet vier fluoreszierende Farbstoffe, um die sechzehn möglichen 2-Basen-Kombinationen zu codieren. Folglich wird ein DNA-Fragment durch die anfängliche Base dargestellt, gefolgt von einer Sequenz überlappender Dimere, von denen jedes mit einer von vier Farben unter Verwendung eines degenerierten Kodierungsschemas kodiert ist, das mehrere Regeln erfüllt. Obwohl eine einzelne Farbe in einem Lesevorgang eines von vier Dimeren darstellen kann, beseitigen die überlappenden Eigenschaften der Dimere und die Natur des Farbcodes Mehrdeutigkeiten und ermöglichen fehlerkorrigierende Eigenschaften.

Da unsere Arbeit auf der Modellierung der Fehlerverteilung entlang der Reads beruht, sind wir besonders an mehreren Aspekten der Sequenzierungstechnologie interessiert, die diese Verteilung beeinflussen.

Da jede Farbe des gelesenen Codes zwei benachbarte Basen kodiert und daher jede Base zwei benachbarte Farben beeinflusst, folgt daraus, dass jede einzelne Basenmutation zur Änderung zweier benachbarter Farben in dem gelesenen führt.

Zweitens deutet die Sequenzierungschemie (beschrieben in [21, 22]) in Bezug auf Lesefehler auf eine periodische Verzerrung entlang des Lesevorgangs hin. Grundsätzlich beruht die Sequenzierung durch Ligierungsprozess innerhalb der SOLiD-Plattform auf sukzessiven Hybridisierungen von 8-mer Oligonukleotiden an der zu sequenzierenden Matrize.Die Oligonukleotide enthalten 3 universelle Basen, 3 degenerierte Basen und 2 benachbarte Basen, die zwei Positionen auf der Matrize identifizieren, die mit der Identität der Fluoreszenzmarker an ihrem 5′-Ende korreliert sind. Nach der Ligation werden die Basen 6𠄸 zusammen mit dem Fluoreszenzfarbstoff abgespalten, sodass das 5′-Ende für eine weitere Ligation zur Verfügung steht. Daher zwei Positionen P und P + 1 sind nach Anhängen eines Oligonukleotids korrekt basengepaart, und die Positionen im Abstand 5 (P + 5 und P + 6) werden durch das nächste Oligonukleotid bestimmt. Die Nukleotide an Positionen, die diesem Muster nicht entsprechen, werden in nachfolgenden Runden bestimmt. Fünf Runden bestehend aus mehreren Ligationszyklen sind notwendig, um die Matrize abzudecken. Daher erwarten wir, dass sich Lesefehlerverzerrungen während einer solchen Sequenzierungsrunde ausbreiten und daher mit einer Periodizität von 5 auftreten.

Um diese Intuition zu bestätigen, haben wir die Variation der Lesefehlerwahrscheinlichkeit entlang des Lesevorgangs untersucht, indem wir statistische Eigenschaften von etwa einer Million SOLiD-Lesevorgängen der Saccharomyces cerevisiae Genom. In dieser Analyse haben wir die Qualitäten Q l jeder Position zugeordnet l beim Lesen, die sich auf die Fehlerwahrscheinlichkeit beziehen P e l durch Q l = � · Protokoll 10(P e l ) [23].

Wir haben die Qualitätskorrelation zwischen den Lesepositionen in Abhängigkeit von der Entfernung zwischen ihnen berechnet. Formal, wenn m ist die Leselänge, dann für jedes ich ∈ <1,…, m − 1> haben wir die Korrelation durch die folgende Standardformel berechnet c ( i ) = E ( ( Q j - Q ˜ ) ( Q j + i - Q ˜ ) ) / ( σ Q ) 2 , wo E(·) ist die Erwartung, Q ˜ die durchschnittliche Qualität beim Lesen und σ Q die Standardabweichung der Qualitätswerte. Das Ergebnis ist in Abbildung 1 dargestellt. Es zeigt signifikant höhere Korrelationen (bis zu 0,63) zwischen Positionspaaren, die sich in Abständen von Vielfachen von 5 befinden.


Schau das Video: Aligning RNA-seq reads to reference genome (Dezember 2022).