Information

31.3: Aufbau einer eQTL-Studie - Biologie

31.3: Aufbau einer eQTL-Studie - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Der grundlegende Ansatz einer eQTL-Studie besteht darin, die Expression jedes Gens als quantitatives Multifaktor-Merkmal zu betrachten und die Hauptkomponenten, die die Varianz der Expression erklären, zu regressieren. Die Expressionsniveaus jedes Gens werden auf Genotypen zurückgeführt, wobei biologisches und technisches Rauschen kontrolliert wird, so dass

[Y_{i}=alpha+X_{i} eta+epsilon_{i} onumber]

Wo Yich ist die Genexpression von Gen i, Xich ist ein Vektor, der die allelische Zusammensetzung jedes mit dem Gen assoziierten SNP enthält (und bei einem Referenzallel die Werte 0, 1 oder 2 annehmen kann), (alpha) und (eta) sind Spaltenvektoren, die die Regressionskoeffizienten, und (epsilon_{i}) ist der Restfehler (siehe Abbildung 31.5) [9]. Im Konzept ist eine solche Studie äußerst einfach. In der Praxis gibt es Hunderte von möglichen Störfaktoren und statistischen Unsicherheiten, die bei jedem Schritt des Prozesses berücksichtigt werden müssen. Es kann jedoch dasselbe Regressionsmodell verwendet werden, um diese Kovariaten zu berücksichtigen.

Abbildung 31.9 enthält eine beispielhafte eQTL-Studie, die zu Asthma durchgeführt wurde. Das zentrale Ergebnis der Studie ist das lineare Modell oben rechts: Wir sehen, dass der Genotyp mehr in Richtung der „A“-Variante tendiert, die Expression des Zielgens abnimmt.

Überlegungen zu Ausdrucksdaten

Die Quantifizierung der Expression von Genen ist mit experimentellen Herausforderungen verbunden. Eine ausführlichere Erörterung dieser Fragen finden Sie in Kapitel 14. Eine wichtige Überlegung für diese Art der Ausdrucksanalyse ist die SNP- Under-Probe-Effektt: Sondensequenzen, die Regionen mit gemeinsamen Varianten kartieren, liefern aufgrund des Einflusses der Variation innerhalb der Sonde selbst auf die Bindungsdynamik inkonsistente Ergebnisse. Somit liefern Experimente, die mit mehreren Sondensätzen wiederholt werden, ein zuverlässigeres Ergebnis. Ausdrucksanalyse sollte auch generell ausschließen Housekeeping-Gene, die nicht über Mitglieder einer Population und/oder Zelltypen unterschiedlich reguliert werden, da diese die statistische Aussagekraft der Studie nur verwässern würden.

Überlegungen zu Genomdaten

Bei der Analyse von Genomdaten gibt es zwei Hauptüberlegungen: die Nebenallelhäufigkeit und den Suchradius. Die Suchradius bestimmt die Allgemeingültigkeit des betrachteten Effekts: Ein unendlicher Suchradius entspricht einem Vollgenom-cis- und trans-eQTL-Scan, während kleinere Radien die Analyse auf cis-eQTLs beschränken. Die geringe Allelfrequenz (MAF) bestimmt den Cutoff, unter dem ein SNP-Standort nicht berücksichtigt wird: Er ist ein wichtiger Faktor für die statistische Aussagekraft der Studie. Ein höherer MAF-Cutoff führt im Allgemeinen zu einer höheren statistischen Aussagekraft, aber MAF und Suchradius interagieren auf nichtlineare Weise, um die Anzahl der nachgewiesenen signifikanten Allele zu bestimmen (siehe Abbildung 31.6).

Kovariatenanpassung

Es gibt viele mögliche statistische Störfaktoren in einer eQTL-Studie, sowohl biologische als auch technische. Viele biologische Faktoren können die beobachtete Expression einer beliebigen gegebenen mRNA in einem Individuum beeinflussen; dies wird durch die Unmöglichkeit verschärft, die Testumstände der großen Populationsstichproben zu kontrollieren, die erforderlich sind, um eine Signifikanz zu erreichen. Bevölkerungsstratifizierung und genomische Unterschiede zwischen Rassengruppen sind zusätzliche Faktoren. Auch auf technischer Seite gibt es statistische Variabilität. Sogar Proben, die zu unterschiedlichen Zeiten auf demselben Computer ausgeführt werden, zeigen eine deutlich unterschiedliche Clusterbildung der Ausdrucksergebnisse. (Abbildung 31.7).

Forscher haben erfolgreich die Technik von Hauptkomponentenanalyse (PCA), um die Auswirkungen dieser Störfaktoren zu trennen. PCA kann neue Koordinatenachsen erzeugen, entlang derer SNP-assoziierte Genexpressionsdaten die höchste Varianz aufweisen, wodurch unerwünschte Quellen konsistenter Variation isoliert werden (siehe Kapitel 20.4 für eine detaillierte Beschreibung der Hauptkomponentenanalyse). Nachdem wir die Hauptkomponenten der Genexpressionsdaten extrahiert haben, können wir das lineare Regressionsmodell erweitern, um diese Störfaktoren zu berücksichtigen und eine genauere Regression zu erstellen.

FAQ

F: Warum ist PCA ein geeignetes statistisches Werkzeug für diese Umgebung und warum brauchen wir es?

A: Leider weisen unsere Rohdaten mehrere Verzerrungen und externe Faktoren auf, die es schwierig machen, auf gute eQTLs zu schließen. Wir können uns diese Verzerrungen jedoch als unabhängige Einflüsse auf die Datensätze vorstellen, die eine künstliche Varianz in den von uns beobachteten Expressionsniveaus erzeugen und die Faktoren verwirren, die zu der tatsächlichen Varianz führen. Mit PCA können wir diese Varianzen in ihre Hauptkomponenten zerlegen, identifizieren und entsprechend herausfiltern. Aufgrund der komplexen Natur der analysierten Merkmale kann PCA auch dazu beitragen, die Dimensionalität der Daten zu reduzieren und dadurch die rechnerische Analyse zu erleichtern.

FAQ

F: Wie entscheiden wir, wie viele Hauptkomponenten verwendet werden sollen?

A: Dies ist ein schwieriges Problem; Eine mögliche Lösung wäre, eine andere Anzahl von Hauptkomponenten auszuprobieren und die anschließend gefundenen eQTLs zu untersuchen – genau diese Zahl für zukünftige Tests, um zu sehen, ob die ausgegebenen eQTLs lebensfähig sind. Beachten Sie, dass es schwierig wäre, verschiedene Parameter für die eQTL-Studie zu „optimieren“, da jeder Datensatz eine optimale Anzahl von Hauptkomponenten, einen besten Wert für MAF usw.

Punkte, die man beachten sollte

Im Folgenden sind einige Punkte aufgeführt, die bei der Durchführung einer eQTL-Studie zu berücksichtigen sind.

  • Die optimale Strategie für die eQTL-Entdeckung in einem bestimmten Datensatz aus allen verschiedenen Möglichkeiten zur Durchführung von Normalisierungsverfahren, unspezifischer Genfilterung, Suchradiusauswahl und kleineren Allelfrequenz-Cutoffs ist möglicherweise nicht auf eine andere eQTL-Studie übertragbar. Viele Wissenschaftler überwinden dies, indem sie diese Parameter gierig abstimmen und die eQTL-Studie iterativ durchführen, bis eine maximale Anzahl signifikanter eQTLs gefunden wurde.
  • Es ist wichtig zu beachten, dass eQTL-Studien nur eine Korrelation zwischen genetischen Markern und Genexpressionsmustern finden und keine Kausalität implizieren.
  • Beachten Sie bei der Durchführung einer eQTL-Studie, dass die wichtigsten eQTLs innerhalb weniger kb des regulierten Gens gefunden werden.
  • Historisch wurde festgestellt, dass die meisten eQTL-Studien zu etwa 30-40% reproduzierbar sind, und dies ist ein Relikt der Struktur des Datensatzes und der unterschiedlichen Normalisierungs- und Filterstrategien, die die jeweiligen Forscher verwenden. eQTLs, die in zwei oder mehr Kohorten gefunden werden, folgen jedoch durchweg einem ähnlichen Expressionseinfluss innerhalb jeder der Kohorten.
  • Viele eQTLs sind gewebespezifisch; das heißt, ihr Einfluss auf die Genexpression könnte in einem Gewebe auftreten, in einem anderen jedoch nicht, und eine mögliche Erklärung hierfür ist die Co-Regulierung eines einzelnen Gens durch mehrere eQTLs, die von einem Gen mit mehreren Allelen abhängig ist.

Einfluss von Beimischung und Abstammung auf die eQTL-Analyse und die GWAS-Kolokalisierung in GTEx

Hintergrund: Die Bevölkerungsstruktur unter den Studienteilnehmern kann genetische Assoziationsstudien durcheinanderbringen, und das Fehlen einer angemessenen Korrektur kann zu falschen Ergebnissen führen. Das Projekt Genotype-Tissue Expression (GTEx) umfasst größtenteils Personen europäischer Abstammung, aber die Version v8 umfasst auch bis zu 15 % Personen nicht-europäischer Abstammung. Die Bewertung von auf Abstammung basierenden Anpassungen in GTEx verbessert die Übertragbarkeit dieser Forschung über Populationen hinweg und charakterisiert weiter den Einfluss der Populationsstruktur auf die GWAS-Kolokalisation.

Ergebnisse: Hier identifizieren wir eine Untergruppe von 117 Individuen in GTEx (v8) mit einem hohen Grad an Bevölkerungsvermischung und schätzen die genomweite lokale Abstammung. Wir führen eine genomweite cis-eQTL-Kartierung mit gemischten Proben in sieben Geweben durch, die entweder nach globaler oder lokaler Abstammung angepasst werden. In Übereinstimmung mit früheren Arbeiten beobachten wir eine verbesserte Leistung bei der Anpassung der lokalen Abstammung. An Loci, an denen die beiden Anpassungen unterschiedliche Ableitungsvarianten erzeugen, beobachten wir 31 Loci (0,02%), an denen eine signifikante Kolokalisation nur mit einer eQTL-Abstammungsanpassungsmethode aufgerufen wird. Bemerkenswerterweise erzeugen beide Anpassungen eine ähnliche Anzahl signifikanter Kolokalisationen innerhalb jeder der zwei verschiedenen Kolokalisationsmethoden, COLOC und FINEMAP. Schließlich identifizieren wir eine kleine Untergruppe von eQTL-assoziierten Varianten, die stark mit der lokalen Abstammung korrelieren, was eine Ressource zur Verbesserung der funktionellen Nachsorge darstellt.

Schlussfolgerungen: Wir bieten eine lokale Abstammungskarte für gemischte Individuen in der GTEx v8-Version und beschreiben den Einfluss von Abstammung und Mischung auf Genexpression, eQTLs und GWAS-Kolokalisation. Während die meisten Ergebnisse zwischen lokalen und globalen Anpassungen auf der Grundlage der Abstammung übereinstimmen, identifizieren wir unterschiedliche Vor- und Nachteile jedes Ansatzes.

Schlüsselwörter: Beimischung Kolokalisation GTEx Genexpression Lokale Abstammung Populationsstruktur eQTL.


Integrative eQTL-basierte Analysen enthüllen die Biologie der Brustkrebsrisikoorte

Keimbahndeterminanten der Genexpression in Tumoren werden aufgrund der Komplexität der Transkriptregulation, die durch somatisch erworbene Veränderungen verursacht wird, selten untersucht. Wir führten Expressions-Quantitative-Trait-Locus-(eQTL)-basierte Analysen unter Verwendung der mehrstufigen Informationen aus, die in The Cancer Genome Atlas (TCGA) bereitgestellt wurden. Von den von uns gemessenen Faktoren machten cis-wirkende eQTLs 1,2 % der gesamten Variation der Tumorgenexpression aus, während somatische Kopienzahländerungen und CpG-Methylierung 7,3 % bzw. 3,3 % ausmachten. eQTL-Analysen von 15 zuvor berichteten Brustkrebs-Risiko-Loci führten zur Entdeckung von drei Varianten, die signifikant mit Transkriptspiegeln assoziiert sind (False Discovery Rate [FDR] < 0,1). Unsere trans-basierte Analyse identifizierte drei zusätzliche Risiko-Loci, die über ESR1, MYC und KLF4 wirken. Diese Ergebnisse liefern ein umfassenderes Bild der Genexpressionsdeterminanten bei Brustkrebs sowie Einblicke in die zugrunde liegende Biologie der Brustkrebsrisikoorte.

Copyright © 2013 Elsevier Inc. Alle Rechte vorbehalten.

Figuren

Auswirkungen von drei Determinanten auf…

Auswirkungen von drei Determinanten auf die Genexpression bei ER-positivem Brustkrebs: cis -Schauspielkunst…

Schema der Hypothese, dass…

Schema der Hypothese, dass Risikoallele sind cis -eQTLs von Transkriptionsfaktoren.…

Allelisches Ungleichgewicht (AI) der…

Allelisches Ungleichgewicht (AI) der ESR1 , MEIN C , und KLF4 Transkriptionsfaktoren…

Die Erfassung der Chromosomenkonformation (3C) zeigt…

Chromosomenkonformationserfassung (3C) zeigt physikalische Wechselwirkungen zwischen dem 6q25-Risikolocus und…


Ergebnisse

GTEx beinhaltet afrikanische und asiatische Bevölkerungsbeimischungen

Die Veröffentlichung von GTEx v8 enthält Daten zur vollständigen Genomsequenzierung und Genexpression von 838 Personen, darunter 103 Afroamerikaner und 12 asiatische Amerikaner (selbstberichtete Abstammung). Genomweite genotypbasierte Hauptkomponenten (gPCs) spiegeln GA wider und wurden sowohl in GWAS- [6, 9, 13] als auch in eQTL-Studien [7] zur Anpassung an die Populationsstruktur verwendet. Um den Grad der Populationsbeimischung in GTEx zu verstehen, verglichen wir daher die ersten beiden gPCs mit selbstberichteten Vorfahren (Abb. 1a). Abbildung 1a zeigt, dass gPC1 und gPC2 afrikanische und asiatische Vorfahren widerspiegeln, bzw. die Mehrheit der europäischen Amerikaner (698 von 715 Individuen) in der Nähe des Ursprungs gruppieren, was darauf hindeutet, dass die Proben in diesem Cluster relativ homogen europäischer Abstammung sind. Diese Muster werden mit feinerer Auflösung beobachtet, wenn Genotyp-PCA mit kombinierten GTEx- und 1000-Genom-Daten durchgeführt wird [19] (Zusätzliche Datei 1, Abbildung S1). Eine Untergruppe von 117 Individuen mit mehr als 10 % Populationsbeimischung, die als 117AX bezeichnet wird, wurde für nachgelagerte Analysen zurückbehalten (Abb. 1a Zusatzdatei 2, Tabelle S1).

Bevölkerungsbeimischung in der GTEx v8-Kohorte. ein Die Hauptkomponenten des Genotyps (gPCs) spiegeln die globale Abstammung wider. Die Punkte sind durch die selbst gemeldete Abstammung gefärbt. Eingekreiste Punkte zeigen die 117 Individuen an, die als gemischt definiert sind (117AX). B Eine Teilmenge von GTEx v8-Geweben hat eine 117AX-Probengröße von mindestens 30. Die sieben ausgewählten Gewebe für cis-eQTL-Mapping in 117AX sind farbig und fett dargestellt. C LA-Trakte kollabieren aufeinanderfolgende Varianten auf einem einzelnen Elternchromosom mit derselben Abstammungszuordnung in zusammenhängende Haplotypblöcke. Die feine räumliche Auflösung der lokalen Vorfahren steht im Gegensatz zu den in der Legende angegebenen Anteilen der globalen Vorfahren. Haplotypen (Spalten) werden von Individuen gepaart, Reihen sind autosomale Chromosomen. Die Personen werden von links nach rechts nach abnehmenden Anteilen der europäischen Beimischung sortiert. D gPCs korrelieren stark mit den Anteilen globaler Vorfahren, die aus genomweiten lokalen Vorfahren gemittelt werden. e Lokale (oder globale) Abstammung erklärt einen Bruchteil der Varianz in der restlichen Genexpression nach Korrektur für globale (oder lokale) Abstammung. Lokale Abstammung ist definiert als die lokale Abstammung an der Transkriptionsstartstelle jedes Gens. Globale Abstammung sind die ersten fünf gPCs. Punkte werden durch Gewebefarben gefärbt, die mit übereinstimmen B. Subc., subkutane NSE, nicht sonnenexponierte VE, Varianz erklärt LA, lokale Abstammung GA, globale Abstammung

Die 49 Gewebe, die für die QTL-Erkennung in der GTEx v8-Version verwendet wurden, weisen eine unterschiedliche Darstellung von 117AX auf. 27 dieser Gewebe haben eine Probengröße von mindestens 30 gemischten Individuen (Abb. 1b). Die Probengrößen für alle 49 Gewebe sind in Abbildung S2 (Zusätzliche Datei 1) angegeben. Die Hypophyse und 13 Gewebe des Zentralnervensystems weisen die niedrigste Repräsentation von 117AX im Verhältnis zur Gesamtprobengröße pro Gewebe auf (Mittelwert 7 %). Wir haben sieben Gewebe für die Durchführung ausgewählt cis-eQTL-Calling basierend auf einer minimalen gemischten Stichprobengröße von 60 [20] und Relevanz für Phänotypen mit bekannten Populationsunterschieden (z. B. subkutane Fett- und Körperfettverteilung [21, 22]), n = 84 nicht sonnenexponierte (NSE) Haut und epidermale Genexpression [23], n = 71 Lungen- und Asthma-Prävalenz [24], n = 64 Skelettmuskulatur und fettfreie Muskelmasse [25], n = 98). Vollblut (n = 95) und Schienbeinarterie (n = 89) wurden ebenfalls eingeschlossen, da sie große Stichprobengrößen von 117AX aufweisen.

Mit RFMix [26] führten wir eine LA-Schätzung mit drei Populationen (europäisch, afrikanisch und ostasiatisch) auf 117AX durch (siehe Abschnitt „Methoden“ Abb. 1c Zusätzliche Datei 1, Abbildung S3). Wir stellen diese LA-Aufrufe als Ressource für die weitere Untersuchung von GTEx-Daten zur Verfügung (Zusätzliche Datei 3, Tabelle S2). Für jedes Individuum wurde der genomweite LA gemittelt, um GA-Schätzungen zu liefern. Jede Stichprobe in 117AX hat weniger als 90% GA von einer Vorfahrenpopulation aus Europa, Afrika und Ostasien. Wir korrelierten diese GA-Anteile mit den ersten fünf gPCs, was quantitativ die starken Beziehungen zwischen gPC1 und afrikanischer Abstammung demonstriert (R = − 0,98) und gPC2 und ostasiatische Abstammung (R = 1,0 Abb. 1d).

Um die Bedeutung von LA im Kontext der Genexpression zu beurteilen, haben wir einen bestehenden Ansatz [27] angepasst, um den Anteil der Varianz zu berechnen, der in der 117AX-Genexpression durch LA erklärt wird, nachdem GA berücksichtigt wurde und umgekehrt (siehe Abschnitt „Methoden“ Abb. 1e Zusatzdatei 4, Tabelle S3). Im Durchschnitt erklärt GA über die Gene in unseren sieben interessierenden Geweben hinweg für jedes Gen eine größere Varianz in der Genexpression als LA an der Transkriptionsstartstelle (P Wert < 2.2e−16, zweiseitig T Prüfung). LA erklärt jedoch mindestens 7 % der Varianz der Restexpression für 1 % der exprimierten Gene (m = 1159). Im Extremfall erklärt LA 32 % der Varianz im Residualisierungsausdruck von Mitglied der TBC1-Domänenfamilie 3 (TBC1D3), ein hominoides spezifisches Onkogen [28], in der Lunge LA erklärt auch signifikant mehr Varianz in TBC1D3 Expression als GA in allen sieben getesteten Geweben (P Wert = 0,0018, zweiseitig T Prüfung). In einer separaten Studie zur Exemplarnummer, TBC1D3 gehörte zu den variabelsten (Median 38,13, Varianz 93,2 Kopien bei 159 Individuen) und populationsstratifizierten (Mittelwert 29,28, 34,17 bzw. 43,86 Kopien in europäischen, asiatischen bzw. Yoruban-Proben) menschlichen Genfamilien [29]. Solche biologischen Beweise für eine Restvarianz in der Genexpression, die von LA erfasst werden, unterstützen die Bedeutung der Berücksichtigung von LA im Kontext der eQTL-Kartierung.

Die Anpassung der lokalen Abstammung erhöht die Macht für die Entdeckung in cis-eQTL-Mapping

Wir führten auf cis-eQTL-Kartierung in der gemischten Population (117AX), um Assoziationen zwischen Varianten und Genexpression innerhalb jedes der sieben in Abb. 1b angegebenen Gewebe zu identifizieren (siehe Abschnitt „Methoden“ Zusätzliche Datei 5, Tabelle S4). Wir haben lineare Modelle implementiert, um eine Assoziation zwischen den einzelnen Genen zu testen.cis-Variantenpaar. Für jedes Paar wurden zwei Assoziationstests durchgeführt: der erste zur Anpassung an die globale Abstammung (GlobalAA) und der zweite zur Anpassung an die lokale Abstammung (LocalAA). Wichtig ist, dass LocalAA die Anzahl der europäischen, afrikanischen und ostasiatischen Allele für jede Variante berücksichtigt, während GlobalAA die ersten fünf Genotyp-Hauptkomponenten als Proxy für die globale Abstammung verwendet und die gleiche Abstammungsanpassung implementiert, die in der GTEx eQTL-Calling-Pipeline verwendet wird.

Ein Quantil-Quantil-Diagramm des nominalen P Werte (-log10) aller Assoziationstests in GlobalAA und LocalAA zeigen, dass LocalAA signifikanter ist P Werte (dargestellt in den höchsten Quantilen) relativ zu GlobalAA für sechs der sieben Gewebe, wobei die NSE-Haut ähnlicher war P Wertverteilungen zwischen den beiden Methoden (Abb. 2a). Dies bestätigt frühere Erkenntnisse, dass die LA-Anpassung zu signifikanteren nominalen führt P Werte als GA-Anpassung im Kontext von cis-eQTL-Mapping [10].

Vergleich von cis-eQTLs, die von LocalAA oder GlobalAA aufgerufen werden. Cis-eQTL-Mapping wurde in sieben Geweben durchgeführt. Ein Nominal P Wertschwelle von 1e−6 wurde angewendet, um signifikante Assoziationen zu identifizieren. ein Ein Q-Q-Diagramm von nominalem P Werte für alle Tests zeigen eine mäßige Verbesserung der Leistung in den meisten Geweben bei Verwendung von LocalAA. B LocalAA identifiziert mehr eGene als GlobalAA in allen sieben Geweben (P Wert = 0,0078, binomiale Wahrscheinlichkeit). C Die Mehrheit der eGene wird durch beide Methoden zur Anpassung der Abstammung identifiziert (grau + lila). Die beiden Methoden melden unterschiedliche eVariants für einen kleinen Bruchteil dieser eGene (violett). Die Zahlen geben an, dass eGene eindeutig von einer der Methoden zur Anpassung der Abstammung aufgerufen werden, die in dargestellt sind D. D Die Mehrheit der eGene, die für eine Methode zur Anpassung der Abstammung einzigartig sind, liegt nahe der Signifikanzschwelle, wie durch das Rug-Plot angezeigt. Gestrichelte Linien grenzen die Region ab, außerhalb derer eGene in einer Methode einen Nominalwert haben P Wert mindestens zwei Größenordnungen signifikanter als die alternative Methode. Punkte sind durch Gewebe gefärbt

Wir haben einen Nominalwert angewendet P Wert-Cutoff von 1e−6, um signifikante eQTLs zu identifizieren, nähert sich dieser Schwellenwert dem Schwellenwert an, der für einen eQTL erforderlich ist, um anschließend einen Cutoff für die Falscherkennungsrate von 5 % zu passieren (Zusatzdatei 1, Abbildung S4). In allen sieben Geweben werden mit LocalAA mehr eGene aufgerufen als mit GlobalAA (P Wert = 0,0078, binomiale Wahrscheinlichkeit) (Abb. 2b). Die Mehrheit der eGene überlappt zwischen den beiden Methoden, von denen eine Teilmenge verschiedene assoziierte führende eVariants zwischen LocalAA und GlobalAA hat (Abb. 2c). Diese Untergruppe von eGenen bot die Möglichkeit, Unterschiede in den wichtigsten eVariants zu charakterisieren, die zwischen den beiden Abstammungsanpassungsmethoden identifiziert wurden, und stand im Mittelpunkt der nachgelagerten Analysen.

eGene gelten als einzigartig für eine Abstammungsanpassungsmethode, wenn die Assoziation nur mit dieser Methode Signifikanz erreicht (nominal P Wert Cutoff von 1e−6 1055 Gesamtinstanzen über Gewebe für 988 einzigartige Gene). Die Mehrheit (65 %) der eGene, die für eine Methode einzigartig sind, replizieren sich bei einem P Wert innerhalb einer Größenordnung der anderen Methode (Abb. 2d). Allerdings replizieren 44 dieser eGene in der anderen Methode nur bei a P Wert mehr als zwei Größenordnungen weniger signifikant (14 bzw. 30 eGene, die für LocalAA bzw. GlobalAA einzigartig sind). Zwanzig dieser 44 eGene befinden sich in der NSE-Haut, keines befindet sich in der Schienbeinarterie. Interessanterweise sind bei 29 dieser 44 eGene trotz des großen Unterschieds in der statistischen Signifikanz die Ableitungsvarianten zwischen den beiden Anpassungsmethoden identisch.

Unterschiedliche eQTL-Abstammungsanpassungen führen zu geringfügigen Unterschieden in der GWAS-Kolokalisation

Kolokalisierungsanalysen bewerten den Grad, in dem unabhängige Assoziationssignale, einschließlich eQTL- und GWAS-Signale, dieselbe kausale Variante teilen. Wir haben die Kolokalisation mit zwei verschiedenen Methoden durchgeführt: COLOC [30] und FINEMAP [31]. COLOC schätzt die posteriore Wahrscheinlichkeit, dass eine einzelne Variante beide Merkmale beeinflusst (PP4). FINEMAP schätzt die Posterior-Wahrscheinlichkeit der Single-Trait-Kausalität für alle Varianten in einer Region wie zuvor beschrieben, diese Wahrscheinlichkeiten können verwendet werden, um eine Colokalisation-Posterior-Wahrscheinlichkeit (CLPP) für zwei unabhängige Assoziationssignale abzuleiten [32] (siehe Abschnitt „Methoden“). Wichtig ist, dass FINEMAP explizit das Kopplungsungleichgewicht (LD) berücksichtigt, während COLOC dies nicht tut, was angesichts der gemischten Abstammung der eQTL-Kohorte besonders relevant ist.

Wir haben 142 GWAS ausgewählt, um die Kolokalisierung mit unseren eQTLs durchzuführen. Zuvor wurden 114 dieser GWAS verwendet, um eine Kolokalisation mit allen GTEx v8 eQTLs durchzuführen [33]. Diese GWAS wurden ursprünglich ausgewählt, um eine breite Darstellung verschiedener Merkmalsklassen und eine gewisse Replikation zwischen GWAS aus der UK Biobank (UKB) und anderen Konsortien zu umfassen. Wir haben zusätzlich 28 multiethnische GWAS aus der PAGE-Studie eingeschlossen, um die Repräsentanz gemischter Kohorten in unseren Kolokalisationsanalysen zu erhöhen [34]. Weitere Informationen zu jedem GWAS finden Sie in Tabelle S5 (Zusätzliche Datei 6).

Wir führten eine Kolokalisation zwischen unseren vierzehn Sätzen von eQTL-Zusammenfassungsstatistiken (eine Anpassungsmethode pro Abstammung pro sieben Gewebe) und 142 GWAS durch. Hier definieren wir einen Locus als ein Gen- und GWAS-Merkmalspaar in einem bestimmten Gewebe. Für einen einzelnen Locus werden mit jeder Kolokalisierungsmethode zwei Kolokalisierungstests durchgeführt: ein Test zwischen dem GWAS und jedem Satz von eQTL-Zusammenfassungsstatistiken (LocalAA oder GlobalAA). Daher gibt es bis zu vier Kolokalisations-Scores (COLOC PP4 oder FINEMAP CLPP) für einen einzelnen Locus. Für Kolokalisationsanalysen mit COLOC haben wir die getesteten Loci auf die Untergruppe der eGene mit unterschiedlichen leitenden eVariants zwischen LocalAA und GlobalAA bei einem gelockerten Nominal beschränkt P Wertschwelle (Abb. 3a). Anschließend führten wir Kolokalisationsanalysen mit FINEMAP für die Teilmenge der Loci mit mindestens einer COLOC-Kolokalisation durch (Abb. 3b). Wir definieren Beweise für eine Kolokalisation an einem Locus als PP4 > 0,5 oder CLPP > 0,01 für COLOC bzw. FINEMAP.

Einfluss von eQTL-Ahnenanpassungsmethoden auf die Kolokalisation mit GWAS. ein, B Wir führten eine Kolokalisierung für eine Teilmenge von Loci durch, bei der LocalAA und GlobalAA eQTLs mit unterschiedlichen Lead-eVariants (nominal P Wertschwelle von 1e−4). Jeder Punkt repräsentiert einen GWAS/eQTL-Kolokalisationstest in der Nähe eines einzelnen eGens (eingefärbt durch eQTL-Gewebe). Die x- und ja-Achsen zeigen jeweils die Posterior-Wahrscheinlichkeiten der Kolokalisation unter Verwendung von entweder GlobalAA- oder LocalAA-eQTL-Signalen. Dieselben 31 Punkte, die in beiden Diagrammen hervorgehoben sind, entsprechen den Loci, bei denen ein an die Abstammung angepasstes eQTL-Signal kolokalisiert wurde, das andere jedoch nicht, mit übereinstimmenden Ergebnissen zwischen zwei Kolokalisierungsmethoden. ein Die Kolokalisierung wurde mit COLOC für alle Loci durchgeführt, an denen LocalAA und GlobalAA eQTLs mit unterschiedlichen Lead-eVariants (nominal P Wertschwelle von 1e−4). Eine Posterior-Wahrscheinlichkeit der Kolokalisation (PP4) von 0,5 wurde verwendet, um Kolokalisationsereignisse mit COLOC zu identifizieren. B Für die Teilmenge von Loci, für die COLOC eine Kolokalisation gemeldet hat (d. h. farbige Punkte in ein) wurde auch eine Kolokalisation mit FINEMAP durchgeführt. Kolokalisations-posterior-Wahrscheinlichkeiten (CLPPs) werden auf einer log10-Skala angezeigt. Ein CLPP-Schwellenwert von 0,01 wurde verwendet, um Kolokalisationsereignisse mit FINEMAP zu identifizieren. C Kolokalisations-posterior-Wahrscheinlichkeiten werden für die 31 in hervorgehobenen Loci bereitgestellt ein und B. Größere Werte weisen auf eine stärkere Kolokalisation hin. Die zugehörigen eQTL-Gewebe sind mit farbigen Kreisen und Häkchen unter dem x-Achse. SR, selbstberichtete DBD, vom Arzt diagnostiziert n, zählen

Während die GWAS-Kolokalisation nur an Loci getestet wurde, für die die beiden eQTL-Abstammungsanpassungsmethoden unterschiedliche Lead-eVariants ergaben, unterscheiden sich die Kolokalisationswahrscheinlichkeiten zwischen den beiden Methoden nicht systematisch (P Wert = 0,791 und P Wert = 0,324 für COLOC und FINEMAP, jeweils zweiseitig T Prüfung). Darüber hinaus haben Loci mit starken Hinweisen auf Kolokalisation (COLOC PP4 > 0,5 oder FINEMAP CLPP > 0,01) unabhängig von der Korrekturmethode ähnlich hohe Wahrscheinlichkeiten einer späteren Kolokalisation, was darauf hinweist, dass robuste Effekte durch beide Abstammungsanpassungen erfasst werden.

Von 174.388 Loci, die auf Kolokalisation getestet wurden, weisen 793 Loci (< 0,5%) mindestens eine Kolokalisation auf, die von . gemeldet wurde entweder COLOC oder FINEMAP. Nur 159 dieser Loci haben mindestens eine übereinstimmende Kolokalisation, die von . berichtet wurde beide COLOC und FINEMAP (d. h. beide Methoden melden eine Kolokalisation für LocalAA oder GlobalAA oder beides). Für eine Teilmenge von 31 Loci kolokalisierte ein an die Abstammung angepasstes eQTL-Signal, das andere jedoch nicht, mit übereinstimmenden Ergebnissen zwischen den beiden Kolokalisationsmethoden. 22 und 9 Loci zeigen eine stärkere Kolokalisation mit GlobalAA bzw. LocalAA (hervorgehobene Punkte, Abb. 3a, b Abb. 3c Zusatzdatei 1, Abbildung S5). Interessanterweise korrespondieren in primär europäischen Kohorten alle 31 Loci mit GWAS, unabhängig davon, ob die Kolokalisierung mit GlobalAA oder LocalAA stärker ist.

Sechs der Loci mit stärkeren GlobalAA-Kolokalisationen sind mit demselben eGen verbunden, AP003108.2 in der Schienbeinarterie. Die sechs kolokalisierten GWAS sind mit drei Arten von Merkmalen assoziiert: Asthma (UKB selbstberichtetes Asthma UBK diagnostiziert durch ärztliches Asthma) Anzahl roter Blutkörperchen (Astle et al. Anzahl roter Blutkörperchen Astle et al. Retikulozytenzahl) und Fettsäuren (GLGC Triglyceride MAGNETIC CH2:Doppelbindungsverhältnis in zirkulierenden Fettsäuren). Trotz dieser replizierten Kolokalisation ist weder das nicht annotierte Gen AP003108.2 noch die GlobalAA Lead eVariant, rs492751, hat Assoziationen im GWAS-Katalog berichtet [35]. Wir beobachteten ferner, dass rs492751 hochvariable Allelfrequenzen zwischen 1000 Genom-Superpopulationen aufweist (alternative Allelfrequenzen von 0,02, 0 bzw. 0,76 in europäischen, ostasiatischen bzw. afrikanischen Populationen). Dies deutet darauf hin, dass diese stärkeren Kolokalisationen mit der GlobalAA-Tibialarterie AP003108.2 Das eQTL-Signal kann tatsächlich durch falsche Assoziationen getrieben werden, die durch die lokale Abstammung verwechselt werden. Bemerkenswert ist, dass eine stärkere Kolokalisation mit einer eQTL-Abstammungsanpassung nicht gleichbedeutend ist mit einem genaueren eQTL-Signal. Verfälschte Assoziationen können zu falschen Entdeckungen führen.

Zwei Loci mit stärkeren LocalAA-Kolokalisationen korrespondieren mit MYO3A im N. tibialis. Die damit verbundenen Merkmale sind Eosinophilenzahlen und Retikulozytenzahlen mit hoher Lichtstreuung (Astle et al.). MYO3A Assoziationen mit Interleukin-6, Cortisolsekretion und BMI-angepasstem Taillenumfang wurden zuvor berichtet [35] in anderen Studien wurden Eosinophilenzahlen und Eigenschaften der roten Blutkörperchen mit Fettleibigkeit oder BMI korreliert [36, 37] und Fettleibigkeit ist mit einer Entzündungsreaktion assoziiert [38, 39]. Daher ist eine echte Kolokalisation zwischen dem N. tibialis MYO3A eQTL und Merkmale im Zusammenhang mit Eigenschaften von unreifen roten Blutkörperchen und weißen Blutkörperchen sind plausibel. Dieser Locus bietet ein Beispiel dafür, wo LocalAA GlobalAA in Bezug auf die Erfassung echter eQTL-Signale übertreffen kann. Wir erkennen jedoch an, dass die Unterschiede in den Kolokalisationswahrscheinlichkeiten kleiner sind, wenn LocalAA eine stärkere Kolokalisation aufweist als wenn GlobalAA eine stärkere Kolokalisation aufweist. Im Allgemeinen kann LocalAA falsche Assoziationen häufiger reduzieren, als echte Assoziationen entdecken, die nicht auch mit GlobalAA identifiziert werden. Insgesamt stellen wir fest, dass weder LocalAA noch GlobalAA im Kontext der Kolokalisierung signifikant besser abschneiden, unabhängig von der GWAS-Herkunft oder der Kolokalisierungsmethode.

Eine Teilmenge von GTEx v8 eVariants korreliert stark mit der lokalen Abstammung

Eine Rechtfertigung für die Durchführung von LocalAA im Gegensatz zu GlobalAA ist die einzigartige Fähigkeit, Verwechslungen durch die lokale Bevölkerungsstruktur zu vermeiden [15]. Wir haben alle signifikanten Assoziationen, die von der gesamten GTEx v8 eQTL-Call-Pipeline gemeldet wurden, auf Hinweise auf eine Verwechslung mit LA untersucht. Beachten Sie, dass diese Analyse erweitert wird, um die gesamte GTEx v8-Kohorte einzubeziehen, nicht nur die gemischte Teilkohorte, die in vorherigen Analysen beteiligt war. Für jede GTEx eVariant im Set aller signifikanten Assoziationen in 49 Geweben fanden wir die Varianz des Genotyps, erklärt durch LA (die Anzahl der afrikanischen und ostasiatischen Allele am Locus) bei allen 838 genotypisierten Individuen (siehe Abschnitt „Methoden“). . Die überwiegende Mehrheit der GTEx-eVariants korreliert nicht stark mit LA, wenn man die gesamte genotypisierte Population von 838 Individuen betrachtet (Abb. 4a).

Korrelation zwischen Genotyp und lokaler Abstammung in GTEx v8 eVariants. Für alle eVariants, die von der gesamten GTEx v8-eQTL-Calling-Pipeline gemeldet wurden, haben wir die Korrelation zwischen Genotypen und lokaler Abstammung unter Verwendung der vollständigen GTEx v8-Kohorte berechnet. ein Die Mehrheit der GTEx v8 eVariants wird nicht durch die lokale Abstammung verwechselt, wenn alle 838 genotypisierten Individuen berücksichtigt werden. B Die lokale Abstammung erklärt mehr als 70 % der Varianz der Genotypen für eine Untergruppe von GTEx v8 eVariants. nicht wie ein, B berücksichtigt nur Individuen mit übereinstimmenden Genotyp- und Genexpressionsdaten für jedes Gewebe, was die Probe widerspiegelt, die zum Aufrufen dieser signifikanten Assoziationen verwendet wurde. eQTLs mit einer posterioren Wahrscheinlichkeit einer GWAS-Kolokalisation von mindestens 0,5 (COLOC PP4 > 0,5) sind mit dem eGene- und GWAS-Merkmal gekennzeichnet

Allerdings sind die Transkriptomprobengrößen in jedem GTEx v8 eQTL-Gewebe oft geringer als die gesamte Probengröße (Mittelwert 310 Standardabweichung 171). Daher kann der Grad der Verwechslung zwischen dem Genotyp einer Variante und LA im Kontext der eQTL-Kartierung zwischen den Geweben variieren. Zu diesem Punkt zeigt Abb. 4b die Varianz des Genotyps, die durch LA für GTEx eVariants erklärt wird, wenn nur Probanden mit übereinstimmenden Genotyp- und Expressionsdaten in die Regression einbezogen werden. Im Gegensatz zu Abb. 4a hat eine eVariant so viele Datenpunkte wie Gewebe, in denen sie in einem signifikanten Zusammenhang berichtet wird. Zwanzig GTEx v8 eVariants, deren entsprechende eGene eine Kolokalisationswahrscheinlichkeit von größer als 0,5 aufweisen, wie von Barbeira et al. berichtet, sind ebenfalls annotiert [33]. Bemerkenswert ist, dass 19 eindeutige eVariants einen durch LA erklärten Varianzanteil von mehr als 0,9 aufweisen (zusätzliche Datei 7, Tabelle S6). Diese Varianten weisen große Unterschiede in den Referenzallelfrequenzen zwischen 1000 Genom-Populationen auf. Zum Beispiel hat eine solche Variante, chr1_1170732_A_G_b38, Referenzallelfrequenzen von 0,993, 0,996 und 0,124 in europäischen, ostasiatischen bzw. afrikanischen Populationen. Eine umfassende Liste der 2556 GTEx v8-signifikanten Assoziationen, bei denen LA mehr als 70 % der Varianz im eVariant-Genotyp erklärt, ist in Tabelle S7 (Zusatzdatei 8) enthalten. Wir erwarten, dass funktionale Follow-ups von eQTL/GWAS-Kolokalisationen von Querverweisen mit diesen Daten profitieren werden.


Konstruktion einer vorläufigen dreidimensionalen Struktur Simian Betaretrovirus Serotyp-2 (SRV-2) Reverse Transcriptase, isoliert aus indonesischem Cynomolgus-Affen

Simian Betaretrovirus Serotyp-2 (SRV-2) ist ein wichtiger Krankheitserreger bei asiatischen Makaken. Es ist eine potenzielle Störvariable in der biomedizinischen Forschung. SRV-2 also provides a valuable viral model compared to other retroviruses which can be used for understanding many aspects of retroviral-host interactions and immunosuppression, infection mechanism, retroviral structure, antiretroviral and vaccine development. In this study, we isolated the gene encoding reverse transcriptase enzyme (RT) of SRV-2 that infected Indonesian cynomolgus monkey (Mf ET1006) and predicted the three dimensional structure model using the iterative threading assembly refinement (I-TASSER) computational programme. This SRV-2 RT Mf ET1006 consisted of 547 amino acids at nucleotide position 3284-4925 of whole genome SRV-2. The polymerase active site located in the finger/palm subdomain characterised by three conserved catalytic aspartates (Asp90, Asp165, Asp166), and has a highly conserved YmDD motif as Tyr163, Met164, Asp165 and Asp166. We estimated that this SRV-2 RT Mf ET1006 structure has the accuracy of template modelling score (TM-score 0.90 ± 0.06) and root mean square deviation (RMSD) 4.7 ± 3.1Å, indicating that this model can be trusted and the accuracy can be seen from the appearance of protein folding in tertiary structure. The superpositionings between SRV-2 RT Mf ET1006 and Human Immunodeficiency Virus-1 (HIV-1) RT were performed to predict the structural in details and to optimise the best fits for illustrations. This SRV-2 RT Mf ET1006 structure model has the highest homology to HIV-1 RT (2B6A.pdb) with estimated accuracy at TM-score 0.911, RMSD 1.85 Å, and coverage of 0.953. This preliminary study of SRV-2 RT Mf ET1006 structure modelling is intriguing and provide some information to explore the molecular characteristic and biochemical mechanism of this enzyme.

Schlüsselwörter: 3D Structure Model Reverse Transcriptase SRV-2 Indonesian Isolates.

© Penerbit Universiti Sains Malaysia, 2020.

Figuren

PCR amplification to SRV-2 RT…

PCR amplification to SRV-2 RT gene isolated from Indonesian cynomolgus monkeys (SRV-2 RT…

Phylogenetic tree of SRV-2 RT…

Phylogenetic tree of SRV-2 RT Mf ET1006 amino acids sequences relatedness to others…

Amino acid sequences alignment and…

Amino acid sequences alignment and secondary structural motifs prediction of the SRV-2 RT…

(A) Three-dimensional structure model of…

(A) Three-dimensional structure model of the full-length SRV-2 RT Mf ET1006. The models…

Ribbon diagram of the SRV-2…

Ribbon diagram of the SRV-2 RT Mf ET1006 bound to a stick model…

Interaction of amino acids that…

Interaction of amino acids that play roles in polymerase site active of SRV-2…


Diskussion

In this article, we have tested several methods to reverse-engineer eQTL networks from synthetic expression and genotype data [5]–[7]. The merit of our approach resides in combining existing machine learning algorithms in committees. Since the predictions of the other challenge participants are not public, we cannot directly compare the precision-recall curves of our approaches to their results. However, the filtered committee we submitted to the DREAM5 competition achieved higher AUPR than any other competing method in the challenge. After the release of the DREAM5 gold standard networks, we continued working in this direction by testing other committees using the DREAM5 framework and identified methods that achieve much higher AUPR than the DREAM best performer at the cost of only slightly lower AUROC values.

When the amount of training data is limited (as is the case in eQTL mapping), many models can explain the data equally well. In machine learning this is well known as the “small n, groß P problem”: the number of samples is small compared to the number of parameters and thus, the system is underdetermined [27]. A model using all available parameters is likely to overfit the data, leading to a large variance in the predictions sensitive to small variations of the training data. On the other hand, using too few parameters will lead to high bias. Ensemble methods are widely used in machine learning, because they enable the simultaneous reduction of variance and bias, even when the size of the training data is small [27], [28]. In fact, the Random Forests method is itself a committee. Random Forests learns an ensemble of decision trees by varying the learning data, yielding stable models (low variance) with a minimized bias [11]. Consistent with the known superior performance of ensemble methods, we have previously shown that RF outperforms other eQTL mapping methods [8]. Here, we combined RF and other modeling techniques into committees, a type of ensemble [13]. We observed that these committee methods almost always performed better than their constituent methods ( Figure 4 ).

We evaluated the committees composed of all possible pairs of the four single variable selection methods (RF.sf, RF.pi, ElNet and LASSO). In order to assess if committees were beneficial, we compared their performance to the performance of their constituent methods. For each combination of method pairs, we calculated the ratio of the AUPR and AUROC of the constituent methods over the AUPR and AUROC of the committee. We used this ratio to compute the gain of AUROC (A) and AUPR (B) obtained by the committees over the constituent methods and averaged this over the 15 networks of the DREAM challenge. Error bars represent the standard deviation. This figure shows that the committees are almost always more predictive than the constituent methods.

When groups developing algorithms are also the ones validating them, the benchmark data and the assessment metrics can be biased (knowingly or not) in favor of the proposed algorithm [29]. A key aspect of the DREAM challenges is that the ‘ground truth’ data is obscured from the participants [29], resulting in a more objective assessment than most computational methods papers can provide. This makes the DREAM challenges a valuable tool for the computational biology community. Our approach had already proven its value within the context of the DREAM challenge itself (before the evaluation data was released). Here, we extended the analysis of committee methods and tested additional combinations of the learners in order to better understand the factors that explain the performance of our approach. This analysis revealed that Random Forests alone – which in itself is a committee method – performed almost as well as the combined approach that we chose for the challenge. Combining just two out of the four methods that we included in our initial committee (RF.sf+LASSO) yielded top performance. The role of LASSO may be to ameliorate the problem of linkage disequilibrium, i.e. given a linked region, LASSO identifies the marker within the region that is most likely associated with the expression of the target gene. LASSO could therefore be used for 𠆏ine mapping’ the causal locus.

The evaluation of the performance of the methods competing in the DREAM5 challenge relies on the AUROC and AUPR. The Receiver Operator Characteristic (ROC) curve shows how the fraction of correctly classified positive instances (True Positive Rate, TPR) varies with the fraction of incorrectly classified negative instances (False Positive Rate, FPR) [20], [21]. It has been argued that ROC curves are not reliable when there is a large skew in the class distribution under this condition they strongly over-estimate an algorithm’s performance [30], [31]. In the case of gene-regulatory network reconstruction or eQTL mapping, the number of negative instances greatly exceeds the number of positive instances i.e. the number of true interactions is only a small portion of the potential interaction space. This implies that large differences in the number of false positives (i.e. the number of incorrectly predicted interactions) may only slightly affect the FPR and therefore lead to small changes in the AUROC. In contrast to this, precision, which drives the AUPR, compares the number of false positives (incorrectly predicted interactions) to the number of true positives (correctly predicted interactions) and is thus more sensitive against small changes of the number of false positives when the number of true negatives (non-interacting pairs of genes) is large. Precision-recall curves are therefore considered as an alternative to ROC curves when the class distribution is skewed [21].

We showed that our approaches yield a much higher AUPR at the cost of a slightly lower AUROC than the other competing methods of the DREAM challenge. We argue here that in the case of eQTL mapping, the AUPR may better assess the performance of the competing methods, in the way that it penalizes the detection of false positive edges among the top scoring edges more heavily than the AUROC score. Indeed, in practice the prediction of a regulatory relationship is only the first step of the analysis. The predicted relationships can be used as a basis to study a biological process, or be validated in a follow-up experiment, or (more commonly) be integrated with other data to make biological inferences. Depending on the down-stream analysis, erroneous prediction of an interaction may be much more expensive than missing an interaction.

Data simulations are a well-established means to test new approaches for data analysis and compare them to state of the art methods in the field. However, the more complex the data to be analyzed, the more difficult it is to mimic these data with simulations. While the DREAM5 SYSGEN A data were designed to simulate the complex regulatory relationships between genetic loci and gene expression, there are several considerations missing from the data-generating model. Epistatic interactions between loci (non-additive effects) greatly complicate the structure of eQTL networks [32], [33]. The model underlying the DREAM5 SYSGEN A data includes multiplicative effects of the regulators on gene expression. However, true epistatic effects may also include other types of interactions, for example an XOR relationship between two loci. Additionally, in practice, methods have to be able to cope with missing data (in the genotyping as well as in the phenotyping of the RILs). Further, the ratio of strains being tested versus the number of markers is often lower than in the DREAM5 challenge, thus creating additional statistical complications [34]–[37]. Finally, by equating eQTL and gene loci (i.e. there are no intergenic regions in the simulated data), the DREAM challenge avoids the problem of finding the true causal polymorphism and relating it to the genomic feature driving the eQTL. This is arguably the most difficult part of any eQTL study and is vital for any biomedically beneficial result of the analysis. We believe that while the DREAM5 challenge is a good first step in developing methods to discover gene-regulatory networks from systems genetics data, there are some clear steps that could be taken to make the simulated data more closely mirror the characteristics of real-world data. It would be of interest to assess the performance of the kinds of methods we have described here on future community shared benchmarks that better reflect the complexity of eQTL mapping and also to integrate real data into the evaluation procedure [8].


4. DISKUSSION

We introduced a novel method—GeD—that integrates genotype, expression and progeny data, providing an analytical framework for the determination of gene regulation programs. In an eQTL association clique, vertices representing a locus' genotype are fully connected with vertices that represent progeny strains. Such a structure refers to the case that loci have the same genotype when restricted to these progeny strains. Analogously, vertices that represent genes are fully connected with vertices representing progeny strains, indicating that the corresponding progeny strains share the same gene expression patterns. As such, eQTL association cliques allow the determination of associations of loci, progeny strains and genes in a simple way. In addition, the number of progeny strains supports the linkage between loci and genes in the same association clique, which can help to detect eQTLs.

In this article we focused on the application of the eQTL association cliques to enhance eQTL discovery. However, eQTL association cliques have the potential to answer other questions as well. For example, loci that are not in linkage disequilibrium and co-occur in a highly supported clique might indicate functionally important co-segregation. Note that while loci that are in the same clique and are genomic neighbors are likely to be in linkage disequilibrium. However, the opposite case is not necessarily true. This observation should be useful in elucidating non-random properties of linkage disequilibrium. Additionally, eQTL association cliques may help the identification of loci and genes that are related in a certain phenotype. If the phenotype of progeny strains in an association clique is different from remaining progeny strains, the loci and genes in the corresponding association clique are the prime candidates that affect the phenotype in question.

Using eQTL association cliques might also help to uncover multiple locus linkage. For example, consider loci lJ und lR and gene gich, and four eQTL association cliques, where lJ0 und lR0 appear with giu in one clique, lJ0 und lR1 appear with gid in another clique, lJ1 und lR1 appear with giu in the third clique and lJ1 und lR0 appear with gid in the last clique. It is unlikely that lJ oder lR sind verbunden mit gich individually because the genotype 0/1 of lJ is associated with both up- and down-regulated expression of gich. The same rational holds for locus lR. But since the joint genotype 00 and 11 of lJ und lR is associated with up−regulation of gich's expression, and joint genotype 01 and 10 of lJ und lR is associated with down-regulation of gich's expression, the two loci can have a significant epistatic interaction effect on gich. By restricting our attention on loci in the same association clique, we can select a small set of triplets (lJ, lR, gich), which fit the above scenario, by simply counting association cliques. Testing the selected triples for epistatic effects reduces the number of statistical tests, O(|L| 2 |g|), required by an exhaustive search, where L is the locus set and g is the gene set.

In our method, we modeled underlying data using certain choices. First, discretizing expression data, a gene was considered differentially regulated if its expression level was at least one standard deviation away from its mean expression. This choice was dictated by its relative simplicity and applicability of that method to the data where differences in the expression levels are not expected to be very large. Other methods of discretizing expression data will be considered in the future improvement of the method. Next, we chose to look at maximal cliques rather than other densely, yet not completely, connected subgraphs, allowing us to avoid the introduction of additional �nsity’ parameter. Furthermore, such an approach also allowed us to easily generate such clique-structures utilizing the efficient bipartite clique enumeration method (Farach-Colton and Huang, 2008). While bipartite cliques can potentially be replaced with bi-clusters, the best heuristic for the identification of such overlapping bi-clusters remains to be found. We conclude that our choices might potentially influence our ability to detect potential eQTLs. However, we made our choices as simple as possible and highlight the usability of our novel method.

We applied GeD to progeny data of P.falciparum and found that eQTL association cliques have very different structures and distributions compared to random association cliques. Using eQTL association cliques to select a small set of locus–gene pairs, we corroborated previously identified eQTLs, and significantly increased their number, including new eQTL hotspots. Preliminary analysis of the possible functional relevance of these new eQTL hotspots showed that some harbor important antigen genes while others include target genes involved in drug and parasite-host interactions. Compared to previous results, we conclude that GeD bolsters traditional eQTL analysis methods and provides new opportunities for the discovery of critical biological functions in P.falciparum. Approximately 25% of eQTLs in the two eQTL sets identified by GeD and Gonzales et al. (Gonzales et al., 2008) overlap, a difference that can be caused by several factors. First, Gonzales et al. applied an interval mapping method based on a complex Bayesian model for QTL detection (Sen and Churchill, 2001). Assuming each marker is the potential eQTL location, we in turn applied a two-sided T-test to determine linkage between markers and gene expression. To a certain extent, GeD may lose some information and consequently detection sensitivity due to the discretization of gene expression values and focus on relatively large eQTL association cliques. In contrast, the GWAS used by Gonzales et al. is likely to miss more subtle associations detected by our method because only the most significant eQTLs can pass multiple testing correction performed for all possible locus–gene pairs.

Our current implementation of GeD is designed for the analysis of the large data set of P.falciparum. However, the number of eQTL association cliques can increase exponentially with the number of loci and genes in the worst case. Therefore, the scalability of GeD to larger eQTL data sets containing thousands or even millions of loci remains to be tested. Specifically, in human studies where we have to deal with huge amount of expression and genomic data we expect strongly increasing computational costs, prompting the development of further heuristics and improved computational techniques that will allow us to tackle more challenging GWAS problems.


Brain Transcriptome

Ashutosh K. Pandey , Robert W. Williams , in International Review of Neurobiology , 2014

8 RNA-seq for Allele-Specific Expression

A remarkable feature of RNA-seq is its ability to assay genomewide ASE using isogenic F1 hybrids ( Bell et al., 2013 Korir & Seoighe, 2014 McManus et al., 2010 Rozowsky et al., 2011 Skelly et al., 2011 ) made by crossing inbred parents. RNA-seq can reliably distinguish mRNA representing the alternative alleles and can be used to detect unequal production of alleles. An advantage of using F1 animal for ASE analysis is that the two alleles in these animals share all environmental and trans-acting influences. As a result, any genetic expression differences in heterozygotes must be attributed to the local allele-specific endogenous effect.

8.1 Key factors in design of genomewide ASE

A key factor to consider for measuring cis-eQTLs on a genomic scale is the presence of appropriate coding variants—usually SNPs—to assay allelic imbalance. Another factor is the sequencing depth needed to detect differences with good statistical power. Fontanillas and colleagues showed that the read depth required to detect an allelic imbalance depends on the size of difference in the allelic expression ( Fontanillas et al., 2010 ). They determined that 50 reads per SNP is enough to provide 60% statistical power for larger than twofold differences in expression. Small allelic expression differences of less than 1.25 fold will require more than 500 reads to reach the same power.

ASE can be used to identify imprinted genes by comparing ratios of expression in reciprocal F1 crosses. The reciprocal F1 females are genetically identical but the polarity of parents differ (e.g., B mother to D father, or D mother to B father). An initial RNA-seq study of this type reported an implausibly high number of imprinted genes in the CNS ( Griffith et al., 2010 ). Correct modeling of biological and technical variation brought this estimate down to less than 100 genes ( DeVeale, van der Kooy, & Babak, 2012 ). Several other factors can contribute to error in estimating ASE. Allelic bias in read mapping to a single reference genome has already been discussed. Other mapping artifacts can also produce false positives include using nonunique reads (reads that can be mapped to multiple locations) and reads that map to low-complexity genomic regions. PCR amplification bias during library preparation can also cause false-positive allelic imbalances.

8.2 Advantages and disadvantages of ASE

An advantage of using ASE-based approach to identify cis-eQTLs on a genomic scale is that it requires relatively few samples. Additionally, it does not depend on arbitrary window cut-off as used in eQTL mapping. A disadvantage of ASE analysis over eQTL mapping is its complete inability to locate trans-eQTLs. Babak and colleagues compared array-based eQTL mapping with RNA-seq ASE to detect cis-eQTLs ( Babak et al., 2010 ). They found an extensive agreement between cis-eQTL results. For genes showing discrepancies between methods, RNA-seq more frequently matched subsequent validation using conventional qRT-PCR protocols.


Informationen zum Autor

Mitgliedschaften

Center for Data Sciences, Brigham and Women’s Hospital, Boston, MA, 02115, USA

Emma E. Davenport, Tiffany Amariuta, Maria Gutierrez-Arcelus, Kamil Slowikowski, Harm-Jan Westra, Yang Luo & Soumya Raychaudhuri

Divisions of Genetics and Rheumatology, Department of Medicine, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA, 02115, USA

Emma E. Davenport, Tiffany Amariuta, Maria Gutierrez-Arcelus, Kamil Slowikowski, Harm-Jan Westra, Yang Luo & Soumya Raychaudhuri

Partners Center for Personalized Genetic Medicine, Boston, MA, 02115, USA

Emma E. Davenport, Tiffany Amariuta, Maria Gutierrez-Arcelus, Kamil Slowikowski, Harm-Jan Westra, Yang Luo & Soumya Raychaudhuri

Program in Medical and Population Genetics, Broad Institute of MIT and Harvard, Cambridge, MA, 02142, USA

Emma E. Davenport, Tiffany Amariuta, Maria Gutierrez-Arcelus, Kamil Slowikowski, Harm-Jan Westra, Yang Luo & Soumya Raychaudhuri

Department of Biomedical Informatics, Harvard Medical School, Boston, MA, 02115, USA

Tiffany Amariuta, Kamil Slowikowski & Soumya Raychaudhuri

Department of Cell Biology, Harvard Medical School, Boston, MA, 02115, USA

Division of Rheumatology, Allergy, Immunology, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA, 02115, USA

Pfizer Inc., Cambridge, MA, 02139, USA

Ying Zhang, David von Schack, Jean S. Beebe, Nan Bing, Michael S. Vincent & Baohong Zhang

Pfizer New Haven Clinical Research Unit, New Haven, CT, 06511, USA

Biogen, Cambridge, MA, 02142, USA

Faculty of Medical and Human Sciences, University of Manchester, M13 9PL, Manchester, UK

Harvard New Research Building, 77 Avenue Louis Pasteur, Suite 250D, Boston, MA, 02446, USA

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Sie können auch in PubMed Google Scholar nach diesem Autor suchen

Beiträge

The project was conceived and designed by EED, MSV, BZ, and SR. Statistical analysis was conducted by EED, TA, MG-A, KS, H-JW, YL, and CS. Molecular data was obtained, organized and analyzed by YZ, SP, DvS, JSB, NB, MSV, BZ, and DAR. The initial manuscript was written by EED and SR. All authors edited and approved the manuscript.

Corresponding author


Molecular analysis of population structure and antibiotic resistance of Klebsiella isolates from a three-year surveillance program in Florence hospitals, Italy

We report the results of a three-year surveillance program of Klebsiella spp. in six hospitals in Florence (Italy). A total of 172 Klebsiella isolates were identified and typed by AFLP: 122 were K. pneumoniae and 50 were K. oxytoca. Most K. pneumoniae (80%) and K. oxytoca (93%) showed unrelated AFLP profiles. Beside this heterogeneous population structure, we found five small epidemic clonal groups of K. pneumoniae. Four of these groups were involved in outbreak events, three of which occurred in neonatal ICUs. The fifth clonal group spread in three different wards of two hospitals. Only one non-epidemic clonal group of K. oxytoca was detected. The frequencies of isolates with multiple antibiotic resistances increased with time at the end of the study period, most K. pneumoniae were resistant to all the antibiotics tested. A PCR analysis of seven ertapenem resistant isolates was unable to detect any of the major genes known to underlie carbapenem resistance in K. pneumoniae.


Schau das Video: Der Bau des Federkleides (November 2022).