Information

Sind die Promotoren der menschlichen Gene alle bekannt?

Sind die Promotoren der menschlichen Gene alle bekannt?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Es scheint eine grundlegende Frage zu sein, aber ich konnte keine sichere Antwort finden.

Das menschliche Genom ist seit mehr als einem Jahrzehnt bekannt und wird von mehreren Datenanbietern wie dem NCBI usw. bereitgestellt. Für die Promotoren der Gene scheint es jedoch viel weniger Informationen zu geben. Es sind einige Merkmale bekannt (wie die TATA-Box, die in ~25% der menschlichen Gene vorkommt), einige Vorhersagemethoden (wie das Auftreten von CpG-Sites), einige grobe Schätzungen für den Ort (100-1000kbp lang, in den angrenzenden 2kbp stromaufwärts von das TSS), aber ich konnte keinen Datensatz mit einer geschlossenen Liste der Promotoren menschlicher Gene finden.

Gibt es das wirklich noch?


Nö. Das menschliche Genom ist noch ziemlich unerforscht, neue Gene werden noch entdeckt und die Annotation von nicht-proteinkodierenden Regionen (einschließlich Promotoren) ist noch lange nicht abgeschlossen. Schauen Sie sich zum Beispiel den Statistikvergleich des aktuellen und des vorherigen Human GENCODE Release an, der zeigt deutlich, dass die Annotation des menschlichen Genoms immer noch ein fortlaufender Prozess ist.


Abstrakt

Die Bewertung des Beitrags von Promotoren und kodierenden Sequenzen zur Genevolution ist ein wichtiger Schritt zur Entdeckung der wichtigsten genetischen Determinanten der menschlichen Evolution. Viele konkrete Beispiele haben die evolutionäre Bedeutung von cis-Regulierungsregionen. Der relative Beitrag von regulatorischen und kodierenden Regionen zum Evolutionsprozess und ob systemische Faktoren ihre Evolution unterschiedlich beeinflussen, bleibt jedoch unklar. Um diese Fragen zu beantworten, führten wir eine Analyse auf Genomskala durch, um Signaturen einer positiven Selektion in humanen proximalen Promotoren zu identifizieren. Als nächstes untersuchten wir, ob Gene mit positiv selektierten Promotoren (Abschlussball + Gene) zeigen systemische Unterschiede in Bezug auf eine Reihe von Genen mit positiv selektierten proteinkodierenden Regionen (Kabeljau + Gene). Wir fanden heraus, dass sich die Anzahl der Gene in jedem Set nicht signifikant unterschied (8,1% bzw. 8,5%). Darüber hinaus zeigte eine Funktionsanalyse, dass in beiden Fällen die positive Selektion fast alle biologischen Prozesse beeinflusst und nur wenige Gene jeder Gruppe in angereicherten Kategorien lokalisiert sind, was darauf hindeutet, dass Promotoren und kodierende Regionen in Bezug auf die Genfunktion evolutionär nicht spezialisiert sind. Andererseits zeigen wir, dass die Topologie des menschlichen Proteinnetzwerks einen unterschiedlichen Einfluss auf die molekulare Evolution von proximalen Promotoren und kodierenden Regionen hat. Vor allem, Abschlussball + Gene haben eine unerwartet hohe Zentralität im Vergleich zu einer Referenzverteilung (P =𠂠.008, für Eigenwertzentralität). Außerdem ist die Häufigkeit von Abschlussball + Gene nimmt von der Peripherie zum Zentrum des Proteinnetzwerks zu (P =𠂠.02, für den logistischen Regressionskoeffizienten). Dies bedeutet, dass die Genzentralität die Evolution der proximalen Promotoren im Gegensatz zu den kodierenden Regionen nicht einschränkt, und weist ferner darauf hin, dass die Evolution der proximalen Promotoren im Zentrum des Proteinnetzwerks effizienter ist als in der Peripherie. Diese Ergebnisse zeigen, dass proximale Promotoren einen systemischen Beitrag zur menschlichen Evolution geleistet haben, indem sie die Beteiligung zentraler Gene am Evolutionsprozess erhöht haben.


Originaler Forschungsartikel

Hong Lou 1† , Hongchuan Li 2† , Kevin J. Ho 3 , Lukas L. Cai 3 , Andy S. Huang 3 , Tyler R. Schaft 4 , Michael R. Verneris 4 , Michael L. Nickerson 5 , Michael Dean 5† und Stephen K. Anderson 2,3*†
  • 1 Laboratory of Translational Genomics, Frederick National Laboratory for Cancer Research, Gaithersburg, MD, USA
  • 2 Basic Science Program, Frederick National Laboratory for Cancer Research, Frederick, MD, USA
  • 3 Krebs- und Entzündungsprogramm, Center for Cancer Research, National Cancer Institute, Frederick, MD, USA
  • 4 Abteilung für Pädiatrie, Center for Cancer and Blood Disorders, University of Colorado Denver, Denver, CO, USA
  • 5 Laboratory of Translational Genomics, Division of Cancer Epidemiology and Genetics, National Cancer Institute, Gaithersburg, MD, USA

Tet-Methylcytosin-Dioxygenase 2 (TET2) ist ein Tumorsuppressorgen, das bei einer Vielzahl von hämatologischen Krebsarten inaktiviert wird. Die enzymatische Aktivität von TET2 wandelt 5-Methylcytosin (5-mC) in 5-Hydroxymethylcytosin (5-hmC) um, ein wesentlicher Schritt bei der DNA-Demethylierung. Humanes TET2 wird in pluripotenten Zellen stark exprimiert und in differenzierten Zellen herunterreguliert: Die Transkriptionsregulation des humanen TET2 Gen wurde nicht im Detail untersucht. Hier definieren wir drei Promotoren innerhalb einer 2,5-kb-Region, die sich ∼ 87 kb stromaufwärts des ersten befindet TET2 Exon codieren. Die drei Promotoren, bezeichnet als Pro1, Pro2 und Pro3, erzeugen drei alternative erste Exons, und ihre Anwesenheit in TET2 mRNAs variiert je nach Zelltyp und Entwicklungsstadium. Im Allgemeinen alle drei TET2 Transkripte werden in menschlichen Geweben, die reich an hämatopoetischen Stammzellen sind, wie Milz und Knochenmark, stärker exprimiert als in anderen Geweben, wie Gehirn und Niere. Transkripte von Pro2 werden von einem breiten Gewebespektrum und auf einem signifikant höheren Niveau als Pro1- oder Pro3-Transkripte exprimiert. Pro3-Transkripte wurden von embryoiden Körpern, die aus der H9-ES-Zelllinie erzeugt wurden, stark exprimiert, und das Haupt-Pro3-Transkript ist eine alternativ gespleißte mRNA-Isoform, die ein verkürztes TET2-Protein ohne die katalytische Domäne produziert. Unsere Studie zeigt unterschiedliche gewebespezifische Mechanismen von TET2 Transkriptionsregulation in frühen pluripotenten Zuständen und in differenzierten Zelltypen.


Studien haben gezeigt, dass der Großteil der eukaryotischen Genome transkribiert wird. Transkriptomkarten werden häufig aktualisiert, aber Transkripte mit geringer Häufigkeit sind wahrscheinlich unbemerkt geblieben. Um den RNA-Abbau zu eliminieren, haben wir das exonukleolytische RNA-Exosom aus menschlichen Zellen abgereichert und die RNA dann einer Tiling-Microarray-Analyse unterzogen. Dies ergab eine Klasse von kurzen, polyadenylierten und sehr instabilen RNAs. Diese Promotorstromaufwärts-Transkripte (PROMPTs) werden ~0,5 bis 2,5 Kilobasen stromaufwärts von aktiven Transkriptionsstartstellen produziert. Die PROMPT-Transkription erfolgt sowohl in Sense- als auch in Antisense-Richtung in Bezug auf das stromabwärts gelegene Gen. Außerdem erfordert es die Anwesenheit des Genpromotors und korreliert positiv mit der Genaktivität. Wir schlagen vor, dass die PROMPT-Transkription ein gemeinsames Merkmal von RNA-Polymerase II (RNAPII) transkribierten Genen mit einem möglichen regulatorischen Potenzial ist.

Jüngste Hochdurchsatzanalysen haben ergeben, dass >90% der gesamten menschlichen DNA transkribiert werden (1). Die überwiegende Mehrheit dieser Transkripte ist nicht kodierend, was die klassische Definition dessen, was ein Gen und damit verbunden ein Promotor ausmacht, in Frage stellt (24). Darüber hinaus könnten zusätzliche kurzlebige RNAs der Detektion entgangen sein. Um solche Transkripte zu identifizieren, nutzten wir RNA-Interferenz in HeLa-Zellen, um hRrp40 zu depletieren, eine Kernkomponente des menschlichen 3′-5′-exoribonukleolytischen Exosoms, einem der wichtigsten RNA-Abbaukomplexe (Abb. S1A) (5). Dies führte zu einem schweren Verarbeitungsdefekt der bekannten ribosomalen RNA des Exosomsubstrats 5.8S (Abb. S1B), was eine verminderte Exosomenfunktion demonstriert. Oligo dT-geprimte, doppelsträngige cDNA aus Zellen, die entweder mit einer Kontrolle [Enhanced Green Fluoreszierendes Protein (eGFP)] oder hRrp40 Small Interfering RNA (siRNA) behandelt worden waren, wurde an ein Encyclopedia of DNA Elements (ENCODE) Tiling Array hybridisiert. die einen repräsentativen Anteil von ∼1% des menschlichen Genoms (1). Der Vergleich von Array-Daten mit öffentlichen Gen-Annotationen zeigte wie erwartet eine Gesamtstabilisierung der mRNAs (Exons in Fig. 1A). RNA aus intronischen und intergenen Regionen war weitgehend unbeeinflusst, mit Ausnahme einer 1,5-kb-Region unmittelbar stromaufwärts der Transkriptionsstartstellen (TSSs), die im Durchschnitt ~1,5-fach stabilisiert war ( 1A ). Die relative Stabilisierung von RNA, die von einer 500-kb-Region exprimiert wird, veranschaulicht dies: Vier der fünf Gene in dieser Region zeigen Peaks von stabilisierter RNA stromaufwärts ihrer annotierten Promotoren ( 1B ).

PROMPTs werden unmittelbar stromaufwärts von annotierten TSSs produziert und vom RNA-Exosom abgebaut. (EIN) Relative Stabilisierung von RNA aus hRrp40-Knockdown über Kontrollzellen, sortiert nach annotierten genomischen Merkmalen (http://genome.ucsc.edu/cgi-bin/hgTracks) und normalisiert auf das Gesamtsignal über die gesamte ENCODE-Region. (B). Die untere Spur zeigt hRrp40-siRNA/eGFP-siRNA-Signalpeaks (siehe unterstützendes Online-Material). (C) RT-qPCR-Analyse von 10 repräsentativen PROMPT-Regionen. HeLa-Zellen wurden mit eGFP-siRNA (Kontrolle) oder den experimentellen Proben hRrp40, hRrp6, hRrp44 oder sowohl hRrp6 als auch hRrp44, wie angegeben, behandelt. Mittelwerte mit Standardabweichungen aus mindestens drei Experimenten sind als fache Zunahme der RNA-Spiegel von experimentellen Proben gegenüber Kontrollproben gezeigt. Alle Daten wurden auf eine interne Kontrolle, Glyceraldehydphosphatdehydrogenase (GAPDH)-mRNA, normalisiert. Zur Nummerierung von PROMPTs siehe Tabelle S4.

Um diese Ergebnisse zu validieren, haben wir RNA aus Exosom-depletierten Zellen gegenüber Kontrollzellen einer Oligo-dT-geprimten reversen Transkription unterzogen, gefolgt von quantitativen Polymerase-Kettenreaktionsanalysen (RT-qPCR) einer Region stromaufwärts von 20 TSSs, die alle eine statistisch signifikante Stabilisierung bestätigten unter hRrp40-Knockdown-Bedingungen (Abb. 1C und Abb. S2A). Die Verarmung einer zusätzlichen Exosomenkomponente (hRrp46) führte zu einer ähnlichen Stabilisierung, während die Verarmung anderer Faktoren, die am RNA-Umsatz beteiligt sind (hUpf1, hXrn1, hXrn2, hDcp2, PARN), keine Wirkung hatte (Abb. S2B), was darauf hindeutet, dass Promotor-Upstream-Transkripte (PROMPTs) sind exosomspezifische Ziele. Die individuelle Abreicherung von hRrp6 oder hRrp44, den katalytisch aktiven Untereinheiten des Exosoms, führte zu keiner oder nur einer mäßigen Stabilisierung. Die Verarmung von beiden verursachte jedoch ein Stabilisierungsniveau, das mit dem vergleichbar ist, das bei einer Verarmung von hRrp40 beobachtet wurde ( 1C und S2A ), was darauf hindeutet, dass hRrp6 und hRrp44 redundant wirken, um PROMPTs abzubauen. Diese Stabilisierung von PROMPTs in Exosomen-depletierten Zellen erinnert an die von Saccharomyces cerevisiae kryptische instabile Transkripte, die wie PROMPTs auch aus nichtgenen Regionen (6).

Um das durchschnittliche RNA-Stabilisierungsprofil um alle 1594 annotierten ENCODE TSSs zu überblicken, haben wir die Array-Daten aus den hRrp40- und Kontroll-Knockdown-Experimenten sowie das Verhältnis der beiden relativ zueinander ausgerichtet (Abb. 2A, oben). Aufgrund der unterschiedlichen Stabilisierungsgrade von exonischer und intronischer RNA (Abb. 1A) haben wir nur Daten berücksichtigt, die von exonischen Sequenzen stromabwärts der TSSs abgeleitet wurden (Abb. S3). Da viele Gene mehrere TSS-Cluster (dh Promotoren) aufweisen, die Analysen verfälschen können, haben wir darüber hinaus auch Array-Daten von 64 ausgewählten Genen mit nur einem Haupt-TSS-Cluster (Gene mit geringer Komplexität) abgeglichen (Abb. 2A, unten, und Tabelle S1 ). Beide Ausrichtungen zeigten ein durchschnittliches RNA-Stabilisierungsprofil über eine 2-kb-Region stromaufwärts des TSS mit einem Peak um –1 kb ( 2A ). In Kontrollzellen sind die RNA-Spiegel nahe dem Hintergrund, wohingegen sie bei einer hRrp40-Verarmung stark erhöht sind. Die RNA-Spiegel in den hRrp40-depletierten Zellen fallen auf Hintergrundniveaus in der Nähe des TSS ab, was darauf hinweist, dass sich stabilisierte Transkripte von ihren benachbarten mRNAs unterscheiden. Somit stellen PROMPTs eine Klasse instabiler Transkripte dar, und wir bezeichnen die für PROMPT kodierende DNA als „PROMPT-Region“. Es wurde bereits über kurze RNAs berichtet, die um TSSs herum produziert wurden, insbesondere über Promoter-assoziierte kurze RNAs, die durchschnittlich 0,5 kb auf beiden Seiten des TSS waren (4). Diese sind jedoch physikalisch durch mehrere hundert Basenpaare von PROMPTs getrennt (Abb. S4). Im Gegensatz dazu zeigen einige verifizierte PROMPT-Regionen in anderen Datensätzen schwache Anzeichen einer Transkriptionsaktivität, wie z.7) und exprimierte Sequenz-Tags, die keinen bekannten genomischen Merkmalen zugeordnet sind (Abb. S5).

PROMPT-Expression kartiert auf 0,5 bis 2,5 kb (i) stromaufwärts von TSSs, (ii) kann in beiden Orientierungen auftreten und (iii) erfordert den Genpromotor. (EIN) Zusammengesetzte RNA-Profile stromaufwärts von allen 1594 (oben) oder 64 TSSs geringer Komplexität (unten). Rohdaten (Einkanal) (geglättet über ein 10-bp-Fenster) von mit hRrp40-siRNA behandelten Zellen, Kontroll-(eGFP)-siRNA-behandelten Zellen und ihr Verhältnis sind wie angegeben dargestellt. Die linke ja Achse bezeichnet Werte für Rohdaten und die rechte ja Achse bezeichnet das log2-transformierte Verhältnis der Rohdaten, skaliert auf die Mitte bei Null. Positionen in Basenpaaren von RNA-Signalen relativ zu TSSs sind auf der x Achsen. (B) Die Sense (blau)/Antisense (rot) Direktionalität ausgewählter PROMPTs wurde durch RT-qPCR mit genspezifischen Primern (∼1 kb stromaufwärts des TSS) in jeder Orientierung in Kombination mit einem T . bestimmt20VN-Primer, der an den 3'-Poly(A)-Schwanz hybridisiert. Faltenzunahmen relativ zum niedrigsten Wert in Kontrollzellen (auf 1 gesetzt) ​​werden aufgetragen. PROMPTs sind so angeordnet, dass diejenige mit der höchsten Präferenz für die Sense-Transkription ganz oben steht. (C) Erzeugung von Promotor-Upstream-Transkription in nichthumaner DNA. Plasmide, die das β-Globin-Gen unter der Kontrolle eines viralen Promotors (CMV) oder seiner ΔCMV-Kontrolle enthielten, wurden vorübergehend in HeLa-Zellen transfiziert. Beide Konstrukte weisen eine Insertion von Bakteriophagen-λ-DNA (roter Balken) stromaufwärts und eine starke SV40-Poly(A)-Stelle (schwarze Box) stromabwärts des β-Globin-Gens auf. RNA-Spiegel wurden durch RT-qPCR analysiert. Die Read-Through-Transkription vom β-Globin-Promotor wurde unter Verwendung von zwei Amplikons stromaufwärts der λ-DNA gemessen ("read through"). Das "Kontroll"-Amplikon hat keine komplementäre Sequenz im ΔCMV-Plasmid. Werte auf dem ja Achse sind Prozentsätze der GAPDH-mRNA-Spiegel. Der gestrichelte Kasten in der linearen Plasmiddarstellung (oben, nicht maßstabsgetreu) umschließt die Region, die im ΔCMV-Konstrukt deletiert ist. Mittelwerte mit Standardabweichungen (n = 3) werden angezeigt.

Als nächstes untersuchten wir, ob PROMPTs bezüglich der von den stromabwärts positionierten Genen produzierten mRNA Sense oder Antisense waren. Orientierungsspezifische RT-qPCR, die an RNA von entweder hRrp40-depletierten oder Kontrollzellen durchgeführt wurde, zeigte, dass ungeachtet der Richtungspräferenz sowohl Sense- als auch Antisense-Transkripte in PROMPT-Regionen nachweisbar waren ( 2B ). In Gegenwart von Actinomycin D, das die falsche Synthese potenzieller Zweitstrang-cDNA-Artefakte hemmt (8), wurde diese Bidirektionalität von PROMPTs noch beobachtet (Abb. S6). Darüber hinaus wurden sowohl Sense- als auch Antisense-RNAs in ähnlichem Ausmaß durch hRrp40-Verarmung stabilisiert ( 2B ), was zeigt, dass beide Spezies Exosom-Substrate sind. Beim Abgleich der Array-Daten mit den TSSs der PROMPT-Regionen, in denen entweder die Sense- oder Antisense-RNA-Produktion vorherrscht, zeigten sie Muster ähnlich dem durchschnittlichen PROMPT-Profil (Abb. S7). Zusammengenommen legen diese Daten ein komplexes Muster der RNA-Polymerase II (RNAPII)-Aktivität in jeder Orientierung stromaufwärts der einzelnen Genpromotoren nahe. Diese Beobachtung wurde durch nicht erschöpfende schnelle Amplifikation von cDNA-Enden (RACE)-Analysen von acht PROMPT-Regionen unterstützt, die oft mehrere 5'- und 3'-Enden aufdecken (Abb. S8).

Um die Anforderungen an die Transkription stromaufwärts von Promotoren zu untersuchen, transfizierten wir HeLa-Zellen vorübergehend mit einem Plasmid, das das β-Globin-Gen unter der Kontrolle des starken Cytomegalovirus-Promotors (pCMV) enthält, dem 2,2 kb Bakteriophagen-λ-DNA vorangehen (Fig. 2C). Dies führte zur Transkriptproduktion aus der λ-DNA, was zeigt, dass eine PROMPT-ähnliche Transkription unabhängig von der zugrunde liegenden DNA-Sequenz initiiert werden kann. Transkripte, die aus der λ-DNA-Region stammen, können keine Durchleseprodukte der Transkription um das Plasmid herum sein, da die β-Globin-Transkriptspiegel den Hintergrund unmittelbar stromabwärts der Transkriptionsterminationsstelle erreichen. Auch hier wurden 5′- und 3′-RACE-Analysen verwendet, um einige Start- und Endpunkte der Transkription zu kartieren, was die Beobachtung einer dynamischen und komplexen RNAPII-Aktivität in der Region untermauerte (Abb. S9). Die Deletion des CMV-Promotors führte zur gleichzeitigen Eliminierung von PROMPT und der β-Globin-Gentranskription ( 2C und 5 ). Somit scheint die Erzeugung von Transkripten stromaufwärts eines aktiven Gens vom Genpromotor abzuhängen.

Um die Transkriptionsaktivität und ihren Ursprung in PROMPT-Regionen weiter zu charakterisieren, verglichen wir die PROMPT-Muster mit der RNAPII-Belegung, der Transkriptionsfaktorbindung und Chromatinmodifikationen unter Verwendung öffentlicher Datensätze, die vom ENCODE-Projekt generiert wurden (Tabelle S2). In zwei repräsentativen Beispielen ist die PROMPT-Region von Markern der aktiven Transkription, RNAPII und acetyliertem Histon 3 (H3K9ac) bedeckt, während der Transkriptionsinitiationsfaktor TAF1 am TSS seinen Höhepunkt erreicht ( 3A ). Die Allgemeingültigkeit dieser Beobachtung wurde untersucht, indem zusammengesetzte Profile der 64 Regionen niedriger Komplexität erstellt wurden, die PROMPT- und TSS-Sequenzen umfassen. PROMPTs überlappen im Allgemeinen mit RNAPII, Markierungen von aktivem Chromatin und DNAse-überempfindlichen Stellen (9, 10), jedoch nicht mit Peaks von Transkriptionsinitiationsfaktoren, z. B. TAF1 oder E2F1 (10, 11) (Abb. 3B und Abb. S10). Obwohl dies das Konzept einer substantiellen Transkriptionsaktivität stromaufwärts von Bona-fide-Genen verstärkt, unterstützt die TSS-beschränkte Lokalisierung von Transkriptionsinitiationsfaktoren unsere Schlussfolgerung unter Verwendung von CMV/ΔCMV-Plasmiden und spricht gegen die Anwesenheit eines unabhängigen PROMPT-Promotors.

PROMPT-Regionen werden aktiv transkribiert. (EIN) Details der Transkriptniveaus aus dieser Studie im Vergleich mit zuvor veröffentlichten ChIP-Chip-Daten für PROMPT- und 5′-Regionen von zwei repräsentativen Genen. Genomische Koordinaten werden oben in Anzahl von Basenpaaren angezeigt. (B) Zusammengesetzte Profile der RNA-Stabilisierung in den PROMPT-Regionen von 64 TSSs geringer Komplexität, die wie in 2A dargestellt und mit den angegebenen Datensätzen verglichen wurden.

Ein Zusammenhang zwischen der Transkriptionsaktivität in PROMPT- und Genregionen wird außerdem durch Streudiagramme unterstützt, die eine starke positive Korrelation zwischen dem gesamten durchschnittlichen RNAPII-Chromatin-Immunpräzipitationssignal (ChIP) innerhalb der ersten 1,5 kb stromauf- und stromabwärts aller 1594 ENCODE TSSs zeigen (Abb. 4A). . Diese Beziehung ist auch aus rohen RNA-Expressionsdaten aus dem hRrp40-Depletionsexperiment ersichtlich ( 4B ). Mit Steigungen von bis zu 0,7 zeigen diese Plots, dass die Transkriptionsaktivität in der PROMPT-Region mit der am Anfang des Gens vergleichbar ist.

Gesamtkorrelation von PROMPT- und Genexpressionsniveaus. (Links) Streudiagramm der RNAPII-Verteilung, gemessen mit ChIP-Chip über alle 1594 TSSs in der ENCODE-Region (Daten entnommen von GEO, Zugangsnummer GSE6391). Daten wurden zuvor über 1,5 kb integriert (ja Achse, „PROMPT“) und nach (x Achse, „Gene Start“) jedes TSS und gegeneinander aufgetragen. Die Steigung der linearen Regression beträgt 0,68 mit a P Wert von ≤10 –300 (T Test, Produkt-Moment-Korrelation) und an R 2 Wert von 0,61 [Freiheitsgrade (df) = 1511]. (Rechts) Streudiagramm der Einkanal-RNA-Mikroarray-Signale von hRrp40-siRNA-behandelten Zellen, die wie oben erzeugt wurden, mit der Ausnahme, dass im Gen nur Daten verwendet wurden, die der exonischen DNA entsprachen, um Exon/Intron-Bias zu entfernen (Abb. S3). Statistische Werte sind Steigung = 0,45, P Wert < 10 –137 , und R 2 = 0,39 (df = 1420).

Haben PROMPTs angesichts ihrer Allgegenwart eine Funktion? Einige nicht-kodierende RNAs, von denen berichtet wurde, dass sie regulatorische Funktionen ausüben, befinden sich in potentiellen PROMPT-Regionen (12, 13). Ebenso eine nicht-kodierende RNA direkt stromaufwärts des Sphingosin-Kinase1-(SPHK1)-Gens, die den Methylierungsstatus von CpG-Dinukleotiden innerhalb ihres Promotors beeinflusst (13), wird auch in hRrp40-Knockdown-Zellen stabilisiert (Abb. S11A). Es ist daher interessant festzustellen, dass das Methylierungsniveau einiger CpG-Dinukleotide innerhalb der SPHK1-Promotorregion bei einer hRrp40-Verarmung erhöht ist (Abb. S11B). Dass PROMPTs allgemeiner die Promotormethylierung beeinflussen können, wird weiter durch die Feststellung angezeigt, dass bei Genen mit ähnlichen Expressionsniveaus die PROMPT-Spiegel im Allgemeinen um Promotoren mit einem hohen CpG-Score höher sind (Abb. S11C).

PROMPTs können überall dort auftreten, wo sich offenes Chromatin präsentiert, möglicherweise als Nebenprodukt eines noch unerforschten Aspekts des Mechanismus der Gentranskription. Die Evolution als opportunistische Kraft hat dann möglicherweise zumindest einige dieser PROMPTs als Teil von Regulierungsmechanismen übernommen (Abb. S11). Ein solches molekulares System könnte die Kontrolle der CpG-(De)Methylierung beinhalten, ein bislang wenig verstandener Prozess (14). Eine alternative, sich jedoch nicht gegenseitig ausschließende Möglichkeit besteht darin, dass die PROMPT-Transkription eine allgemeinere Funktion haben kann, indem sie Reservoirs von RNAPII-Molekülen bereitstellt, die eine schnelle Aktivierung des stromabwärts gelegenen Gens erleichtern können und/oder indem sie dazu dienen, die Chromatinstruktur zu verändern. Die Allgemeingültigkeit des PROMPT-Phänomens weist eindeutig auf eine komplexere regulatorische Chromatinstruktur um das TSS hin als zuvor angenommen.


Förderung menschlicher Promoter

Der Einfluss von Transkriptionsfaktoren auf die menschliche Genexpression kann nun dank eines neuen Computeransatzes quantifiziert werden. Die Methode wurde erfolgreich auf die Fälle des Zellzyklusprogramms und für die leberspezifische Genexpression angewendet.

Die transkriptionelle Regulation der Genexpression spielt eine wichtige Rolle beim Erwerb der Zellidentität während der Embryogenese und prägt die zelluläre Reaktion auf verschiedene Stimuli. Zu verstehen, wie Transkriptionsregulationsnetzwerke im Genom kodiert sind, stellt eine der größten Herausforderungen in der modernen Genomik dar. Die Genom-Ära öffnete die Tür zur Erforschung einer Systemkarte der Transkriptionsregulation. Eine statische Ansicht der Karte bietet das Verdrahtungsschema des Netzwerks, das durch Kombinationen von kodiert ist cis-regulatorische Sequenzen (oder Motive) innerhalb genomischer regulatorischer Regionen. Andererseits liefert die Untersuchung des Transkriptoms mit Expressions-Microarrays Schnappschüsse des Netzwerk-Outputs und enthüllt seine Dynamik. Eine bahnbrechende Studie, die systematisch eine Verbindung zwischen Sequenz und Expression herstellte ( Tavazoie et al, 1999 ) basierte auf der Vorstellung, dass auch koexprimierte Transkripte koreguliert werden sollten. Eine Suche nach gemeinsamen Motiven in Promotoren von coclustered Genen ergab gemeinsame Sequenzmotive unter ähnlich exprimierten Genen ( Tavazoie et al, 1999). Obwohl die Methode sehr effektiv ist, weist sie Mängel auf: Die Entscheidung über die Anzahl, Größe und Dichte von Clustern ist nicht einfach, da wir den Kohärenzgrad von Genen, die zu demselben Transkriptionsprogramm gehören, nicht kennen a priori. Folglich ist die Korrelation zwischen Clustern und Motiven keine Eins-zu-Eins-Beziehung ( Bussemaker et al, 2001 ) enthalten oft viele Gene in einem Cluster kein bekanntes Motiv, und nicht alle Gene, die ein Motiv enthalten, gehören zu dem Cluster, von dem es abgeleitet wurde. Außerdem konnte die Motivkombinatorik nicht leicht abgeleitet werden. Zum Beispiel können zwei Motive von einem Cluster abgeleitet werden, entweder weil sie bei der Regulierung der Gene des Clusters wirklich synergetisch wirken oder einfach weil sie alternative Regulationsprogramme bilden, die auf ein ähnliches Muster konvergieren ( Pilpel et al, 2001). Eine Möglichkeit, diese Hindernisse zu überwinden, bestand darin, den Informationsfluss umzukehren, indem man mit Kandidatenmotiven begann und ihre regulatorische Wirkung auf die Expression testete (Abbildung 1). Während es im einfachen Fall von Hefe gute Ergebnisse liefert ( Bussemaker et al, 2001 Pilpel et al, 2001 ), stellte der kompliziertere Fall von Säugetierpromotoren eine große Herausforderung dar. In einer aktuellen Studie, derzeit veröffentlicht in Molekulare Systembiologie, erzielten Michael Zhang und Mitarbeiter einen erheblichen Fortschritt bei der Analyse der Transkriptionsregulation in menschlichen Zellen ( Das et al, 2006 ).

Der Schlüssel zu der von den Autoren durchgeführten Analyse ist die kontrollierte Anwendung der Methode der multivariaten adaptiven Regressionssplines (MARS) (Friedman, 1991). MARS ist ein ausgeklügelter Algorithmus, der Daten adaptiv an statistische Modelle anpasst, die Antwortschwellen und Antwortstärken berücksichtigen. Darüber hinaus kann es von Natur aus mit komplexeren Interaktionstermen umgehen, die hier der Wirkung mehrerer regulatorischer Motive entsprechen. Dies sind eindeutig wünschenswerte Eigenschaften, wenn Expressionsdaten als Reaktion auf die Bindung an Sequenzmotive analysiert werden. Die Raffinesse hat jedoch ihren Preis: Wenn die Eingabedaten (Motiv-Scores) und die Antwortdaten (Genexpression) ausreichend groß und verrauscht sind, liefert MARS trotz interner Kontrollen oft biologisch nicht signifikante Ergebnisse. Die hier diskutierte Arbeit stellt ein Rechenprotokoll dar, das einen Schritt nach vorn bei der Bewältigung dieser gewaltigen Herausforderung darstellt, wenn es um Transkriptionsdaten von Säugetieren geht. Die Autoren beginnen mit einem Satz von 521 bekannten Motiven und erzeugen für jedes eine Bewertung, die seine Übereinstimmung mit jedem Gen basierend auf der Ähnlichkeit der Promotorsequenz mit diesem Motiv beschreibt. Als nächstes wird jedem Motiv eine Punktzahl zugewiesen, die auf seiner Fähigkeit basiert, die Expressionsdaten für sich alleine zu erklären (oder vorherzusagen) (eine "Varianzreduktion"-Punktzahl). Die Motive werden dann basierend auf dieser Punktzahl in absteigender Reihenfolge sortiert, und am interessantesten scheinen sie eine bimodale Population darzustellen, wobei mittelmäßige Motive von denen mit hoher Punktzahl durch eine erkennbare und daher nützliche Lücke getrennt sind. Die Liste der sortierten Motive wird verwendet, um Unterlisten priorisierter Motive vorzubereiten, und MARS wird auf solchen Unterlisten ausgeführt. Die endgültige Ausgabe von MARS ist ein minimaler Satz von Motiven, die einzeln, in Paaren oder in Tripletts die beste Vorhersage der zustandsspezifischen Expressionsniveaus liefern. Die identifizierten Motive sind daher gute Kandidaten für biologisch signifikante Kontrollelemente, die die Gene regulieren, die an jenen physiologischen Prozessen beteiligt sind, die aktiv waren, als der Mikroarray-Schnappschuss aufgenommen wurde.

Die Autoren demonstrierten die Nützlichkeit des Ansatzes für Fälle, in denen nur wenige Expressionsprofile verfügbar sind und daher Clustering relativ ineffektiv ist. Beginnend mit der Modellierung der in Leberzellen gemessenen Expressionsniveaus identifizierten sie beispielsweise drei einzelne Motive und fünf Motivpaare, die gute Prädiktoren für die Expression in diesem Gewebe sind, was auf eine Rolle bei der leberspezifischen Expression hindeutet. Beruhigenderweise waren die meisten der blind entdeckten Motive und Motivpaare bereits an der Bestimmung der leberspezifischen Expression beteiligt, wobei zwei Paare in diesem Zusammenhang neu waren. Sie wählten einen der wichtigsten Transkriptionsfaktoren, der mit einem der Motive assoziiert ist, nämlich HNF-1, und nutzten das optimale Modell, um HNF-1-Ziele in einem erweiterten Satz von Genen zu identifizieren. Sie fanden 38 solcher Targets, von denen 29 experimentelle Unterstützung hatten, während die anderen neun starke HNF-1-Bindungseigenschaften aufwiesen.

Auch für Zeitverlaufs-Ausdrucksprofile ist das Das et al Der Ansatz kann gegenüber dem Clustering-Ansatz beispielsweise bei der Suche nach stufenspezifischen Reglern vorteilhaft sein. Unter Verwendung von menschlichen Zellzyklusdaten mit 19 Zeitpunktprofilen, aber einer individuellen Analyse jedes Zeitpunkts, identifizierten die Autoren etwa 20 einzelne Motive und 10 Motivpaare, die an bestimmten Phasen des Prozesses beteiligt sind. Viele von ihnen waren für einige der anderen bekannt, die Autoren präsentierten experimentelle Beweise, die sie mit dem Zellzyklus in Verbindung brachten. Insbesondere lieferten sie zusätzliche unterstützende Beweise dafür, dass der bekannte Zellzyklusregulator E2F nicht überlappende Gensätze in den G1/S- und G2/M-Phasen des Zellzyklus reguliert.

Die Identifizierung von Regulierungsmotiven ist die eine Seite der Medaille, die Identifizierung funktionaler Ziele solcher Regulatoren die andere. Die Unterscheidung zwischen echten Zielen und falsch positiven Ergebnissen bleibt eine große Herausforderung, wenn die Bindungsstellen degeneriert sind, wie dies häufig bei Säugetieren der Fall ist. In der vorliegenden Studie, Das et al demonstrierten das Potenzial ihrer Methode für eine solche Unterscheidung, indem sie neue potenzielle direkte E2F-Ziele identifiziert und validiert haben, von denen zwei bekanntermaßen eine Rolle bei der Progression des hepatozellulären Karzinoms spielen.

Welche Herausforderungen stehen uns auf unserem Weg zur vollständigen Entschlüsselung der Expressionsregulation noch bevor? Zunächst können die Interaktionsterme, wie sie in MARS implementiert sind, einem „UND“-Gatter entsprechen – d. h. zwei Transkriptionsfaktoren sind gleichzeitig erforderlich, um die Transkription zu induzieren –, sind jedoch für andere Interaktionsarten (z. B. „ODER“-Gatter) weniger geeignet. , die offensichtlich häufig in Transkriptionsnetzwerken operieren. Die Autoren machen einen bedeutenden Schritt vorwärts, indem sie vorschlagen, dass die von ihnen verwendete lineare Funktion ein Proxy für die Transkriptionsinduktionsfunktion des Gens ist. Wenn jedoch in Zukunft detailliertere molekulare Prozesse betrachtet werden sollen, dürfte die systematische Zuordnung zwischen statistischen Modellen und kinetischen Modellen schwieriger werden. Und über die Transkription hinaus sind andere Phasen des Genexpressionsprozesses, die ebenfalls stark reguliert werden, viel weniger verstanden. Beispielsweise spiegeln stationäre mRNA-Spiegel ein Gleichgewicht zwischen Transkriptproduktion und -abbau wider. Während Promotoren Informationen enthalten, die zur Abstimmung der mRNA-Synthese benötigt werden, sind andere genetische Regionen, wie die 3'-untranslatierten Regionen, an der Bestimmung der Transkriptstabilität beteiligt. Zukünftige Modelle sollten Informationen aus beiden Regionen kombinieren, um die mRNA-Spiegel im Steady-State genau vorherzusagen. Darüber hinaus sollten Modelle der Genexpression auch die verschiedenen Stufen der Translationskontrolle einbeziehen. Experimentelle Technologien zur Untersuchung dieser Prozesse beginnen sich zu entwickeln (vgl. Wang et al, 2002 Arava et al, 2003 ) und neue bioinformatische Werkzeuge müssen entwickelt werden, um effizient regulatorische Prinzipien aus den neuen Daten zu extrahieren. Zu diesem Zweck werden mehr Einblicke in die Beziehung zwischen den statistischen Modellen und der zugrunde liegenden Kinetik und Thermodynamik benötigt. Bei der Analyse der Transkription sind wir, wie der vorliegende Beitrag zeigt, relativ gut aufgestellt, bei den anderen Herausforderungen stehen wir erst am Anfang.


Operatoren und Genregulation

Dieses einfache Muster zur Regulierung von Genen ist überall in der Natur zu sehen. Viele Gene, nach dem Förderregion gefolgt von einem Genoperator. Dieser Genoperator kann ein eigenes Repressorprotein besitzen, das durch einen bestimmten Prozess aktiviert und deaktiviert wird. Manchmal hat es mit physikalischen Dingen wie Temperatur oder Druck zu tun. Zu anderen Zeiten verlässt der Repressor den Operator, wenn ein chemisches Signal den Repressor erreicht. Dies ermöglicht es Organismen, unterschiedliche Gene angesichts sich ändernder Umgebungen und Bedingungen zu exprimieren.

Ein Operator kann auch aktiviert oder deaktiviert werden durch Corepressoren, oder andere Proteine ​​oder Substanzen, die an das Repressorprotein binden. Dies macht den Repressor a Konformationsänderung. Somit kann es nicht mehr an die DNA binden und die Gene werden in mRNA transkribiert und in DNA übersetzt. Normalerweise hilft dieses Protein dem Organismus, mit einem Reiz fertig zu werden oder auf etwas in der Umgebung zu reagieren.


Smale T, Kadonaga T. Der Kernpromotor der RNA-Polymerase II. Ann Rev. Biochem. 200372:449–79.

Kadonaga JT. Perspektiven auf den Kernpromotor der RNA-Polymerase II. Wiley Interdiscip Rev Dev Biol. 20121:40–51.

Vo Ngoc L, Wang YL, Kassavetis GA, Kadonaga JT. Der punktgenaue Kernpromotor der RNA-Polymerase II. Gene Dev. 201731:1289–301.

Batut P, ​​Dobin A, Plessy C, Carninci P, Gingeras TR. High-Fidelity-Promotor-Profiling zeigt die weit verbreitete Verwendung alternativer Promotoren und die Transposon-gesteuerte Entwicklungsgenexpression. Genom-Res. 201223:169–80.

Roy AL, Sänger DS. Kernförderer der Transkription: altes Problem, neue Erkenntnisse. Trends Biochem Sci. 201540:165–71.

Zhao B, Cao JF, Hu GJ, Chen ZW, Wang LY, Shangguan XX, Wang LJ, Mao YB, Zhang TZ, Wendel JF et al. Die Variation des cis-Elements im Kern verleiht eine subgenomabhängige Expression eines Transkriptionsfaktors, der bei der Baumwollfaserverlängerung wirkt. Neues Phytol. 2018218:1061–75.

Watanabe K, Kokubo T. SAGA vermittelt die Transkription vom TATA-ähnlichen Element unabhängig von Taf1p/TFIID aber abhängig von Kernpromotorstrukturen in Saccharomyces cerevisiae. Plus eins. 201712:e0188435.

Sato MP, Makino T, Kawata M. Natürliche Selektion in einer Population von Drosophila melanogaster, erklärt durch Veränderungen in der Genexpression, die durch Sequenzvariation in den Kernpromotorregionen verursacht werden. BMC Evolution Biol. 201616:35.

Lubliner S, Regev I, Lotan-Pompan M, Edelheit S, Weinberger A, Segal E. Die Kernpromotorsequenz in Hefe ist eine Hauptdeterminante des Expressionsniveaus. Genom-Res. 201525:1008–17.

Srivastava R, Rai KM, Srivastava M, Kumar V, Pandey B, Singh SP, Bad SK, Singh BD, Tuli R, Sawant SV. Ausgeprägte Rolle der Kernpromotorarchitektur bei der Regulierung lichtvermittelter Reaktionen in Pflanzengenen. Mol-Anlage. 20147:626–41.

Wray GA. Die evolutionäre Bedeutung von cis-regulatorischen Mutationen. Nat. Rev Genet. 20078:206–16.

Albert FW, Kruglyak L. Die Rolle der regulatorischen Variation bei komplexen Merkmalen und Krankheiten. Nat. Rev Genet. 201516:197–212.

Poulos RC, Thoms JA, Shah A, Beck D, Pimanda JE, Wong JW. Ein systematisches Screening von Promotorregionen lokalisiert funktionelle cis-regulatorische Mutationen in einem kutanen Melanomgenom. Mol Cancer Res. 201513:1218–26.

Lappalainen T, Montgomery SB, Nica AC, Dermitzakis ET. Epistatische Selektion zwischen Kodierung und regulatorischer Variation in der menschlichen Evolution und Krankheit. Bin J Hum Genet. 201189:459–63.

Sharma A, Jiang C, De S. Die Analyse der Quellen der Variation der Genexpression in einer Pan-Krebs-Analyse identifiziert neue regulatorische Mutationen. Nukleinsäuren Res. 201846:4370–81.

Gurdasani D, Carstensen T, Tekola-Ayele F, Pagani L, Tachmazidou L, Hatzikotolas K, Karthikeyan S, Iles L, Pollard MO, Choudhury A, et al. Das African Genome Variation Project gestaltet die medizinische Genetik in Afrika. Natur. 2015517:327–32.

Crossley M, Brownlee GG. Die Unterbrechung einer C/EBP-Bindungsstelle im Faktor IX-Promotor wird mit Hämophilie B. Nature (London) in Verbindung gebracht. 1990345: 444–6.

Reijnen MJ, Sladek FM, Bertina RM, Reitsma PH. Die Unterbrechung einer Bindungsstelle für Hepatozyten-Kernfaktor 4 führt zu Hämophilie B Leyden. Proc Natl Acad Sci U S A. 199289: 6300–3.

Manco L, Ribeiro ML, Máximo V, Almeida H, Costa A, Preitas O, Barbot J, Abade A, Tamagnini G. Eine neue PKLR-Genmutation in der R-Typ-Promotorregion beeinflusst die Gentranskription und verursacht einen Pyruvatkinase-Mangel. Br. J. Hämatol. 2000110:993–7.

Darvish H, Nabi MO, Firouzabadi SG, Karimlou M, Heidari A, Najmabadi H, Ohadi M. Außergewöhnliche humane Kernpromotor-Nukleotidzusammensetzungen. Gen. 2011475:79–86.

Horn S, Figl A, Rachakonda PS, Fischer C, Sucker A, Gast A, Kadel S, Moll I, Nagore E, Hemminki K, et al. Mutationen des TERT-Promotors bei familiärem und sporadischem Melanom. Wissenschaft. 2013339:959–61.

Kim YC, Cui J, Luo J, Xiao F, Downs B, Wang SM. Exom-basierte Variantenerkennung in Core-Promotoren. Sci Rep. 20166:30716.

1000 Genomes Project Consortium, Auton A, Brooks LD, Durbin RM, Garrison EP, Kang HM, Korbel JO, Marchini JL, McCarthy S, McVean GA, et al. Eine globale Referenz für die genetische Variation des Menschen. Natur. 2015526:68–74.

FANTOM Consortium und RIKEN PMI und CLST (DGT), Forrest AR, Kawaji H, Rehli M, Baillie JK, de Hoon MJ, Haberle V, Lassmann T, Kulakovskiy IV, Lizio M, et al. Ein Säugetier-Expressionsatlas auf Promotor-Ebene. Natur. 2014507(7493):462–70.

Sawaya S, Bagshaw A, Buschiazzo E, Kumar P, Chowdhur S, Black MA, Gemmell N. Mikrosatelliten-Tandem-Wiederholungen sind in menschlichen Promotoren reichlich vorhanden und mit regulatorischen Elementen assoziiert. Plus eins. 20138:e54710.

Emamalizadeh B, Movafagh A, Darvish H, Kazeminasab S, Andarva M, Namdar-Aligoodarzi P, Ohadi M. Das vorherrschende Allel des menschlichen RIT2-Kernpromotors mit kurzen Tandemwiederholungen hat eine artspezifische Länge: ein selektiver Vorteil für die menschliche Evolution? Mol-Gen-Genomik. 2017292:611–7.

Alizadeh F, Moharrami T, Mousavi N, Yazarlou F, Bozorgmehr A, Shahsavand E, Delbari A, Ohadi M. Nur-Krankheits-Allele an den äußersten Enden des menschlichen ZMYM3 außergewöhnlich lange 5' UTR kurze Tandemwiederholung bei bipolarer Störung: Ein Pilot lernen. J Störung beeinflussen. 2019251:86–90.

Bolton KA, Ross JP, Grice DM, Bowden NA, Holliday EG, Avery-Kiejda KA, Scott RJ. STaRRRT: eine Tabelle mit kurzen Tandem-Wiederholungen in regulatorischen Regionen des menschlichen Genoms. BMC Genomik. 201314:795.

Weber JL, Wong C. Mutation of Human Short Tandem Repeats. Hum Mol Genet. 19932: 1123–8.

Bainbridge MN, Wang M, Wu Y, Newsham I, Muzny DM, Jefferies JL, Albert TJ, Burgess DL, Gibbs RA, et al. Eine gezielte Anreicherung jenseits des Exoms der Konsensus-kodierenden DNA-Sequenz zeigt Exons mit höheren Variantendichten. Genom Biol. 201112:R68.

Wang J, Raskin L, Samuels DC, Shyr Y, Guo Y. Genommessungen, die für die Qualitätskontrolle verwendet werden, hängen von der Genfunktion und der Abstammung ab. Bioinformatik. 201531:318–23.

Internationales HapMap-Konsortium. Das internationale HapMap-Projekt. Natur. 2003426(6968):789–96.

Namdar-Aligoodarzi P, Mohammaparast S, Zaker-Kandjani B, Talebi Kakroodi S, Jafari Vesiehsari M, Ohadi M. Außergewöhnlich lange 5' UTR kurze Tandemwiederholungen, die speziell mit Primaten verbunden sind. Gen. 2015569:88–94.

Hezel AF, Kimmelman AC, Stanger BZ, Bardeesy N, Depinho RA. Genetik und Biologie des duktalen Adenokarzinoms des Pankreas. Gene Dev. 200620: 1218–49.

B. Jassal, L. Matthews, G. Viteri, C. Gong, P. Lorente, A. Fabregat, K. Sidiropoulos, J. Cook, M. Gillespie, R. Haw et al. Die Wissensdatenbank zum Reaktionsweg. Nukleinsäuren Res. 202048(D1):D498–503.

Song H, Ramus SJ, Quaye L, DiCioccio RA, Tyrer J, Lomas E, Shadforth D, Hogdall E, Hogdall C, McGuire V, et al. Häufige Varianten bei Mismatch-Reparatur-Genen und Risiko für invasiven Eierstockkrebs. Karzinogenese. 200627:2235–42.

Morales J, Welter D, Bowler EH, Cerezo M, Harris LW, McMahon AC, Hall P, Junkins HA, Milano A, Hastings E, et al. Ein standardisierter Rahmen für die Darstellung von Abstammungsdaten in Genomikstudien mit Anwendung auf den NHGRI-EBI GWAS-Katalog. Genom Biol. 201819:21.

Martin AR, Gignoux CR, Walters RK, Wojcik GL, Neale BM, Gravel S, Daly MJ, Bustamante CD, Kenny EE. Die demografische Geschichte des Menschen beeinflusst die Vorhersage genetischer Risiken in verschiedenen Bevölkerungsgruppen. Bin J Hum Genet. 2017100:635–49.

Jiang DK, Ma XP, Yu H, Cao G, Ding DL, Chen H, Huang HX, Gao YZ, Wu XP, Long XD, et al. Genetische Varianten in fünf neuen Loci, einschließlich CFB und CD40, prädisponieren für chronische Hepatitis B. Hepatologie. 201562:118–28.

Downs B, Wang SM. Epigenetische Veränderungen bei BRCA1-mutiertem familiärem Brustkrebs. Krebs Genet. 2015208:237–40.

Clarke L, Fairley S, Zheng-Bradley X, Streeter I, Perry E, Lowy E, Tassé AM, Flicek P. Die internationale Genome-Sample-Ressource (IGSR): Eine weltweite Sammlung von Genomvariationen mit den Daten des 1000 Genomes Project. Nukleinsäuren Res. 201745:D854–9.

Gamazon ER, Segrè AV, van de Bunt M, Wen X, Xi HS, Hormozdiari F, Ongen H, Konkashbaev A, Derks EM, Aguet F, et al. Verwendung eines Atlas der Genregulation über 44 menschliche Gewebe, um komplexe krankheits- und merkmalsbezogene Variationen aufzuklären. Nat Genet. 201850:956–67.

Subhash S, Kanduri C. GeneSCF: ein echtzeitbasiertes Tool zur funktionellen Anreicherung mit Unterstützung für mehrere Organismen. BMC Bioinformatik. 201617:365.


Ergebnisse

Alternatives Promoter-Array

Um ein alternatives Promotor-Array zu entwerfen, verwendeten wir zunächst einen bioinformatischen Ansatz, um alle bekannten und mutmaßlichen Promotoren im menschlichen Genom zu annotieren. Unter Verwendung von Beweisen aus drei Quellen: UCSC Known Genes [37], FirstEF [23] und Riken CAGE-Tags [38] fanden wir Beweise für mehr als 185.000 Transkriptionsstartstellen, die durch 500 Basen oder mehr im menschlichen Genom getrennt sind. Wir verfolgten einen genzentrischen Ansatz für unser Mikroarray-Design und wählten Gene mit zwei oder mehr bekannten oder mutmaßlichen Promotoren aus. Am Ende wurden etwa 34.000 bekannte oder mutmaßliche Promotoren für unser Array ausgewählt, die etwa 7.000 Gene abdecken. Die mediane Anzahl von Promotoren pro Gen beträgt drei (Abbildung 1B). 60-mer-Oligonukleotidsonden wurden entworfen, um eine Region –200 bis +200, die jede bekannte und mutmaßliche Transkriptionsstartstelle umgibt, zu kacheln. Aufgrund von Beschränkungen des Sondendesigns konnten nicht alle Regionen effektiv abgedeckt werden, aber im Durchschnitt beträgt der Abstand ungefähr 80 Basen vom Ende einer Sonde zum Anfang der nächsten.

Genomweites Profil der potenziellen Promotor-Nutzung

Um potenzielle aktive Promotoren zu identifizieren, führten wir ChIP-Chip mit Antikörper gegen RNA Pol II in MCF-7-Zelllinien mit und ohne E2-Behandlung für 3 Stunden durch, wie in den Methoden beschrieben. Die amplifizierte immunpräzipitierte DNA und die Eingangskontrolle wurden nach Markierung mit Cy5- bzw. Cy3-Fluoreszenzfarbstoffen verwendet, um den alternativen Promotor-Mikroarray zu sondieren (Abbildung 2A). Jedes Experiment wurde einmal wiederholt, um die Reproduzierbarkeit der Sondenhybridisierungsintensitäten zu bestimmen. Nach dem Filtern der Spots mit geringer Qualität führten wir eine intensitätsabhängige Lowess-Normalisierung durch. Der MA-Plot für normalisierte Daten ist in 2B für ein Kontrollexperiment (vor der E2-Behandlung) gezeigt. Wir haben dann die Verteilung der normalisierten logarithmischen Verhältnisse der Rot- und Grünintensitäten aufgetragen. Das Histogramm in Abbildung 2C zeigt die Log-Verhältnisse für ein Kontrollexperiment, das eine klare bimodale Verteilung zeigt. Die Verteilung mit Modus nahe Null repräsentiert die Sonden, die nicht reagieren, und die Verteilung mit Modus nahe 2,5 repräsentiert die Sonden von reagierenden Promotoren. Der Algorithmus zur Erwartungsmaximierung (EM) von Khalili et al. [39] wurde von der ursprünglichen Gamma-Normal-Gamma-Anpassung zu einer einfachen Gamma-Normal-Anpassung modifiziert, die für unsere Daten geeigneter zu sein schien. Der Algorithmus definiert klar zwei unterschiedliche Verteilungen in Abbildung 2C, die die ungebundenen Sonden (in Rot) und die gebundenen Sonden (in Grün) darstellen. Siehe Zusätzliche Datei 1 für die MA-Plots und die logarithmische Ratio-Verteilung von Daten aus anderen Experimenten. Ein nettes Feature des Algorithmus ist, dass jeder Verteilung mit einer bestimmten Wahrscheinlichkeit Sonden zugewiesen werden können, was es uns ermöglicht, die Stringenz unserer Zuweisungen leicht zu erhöhen oder zu reduzieren. Wir definierten starke Kandidaten für die RNA-Polymerase II-Aktivität als solche Sonden, die mit einem p-Wert von höchstens 0,05 in die grüne Verteilung fielen. Wir haben jedoch auch eine zweite, schwächere Bedingung definiert: diejenigen Sonden, die bei einem p-Wert von 0,05 nicht signifikant Teil der größeren ungebundenen (roten) Verteilung sind. Diese letztere Gruppe würde den "Graubereich" umfassen, der zwischen den beiden Verteilungen liegt. Die "beste" Sonde von jedem Promotor wurde verwendet, um die Aktivität des Promotors als Ganzes zu bewerten. 2D zeigt den Anteil aktiver Promotoren in MCF7-Zellen bei verschiedenen Qualitätsschwellen. Mindestens 65 % der Promotoren (sowohl mutmaßliche als auch bekannte) sind in dieser Zelllinie inaktiv, während

17% der Promoter haben starke Beweise für ihre Aktivität. Dies stimmt grob mit früheren genomweiten Studien zur Promotoraktivität überein. Zum Beispiel Kim et al [31] gefunden

9.300 aktive Promotoren in IMR90-Zellen, das entspricht

23% der einzigartigen annotierten Transkriptionsstartstellen in den UCSC-bekannten Genen [37]. Wenn wir diese Promotoren den Genen zuordnen, stellen wir fest, dass 3.210 Gene zumindest unter experimentellen Bedingungen mindestens einen aktiven Promotor hatten, von insgesamt 6.500 Genen, für die wir Daten wiederherstellen konnten – ungefähr 50%.

ChIP-Chip-Verfahren (A). MA-Plot für ein Kontrollexperiment, nach Normalisierung (B M = log2(Rot/Grün) A = log2(Rot*Grün)/2). Anpassung des Gamma+Normal-Modells an das logarithmische Verhältnis von roten zu grünen Kanälen (C). Der rote Teil des Histogramms zeigt Sonden, die zur ungebundenen Verteilung mit p < 0,05 gehören. Der grüne Teil des Histogramms sind Sonden, die zur gebundenen Verteilung mit p < 0,05 gehören. Die Grauzonen dazwischen sind mehrdeutig. Unser Modell ermöglicht es uns, Promotoren auf verschiedenen Konfidenzniveaus als aktiv oder inaktiv zu kommentieren (D). „Hoch an“ zeigt starke Hinweise auf die RNA-Polymerase II-Bindung in beiden Replikaten (die Sonden fallen in den grünen Teil von Feld C) „Mittel an“ zeigt starke Hinweise auf die RNA-Polymerase II-Bindung in einem Replikat und schwache Hinweise in dem anderen dh die Sonden fallen außerhalb des roten Bereichs in Feld C). "Low on" zeigt schwache Evidenz in beiden Replikaten an. "Niedrig aus" zeigt eine Inkonsistenz zwischen den Replikaten an und schließlich zeigt "Stark aus" eine hohe Wahrscheinlichkeit an, dass keine Bindung auftrat (d. h. Sonden fallen in den roten Teil von Feld C). "Low on" zeigt schwache Evidenz in beiden Replikaten an. "Niedrig aus" zeigt eine Inkonsistenz zwischen den Replikaten an und schließlich zeigt "Stark aus" eine hohe Wahrscheinlichkeit an, dass keine Bindung auftrat (d. h. Sonden fallen in den roten Teil von Feld C).

Wir validierten insgesamt 18 Promotoren, 10 Promotoren, von denen wir vorhergesagt hatten, dass sie mit hoher Sicherheit aktiv sind, und 8 Promotoren, von denen vorhergesagt wurde, dass sie in MCF7-Zellen inaktiv sind. ChIP-PCR-Experimente zeigten, dass diese Vorhersagen größtenteils richtig waren (Abbildung 3) – bei sieben der zehn positiven Target-Microarray-Analysen wurde bestätigt, dass sie an RNA-Polymerase II gebunden sind. In ähnlicher Weise zeigten alle bis auf eine der negativen Proben keinen Hinweis auf eine RNA-Polymerase-II-Bindung. Obwohl die Bindung der RNA-Polymerase II an die Promotorregion aufgrund posttranskriptioneller Ereignisse nicht mit der Genexpression korrelieren muss, finden wir, dass eine grobe Übereinstimmung existiert. Zum Beispiel zwei Promotoren im Gen NCOA7 es wurde gezeigt, dass sie mit einem "niedrigen" Vertrauensniveau an RNA-Polymerase II binden, obwohl in Abwesenheit von E2 vorhergesagt wurde, dass der stromaufwärts gelegene Promotor "stark ausgeschaltet" ist (Fig. 4A). Diese qualitativen Ergebnisse wurden durch quantitative Reverse-Transkriptase-Polymerase-Kettenreaktion (qRT-PCR) verifiziert (Abbildungen 4B und 4C). Durch den Vergleich dieser Ergebnisse mit dem Gen EIF3S9, dessen am weitesten stromaufwärts gelegener Promotor in beiden Behandlungen "highly on" war (Abbildung 5A), fanden wir, dass die qRT-PCR-Experimente ein entsprechend hohes Expressionsniveau der entsprechenden Genisoform zeigten (Abbildung 5B).

Sieben von zehn Promotoren wurden basierend auf ChIP-PCR-Assays (grüne Balken) als aktiv bestätigt. In ähnlicher Weise zeigten alle bis auf einen als negativ bezeichneten Promotoren keinen Hinweis auf eine RNA-Polymerase-II-Bindung (rote Balken). Fehlerbalken zeigen Standardfehler vom Mittelwert an, basierend auf drei Replikaten.

Hier sind die ersten vier Exons des Gens NCOA7 gezeigt, die eine Region von ungefähr 32 kb umfassen (A). Exon 3 wird aus dem bei Exon 1 initiierten Transkript gespleißt, aber Exon 4 ist beiden Transkripten gemeinsam. Die ChIP-Chip-Microarray-Analyse zeigte, dass der erste Promotor im Kontrollexperiment inaktiv ist, aber mit E2-Behandlung auf niedrigem Niveau aktiviert wird, ein Ergebnis, das durch qRT-PCR-Ergebnisse bestätigt wird (B). Es wurde vorhergesagt, dass der zweite Promotor mit und ohne E2-Behandlung auf niedrigem Niveau aktiv ist, was wiederum bestätigt wurde (C). Fehlerbalken zeigen Standardfehler vom Mittelwert für drei Replikate an.

Hier sind die ersten drei Exons des Gens EIF3S9 gezeigt, die eine Region von ungefähr 3,7 kb umfassen (A). Dieser Promotor erwies sich in beiden Behandlungen als hochaktiv, was durch qRT-PCR verifiziert wurde. Fehlerbalken zeigen Standardfehler vom Mittelwert für drei Replikate an.

Alternative Promoter und CpG-Inseln

Wang et al. [40] stellten kürzlich fest, dass der 5'-am weitesten am meisten gelegene Promotor eines Gens dazu neigt, CpG-verwandt zu sein, während dies eher stromabwärts gelegene Promotoren weniger wahrscheinlich sind. Wir identifizierten Promotoren, die in einer oder beiden unserer Behandlungen aktiv waren, und klassifizierten sie entweder als mit dem 5'-Ende des Gens assoziiert (wenn der Promotor < 500 Basen des 5'-Endes der Annotation des Gens lokalisiert war) oder stromabwärts gelegene Promotoren (> 500 Basen vom 5'-Ende des Gens entfernt). Ähnlich den Erkenntnissen von Wang et al., fanden wir, dass 92% aller 5'-End-Promotoren mit einer CpG-Insel assoziiert sind, während dies nur 23% der stromabwärts gelegenen Promotoren sind.

Identifizierung neuer Promotoren

Wie in Tabelle 1 gezeigt, wird jeder Promotor auf dem Array durch verschiedene Beweislinien gestützt. Die gebräuchlichsten Promotoren sind diejenigen, die von mehreren CAGE-Tags unterstützt werden. Es wurde jedoch festgestellt, dass nur 14% der 18.902 solcher Promotoren, die nur von CAGE-Tags auf dem Array unterstützt werden, bei "hohen" oder "mittleren" Konfidenzniveaus aktiv sind. Natürlich ist es wichtig zu beachten, dass ein negatives Ergebnis nicht unbedingt eine ungenaue Promotorvorhersage anzeigt, diese Promotoren können in verschiedenen Zelltypen oder unter verschiedenen Umweltbedingungen aktiv sein. Daher sind diese Zahlen als untere Grenze zu sehen. Die bei weitem größte Übereinstimmung wurde für CpG-bezogene Promotoren gefunden, die durch alle Beweislinien (UCSC Known Genes, CAGE-Tags und FirstEF-Vorhersagen) unterstützt werden, von diesen wurden 68% als aktiv befunden. Die Daten zeigen auch, dass die CpG-bezogenen Promotoren, die sowohl von CAGE-Tags als auch von FirstEF-Vorhersagen unterstützt werden, eine höhere Erfolgsrate aufweisen als diejenigen Promotoren, die ausschließlich von entweder CAGE-Tags oder FirstEF-Vorhersagen unterstützt werden. 16 % der nicht-CpG-bezogenen Promotoren in dieser Kategorie erwiesen sich als aktiv, während beeindruckende 39 % der CpG-bezogenen Promotoren, die durch CAGE- und FirstEF-Ergebnisse unterstützt werden, als aktiv befunden wurden. Wenn wir alle Promotoren, die nicht von KnownGenes unterstützt werden, als "neuartig" betrachten, dann waren von 20.879 Promotoren 3.172 (15%) in mindestens einer Behandlung aktiv. Wenn wir Promotoren eliminieren, die nur von CAGE-Tags unterstützt werden, sind 601 von 1.977 Promotoren (30 %) aktiv. Von den zehn Genen, die in Abbildung 4 für die Validierung ausgewählt wurden, fallen acht in die neue Kategorie (d. h. kein mRNA-Nachweis) und sechs davon wurden bestätigt (siehe Tabelle 2). Diese überraschenden Ergebnisse weisen darauf hin, dass in menschlichen Genen eine große Zahl unentdeckter, nicht annotierter Promotoren existiert. Bemerkenswerterweise haben wir 303 neue und aktive Promotoren entdeckt, die sich mehr als 500 Basen stromaufwärts des derzeit definierten 5'-Endes des Gens befinden, was darauf hindeutet, dass ein signifikanter Anteil der aktuellen Genannotationen möglicherweise nicht 5'-vollständig ist. Einer dieser Promotoren befand sich stromaufwärts von SOX12 und es wurde verifiziert, dass er an RNA-Polymerase II bindet (Fig. 4). Diese Ergebnisse unterstützen auch nachdrücklich die jüngsten Berichte über eine hohe Häufigkeit alternativer Promotoren in Säugetiergenomen [41, 42]. Außerdem könnten die komplizierten Verteilungsmuster dieser alternativen Promotoren bei früheren Expressions-Array-Analysen leicht übersehen werden.

Unterschiedlicher Einsatz mehrerer Promotoren mit Östrogenstimulation

Unsere Hypothese war, dass die Behandlung mit E2 die Promotoraktivität einer Untergruppe von Genen im Genom beeinflusst. Für diese Analyse haben wir "aktiv" als Promotoren mit "hohem", "mittlerem" oder "niedrigem" Vertrauen definiert. Für die Untergruppe von Genen mit einem einzigen aktiven Promotor fanden wir, dass 2.697 Promotoren sowohl bei E2- als auch bei E2+-behandelten Zuständen aktiv waren (siehe Zusätzliche Datei 2). Während von E2 nur 178 Promotoren inaktiviert und 77 Promotoren aktiviert wurden. Diese Tendenz zur Inaktivierung ist hochsignifikant (p = 2.5e-10 in einem Chi-Quadrat-Test), was darauf hindeutet, dass mehr Promotoren durch E2 inaktiviert als aktiviert werden, was den vorherigen Bericht über Östrogen-vermittelte Early-Down-regulierte Gene unterstützt [43 ]. Einige der mit diesen Promotoren assoziierten Gene wurden zuvor als östrogensensitiv identifiziert, wie GREB1, HSPB8 und WFS1 [44] (eine vollständige Liste finden Sie in den zusätzlichen Dateien 2 und 3). Als nächstes betrachteten wir diejenigen Gene, die zwei aktive alternative Promotoren aufweisen, und überprüften die unterschiedliche Aktivierung oder Inaktivierung der Promotoren. Wir fanden 993 Gene, bei denen beide Promotoren aktiv waren und von der E2-Behandlung nicht beeinflusst wurden (siehe zusätzliche Datei 3). Interessanter sind die Fälle, in denen ein Promotor von der E2-Behandlung betroffen ist. Die stromaufwärts gelegenen Promotoren von 25 solcher Gene werden durch E2 aktiviert (Abbildung 6A siehe auch das Gen NCOA7 in Abbildung 4), wohingegen in 61 Genen der stromaufwärts gelegene Promotor durch E2 inaktiviert wird (Abbildung 6B) – eine Verzerrung von mehr als 2:1 zugunsten der Inaktivierung, die dem, was wir im Fall des einzelnen aktiven Promotor-Gens gefunden haben, ziemlich ähnlich ist, und ebenfalls signifikant (p = 0,000175 im Chi-Quadrat-Test). Seltsamerweise ist diese gleiche Verzerrung nicht vorhanden, als wir die stromabwärts gelegenen Promotoren untersuchten, wo wir fanden, dass 62 von E2 aktiviert wurden ( 6C ) und 64 von E2 inaktiviert wurden ( 6D ).

Wir fanden insgesamt 212 Gene mit genau zwei Promotoren, die in einem dieser Experimente aktiv waren. Von diesen wurde der stromaufwärts gelegene Promotor in 25 Genen (A) durch E2 aktiviert und in 61 Fällen durch E2 inaktiviert (B). Der stromabwärts gelegene Promotor wurde in 62 Fällen (C) durch E2-Behandlung aktiviert und in 64 Fällen (D) durch E2 inaktiviert.

In Bezug auf die gesamte unterschiedliche Verwendung (entweder Aktivierung oder Inaktivierung) alternativer Promotoren aufgrund der E2-Behandlung fanden wir, dass die stromabwärts gelegenen Promotoren häufiger von der E2-Behandlung betroffen sind als der stromaufwärts gelegene Promotor. Wir fanden heraus, dass insgesamt 127 Downstream-Promotoren von der E2-Behandlung betroffen waren, während nur 87 Upstream-Promotoren betroffen waren – ein signifikanter Bias (p = 0,00625 in einem Chi-Quadrat-Test). Diese faszinierenden Muster geben einen Einblick in die regulatorische Kontrolle von Genen und ihren Isoformen durch E2. Um dieses Phänomen weiter zu untersuchen, haben wir die Positionen aktiver Promotoren innerhalb jedes Gens untersucht. Wie in 7A gezeigt, besteht für Gene mit einem einzelnen aktiven Promotor, der gegenüber einer E2-Behandlung unempfindlich ist, eine starke Tendenz, dass dieser Promotor am 5'-Ende des annotierten Gens lokalisiert ist. Ähnliche Trends werden bei Genen mit zwei aktiven Promotoren beobachtet, die gegenüber einer E2-Behandlung unempfindlich sind, wobei sich der stromaufwärts gelegene Promotor wieder in der Nähe des 5'-Endes des Gens befindet, während der Ort des stromabwärts gelegenen Promotors gleichmäßig über die Länge des Gens verteilt ist ( Abbildung 7B). Es wird jedoch eine überraschende Änderung beobachtet, wenn einer der Promotoren E2-sensitiv ist, wobei wir festgestellt haben, dass der stromabwärts gelegene Promotor eine sehr starke Tendenz hatte, nahe am 3'-Ende des Gens zu liegen ( 7C ). In Übereinstimmung mit unserer Erkenntnis, dass stromabwärts gelegene Promotoren tendenziell nicht mit CpG-Inseln assoziiert sind (im Gegensatz zu Promotoren am 5'-Ende des Gens), sind E2-sensitive Promotoren insgesamt weniger wahrscheinlich mit CpG-Inseln assoziiert als aktive Promotoren insgesamt: 50 % aller aktiven Promotoren sind CpG-bezogen, während nur 37 % der E2-sensitiven Promotoren dies sind (p = 1,2e-11 in einem Fisher's Exact-Test).

Bei Genen mit einem einzigen aktiven Promotor besteht eine starke Tendenz, dass sich dieser Promotor am 5'-Ende des annotierten Gens befindet, das als "stromaufwärts" markiert ist, gegenüber dem 3'-Ende des Gens, das als "stromabwärts" markiert ist " (EIN). Ähnliche Trends werden bei Genen mit zwei aktiven Promotoren beobachtet, bei denen keiner von der E2-Behandlung beeinflusst wird. Hier befindet sich wahrscheinlich einer der Promotoren am 5'-Ende des Gens, während der andere Promotor mit ungefähr gleicher Wahrscheinlichkeit irgendwo anders entlang der Genlänge vorkommen kann (B). Ein anderes Muster wird bei Genen mit zwei aktiven Promotoren beobachtet, von denen einer durch die E2-Behandlung beeinflusst wird (entweder aktiviert oder inaktiviert). In diesem Fall können wir sehen, dass sich der stromaufwärts aktive Promotor wie zuvor wahrscheinlich am 5'-Ende des Gens befindet, der stromabwärts gelegene Promotor jedoch stark in Richtung des 3'-Endes des Gens (C) vorgespannt ist.


Regulierung während der Entwicklung

Die Regulation der Genexpression ist während der frühen Entwicklung eines Organismus äußerst wichtig. Regulatorische Proteine ​​müssen bestimmte Gene in bestimmten Zellen genau zum richtigen Zeitpunkt aktivieren, damit das Individuum normale Organe und Organsysteme entwickelt. Homöobox-Gene sind eine große Gruppe von Genen, die die Entwicklung während des Embryonalstadiums regulieren. Beim Menschen gibt es schätzungsweise 235 funktionelle Homöobox-Gene. Sie sind auf jedem Chromosom vorhanden und in der Regel in Clustern gruppiert. Homeobox-Gene enthalten Anweisungen zur Herstellung von Ketten aus 60 Aminosäuren, die als Homöodomänen bezeichnet werden. Homöodomäne enthaltende Proteine ​​sind Transkriptionsfaktoren, die an andere Gene binden und deren Aktivitäten kontrollieren. Die Homöodomäne ist der Teil des Proteins, der an das Zielgen bindet und dessen Expression kontrolliert.


Eine Datenbank mit annotierten Promotoren von Genen, die mit häufigen Atemwegserkrankungen und verwandten Erkrankungen in Verbindung stehen

Viele Gene sind an der Pathogenese häufiger Atemwegserkrankungen und verwandter Erkrankungen (RRDs) beteiligt, doch die zugrunde liegenden Mechanismen sind weitgehend unbekannt. Unterschiedliche Genexpressionsmuster bei erkrankten und gesunden Personen deuten darauf hin, dass RRDs modifizierte Transkriptionsregulationsprogramme beeinflussen oder von diesen beeinflusst werden. Daher ist es entscheidend, beteiligte Gene im Hinblick auf die Transkriptionsregulation zu charakterisieren. Zu diesem Zweck führten wir eine Promotoranalyse von Genen durch, die mit 11 häufigen RRDs assoziiert sind, darunter allergische Rhinitis, Asthma, Bronchiektasen, Bronchiolitis, Bronchitis, chronisch obstruktive Lungenerkrankung, Mukoviszidose, Emphysem, Ekzeme, Psoriasis und Urtikaria, von denen viele angenommen werden genetisch verwandt sein. Das Ziel der vorliegenden Studie war es, einen tieferen Einblick in die transkriptionelle Regulation dieser krankheitsassoziierten Gene zu erhalten, indem ihre Promotorregionen mit Transkriptionsfaktoren (TFs) und TF-Bindungsstellen (TFBSs) annotiert wurden.Wir entdeckten viele TFs, die in den Zielkrankheitsgruppen signifikant angereichert sind, einschließlich Assoziationen, die in der Literatur dokumentiert sind. Wir identifizierten auch eine Reihe von mutmaßlichen TFs/TFBSs, die neu zu sein scheinen. Die Ergebnisse unserer Analyse werden in einer Online-Datenbank bereitgestellt, die Forschern unter http://www.respiratorygenomics.com frei zugänglich ist. Promotor-assoziierte TFBS-Informationen und verwandte genomische Merkmale wie Histon-Modifikationsstellen, Mikrosatelliten, CpG-Inseln und SNPs werden in der Datenbank grafisch zusammengefasst. Benutzer können die zugrunde liegenden Mechanismen spezifischer RRDs in Bezug auf Kandidatengene, TFs, genontologische Begriffe, Mikro-RNAs und biologische Wege für die Durchführung von Metaanalysen vergleichen und gegenüberstellen. Diese Datenbank stellt eine neue, nützliche Ressource für RRD-Forscher dar.

Obwohl eine Reihe von Genen an mehreren Atemwegserkrankungen und anderen verwandten Erkrankungen (RRDs) beteiligt sind, ist unser Wissen über die Promotorelemente, die die Transkriptionsinitiation dieser Gene regulieren, im Allgemeinen begrenzt. Die Charakterisierung von Promotoren wird unser Verständnis der transkriptionalen Regulationsprogramme und Mechanismen dieser Krankheitsgene verbessern und könnte sich als entscheidend für die Untersuchung der Pathogenese von RRDs erweisen.

Eine Reihe bedeutender Studien führte zur Charakterisierung von Promotoren und transkriptionalen regulatorischen Signalen für einige RRD-assoziierte Gene (RRDaGs), wie z. B. Asthma-assoziierte Gene (1, 2). Allerdings gibt es nur wenige solcher Studien. Darüber hinaus konzentrieren sich diese Studien typischerweise auf einzelne Gene und bieten keine ganzheitliche Sicht auf transkriptionale Koregulationsprogramme, die mehrere Gene umfassen.

Mit einem rechnergestützten Ansatz führten wir eine groß angelegte Analyse der Promotorregion von Genen durch, die an 11 häufigen RRDs beteiligt sind, darunter allergische Rhinitis, Asthma, Bronchiektasen, Bronchiolitis, Bronchitis, chronisch obstruktive Lungenerkrankung (COPD), Mukoviszidose, Emphysem, Ekzeme, Psoriasis und Urtikaria. Von vielen dieser Erkrankungen ist bekannt, dass sie genetisch miteinander verbunden sind (3). Wir haben potenzielle Transkriptionsregulationsprogramme von Ziel-RRDaGs charakterisiert, indem wir mutmaßliche Transkriptionsfaktor-Bindungsstellen (TFBS)-Signaturen und die zugehörigen Transkriptionsfaktoren (TFs) innerhalb der Promotoren dieser Gene entdeckt und annotiert haben. Die Ergebnisse dieser Analyse erweitern unser Verständnis der RRDaG-Transkriptionsregulationsmechanismen, indem sie einen globalen Überblick über die TF/TFBS-Netzwerksignaturen bieten, die verschiedene RRDaGs regulieren oder von diesen geteilt werden. In unserer Analyse validierten wir eine Reihe bekannter TF/TFBS-Signaturen, die für RRDaGs in der Literatur berichtet wurden, und identifizierten mehrere neue TF/TFBS-Signaturen. Unsere Studie stellt eine der umfassendsten Analysen zur gleichzeitigen Identifizierung regulatorischer Signale in einer großen Sammlung von RRDaG-Promotoren dar.

Wir haben eine öffentliche Ressource entwickelt, indem wir eine frei zugängliche Online-Datenbank erstellt haben, in der die Ergebnisse unserer Analyse gespeichert sind. Die Datenbank enthält Promotormodelle von RRDaGs, die mit mutmaßlichen TFBSs und den in unserer Analyse entdeckten assoziierten TFs annotiert sind. Entdeckte TFBS/TFs können aus der Datenbank auf Neuheit validiert werden, indem solche Behauptungen und Konzepte mit allen unterstützenden Beweisen verknüpft werden, die in PubMed-indizierter Literatur zu RRD-assoziierten TFBS/TFs gefunden werden. Mutmaßliche TFBSs werden auch in Bezug auf bekannte genomische Promotor-Annotationen, einschließlich SNPs, Histon-Modifikationsstellen, Mikrosatelliten und CpG-Inseln, kartiert und in der Datenbank grafisch zusammengefasst. Das Datenbankdesign unterstützt die Durchführung von Metaanalysen, indem es verschiedene Funktionen bereitstellt, die es Benutzern ermöglichen, die zugrunde liegenden Mechanismen spezifischer RRDs in Bezug auf Kandidatengene, TFs, Genontologie (GO)-Begriffe, Mikro-RNAs und biologische Wege zu vergleichen und gegenüberzustellen. Diese Datenbank stellt eine neue und nützliche Ressource für RRD-Forscher dar.

Die Modellierung und Annotation von RRDaG-Promotorregionen umfasste mehrere Schritte und erforderte den Einsatz mehrerer Ressourcen und Softwaremodule. Abbildung 1 zeigt den Arbeitsablauf unserer Methodik, und die verschiedenen Komponenten werden im Folgenden detailliert beschrieben.

Abbildung 1. Arbeitsablauf der Analyse von Atemwegserkrankungen und anderen verwandten Erkrankungen – assoziierter Gene (RRDaG). PWM = Positionsgewichtsmatrix TF = Transkriptionsfaktor TFBS = Transkriptionsfaktor-Bindungsstelle TSS, Transkriptionsstartstelle UCSC = University of California Santa Cruz.

Unter Verwendung der TRANSFAC-Suite von BioBase Biological Databases (Wolfenbüttel, Deutschland) sammelten wir menschliche und Maus-Genpromotorsegmente, die (−1000, +200) Basen relativ zu Transkriptionsstartstellen (TSSs) abdecken. Promotoren wurden experimentell validiert, und TSS-Lokationen basierten auf der am robustesten unterstützten Kartierung von 5'-vollständigen Transkripten und exprimierten Sequenzen (cDNA/mRNA) des Genoms. Die Promotordatensätze waren nicht redundant (d. h. eine Promotorsequenz pro Gen) und basierten auf den HG19- bzw. mm9-Versionen des Human- bzw. Mausgenoms. Um menschliche und Maus-RRDaGs zu identifizieren, verwendeten wir GeneRIF-Informationen, die in der Entrez-Gendatenbank (Version März 2011) bereitgestellt wurden (4). Von TRANSFAC erhaltene Promotordatensätze enthielten Informationen für die meisten der in dieser Studie analysierten RRDaGs. Für Promotor-Datensätze ohne Informationen zu Ziel-RRDaGs wurden Promotoren mit dem Genome Browser der University of California, Santa Cruz mit RefSeq-Genannotation (5) gesammelt. Wir entschieden uns, Promotorsegmente zu analysieren, die (–1000, +200) Basen um das TSS herum abdecken, da diese Region typischerweise den größten Teil der proximalen Promotorregion mit einer hohen Dichte an funktionellen TFBSs enthält. Die Anzahl der Promotoren, die wir für jede RRD gesammelt haben, ist in Tabelle 1 gezeigt. Regionen mit niedriger Komplexität von Promotoren wurden mit RepeatMasker (Cold Spring Harbor Laboratory, Cold Spring Harbor, NY) identifiziert (6) Promotorsequenzen mit mehr als 90 % Maskierung wurden ausgeschlossen .

TABELLE 1

Definition der Abkürzung: COPD = chronisch obstruktive Lungenerkrankung.

Um mutmaßliche TFBS-Motive in wiederholt maskierten RRDaG-Promotoren zu entdecken, sammelten wir Motivmodelle, die durch von Anfang an Motiventdeckung zusammen mit bekannten TFBS-Modellen, die in den Datenbanken JASPAR (7) und TRANSFAC (8) hinterlegt sind.

Zum von Anfang an Motiverkennung wendeten wir spezifische Softwareprogramme an, um RRDaG-Promotoren anzusprechen, darunter GibbsSampler (The Wadsworth Center, New York State Department of Health, Albany, NY) (9), Weeder (Universität Mailand, Mailand, Italien) (10), MEME (University of California in San Diego, La Jolla, CA) (11) und Amadius/Allegro (Tel Aviv University, Tel Aviv, Israel) (12). Mit diesen Werkzeugen war es unser Ziel, mutmaßliche TFBS-Motive (typischerweise 6–12 Basen lang) zu finden, die in jedem RRDaG-Promotorsatz separat angereichert sind. Alle vier Programme wurden auf menschliche Promotoren angewendet, und Amadius wurde aufgrund seiner einzigartigen Fähigkeit, mehrere Arten von Promotoren in einem einzigen Lauf zu kombinieren, auf menschliche Promotoren und Maus-Promotoren angewendet.

Mehrere von Anfang an Motiverkennungsprogramme wurden für die Analyse verwendet, um die Abdeckung der Motiverkennung zu erhöhen. Die zur Motivfindung eingesetzten Programme stellen die modernsten dafür zur Verfügung stehenden Programme dar. Wir verwendeten die heruntergeladenen Versionen dieser Programme, um Motive zu identifizieren, die häufig in den ausgewählten genomischen Regionen (–1.000, +200) relativ zu TSS für RRDaG-Promotorsequenzen gefunden werden können. Diese Programme stellen Motive als Positionsgewichtsmatrizen (PWMs) dar, die die Wahrscheinlichkeit jedes möglichen Nukleotidbuchstabens an jeder Position im Motiv beschreiben.

Detaillierte Informationen zur Anwendung jedes der vier Motivfindungsprogramme finden Sie im Online-Beiheft 1.

PWMs erhalten mit von Anfang an Methoden wurden mit PWMs bekannter TFBS-Motive, die von JASPAR (7) und TRANSFAC (8) erhalten wurden, gepoolt, um einen redundanten Satz von Kandidaten-PWMs zu bilden ( 1 ). Anschließend führten wir das Cluster-Programm (13) auf dem redundanten PWM-Satz aus, um einen nicht-redundanten Satz von PWMs und deren Konsensussequenz-Logos zu erhalten. Diese Schritte wurden für jeden der RRDaG-Promotorsätze wiederholt.

Unter Verwendung des nicht-redundanten Satzes von Konsensus-PWM-Modellen haben wir Promotoren menschlicher RRDaGs mit der P-Scan-Software gescannt (14). P-Scan vergleicht Vordergrund-Promotoren (RRDaG-Promotoren) mit Hintergrund-Promotoren (alle menschlichen Promotoren) und gibt eine Liste von Motiv-PWMs aus, die einen signifikant hohen Mittelwert des maximalen Scores pro Sequenz im Vordergrund im Vergleich zum Hintergrund aufweisen. Die Datenbank zeigt statistisch signifikante PWM-Modelle für verschiedene RRDaG-Promotorgruppen unter Verwendung von a P Wertschwelle von 0,001. Die P Der Wert für jedes gezeigte PWM-Modell wird für Multiplizitätstests unter Verwendung des Ansatzes von Benjamini und Hochberg (15) korrigiert.

Um die Signaturen signifikanter PWM-Modelle in RRDaG-Promotoren zu finden, betrachteten wir alle Vorkommen als Treffer, wenn ihr Z-Score 2 oder höher in Bezug auf den Hintergrund-Score war. Mit diesem Ansatz entdeckte mutmaßliche TFBS-Motive werden für jeden Krankheitsgruppenpromotor in der Datenbank grafisch zusammengefasst. Die Motivsequenz, ihre Position in der Promotorsequenz und der Strang sind ebenfalls im Promotormodelldiagramm gezeigt. Andere bekannte Merkmale und Anmerkungen der Promotoren, einschließlich Histonmodifikationsstellen, Mikrosatelliten, CpG-Inseln und SNPs, werden im Promotormodelldiagramm angezeigt. Die Anmerkungen wurden aus der GenomeTrax-Suite von BioBase bezogen.

Die meisten der statistisch signifikanten Motivmodelle, repräsentiert durch Konsensus-PWMs, die in der RRDaG-Promotoranalyse entdeckt wurden, wurden unter Verwendung von von Anfang an Techniken der Motivfindung. Um die bekannten TFs zu finden, die am wahrscheinlichsten binden oder mit diesen am besten übereinstimmen von Anfang an Motivmodelle haben wir das Programm STAMP (16) verwendet. Konsens-PWMs, die in unserer Analyse entdeckt wurden, wurden mit bekannten PWMs in den TRANSFAC- und JASPAR-Datenbanken abgeglichen. PWMs in diesen Datenbanken sind für wahrscheinlich assoziierte TF-Kandidaten annotiert. Die Datenbank zeigt die TF-Treffer, die am besten mit dem Zielkonsens-PWM übereinstimmen, zusätzlich zum Sequenzlogo und P Wert des Spiels. Eine Konsensus-PWM wurde als repräsentativ für eine bekannte humane TF-Bindungsstelle angesehen, wenn die P Wert der Übereinstimmung zwischen der Konsensus-PWM und einer bekannten menschlichen TF-assoziierten PWM betrug weniger als 10 –6 . Auf diese Weise wurden Informationen über alle TFs gesammelt, die wahrscheinlich ein bestimmtes Krankheitsgenset regulieren. Konsens-PWMs ohne Übereinstimmung wurden als neuartige, mutmaßliche TF-Bindungsstellenmodelle angesehen.

Für jede Krankheitsgruppe wurden funktionelle Anreicherungsanalysen an den beteiligten Genen und den assoziierten humanen TFs durchgeführt, die in unserer Analyse entdeckt wurden, um die Zielgensätze funktionell zu annotieren. Insbesondere identifizierten wir GO-Begriffe, Signalwege, Proteindomänen und -funktionen sowie Mikro-RNAs, die unsere Zielgensätze in statistisch signifikanter Weise bereicherten. Um diese Analyse durchzuführen, haben wir das Tool Babelomics (Centro de Investigación Príncipe Felipe, Valencia, Spanien) (17) mit integrierten Datenbanken wie KEGG (18), Reactome (19) und BioCarta für Pfadinformationen InterPro (20) für Proteindomänen und Funktionsinformationen miRBase (21) für Mikro-RNA-Informationen und GO (22) und GOSlim (22) für Genontologie-Informationen.

Die Ergebnisse unserer Analyse sind in Abbildung 2 (sehen Online-Beilage 2 für weitere Details). Wir entdeckten eine Reihe von mutmaßlichen TFBSs/TFs, die mit verschiedenen Zielkrankheitsgruppen assoziiert sind. Wir entdeckten viele signifikante und einzigartige mutmaßliche TFBS-Motivmodelle, die mit verschiedenen Krankheitsgruppen assoziierte Genpromotoren anreicherten, darunter 106 für allergische Rhinitis, 306 für Asthma, 19 für Bronchiektasen, 98 für Bronchiolitis, 26 für Bronchitis, 67 für COPD, 56 für Mukoviszidose, 116 für Ekzeme, 55 für Emphysem, 177 für Psoriasis und 80 für Urtikaria (Abbildung 2 Online Supplement 2). Davon wurden 35 mit 65 bekannten TFs für allergische Rhinitis kartiert, 142 mit 164 bekannten TFs für Asthma kartiert, 9 kartierte mit 20 bekannten TFs für Bronchiektasen, 35 kartierte mit 45 bekannten TFs für Bronchiolitis, 6 kartierte mit 7 bekannten TFs für Bronchitis, 23 kartierte mit 33 bekannten TFs für COPD, 14 kartierte mit 41 bekannten TFs für Mukoviszidose, 59 kartierte mit 100 bekannten TFs für Ekzeme, 21 kartierte mit 45 bekannten TFs für Emphysem, 90 kartierte mit 115 bekannten TFs für Psoriasis und 23 kartierte mit 40 bekannte TFs für Urtikaria. Um die Neuheit der in unserer Analyse entdeckten krankheitsassoziierten TFs zu validieren, haben wir die Asthmagruppe als Illustrationsfallstudie verwendet und die Ergebnisse mit Beweisen in der PubMed-Literatur überprüft.

Abbildung 2. Zusammenfassung der Informationen in der Datenbank. Für einige Kategorien lagen nicht für alle Krankheiten relevante Informationen vor. (EIN) Die Anzahl der krankheitsassoziierten Gene, die für jede interessierende Krankheitsgruppe bekannt sind. (Bm) Die Anzahl relevanter TFBS-Motive, kartierter TFs und anderer Annotationen, die für jede Krankheitsgengruppe identifiziert wurden.

Bei der manuellen Validierung von mutmaßlichen TFs, die unsere Methode für Asthma-assoziierte Gene identifizierte, fanden wir in der PubMed-Literatur vorherige Hinweise auf eine Assoziation zwischen 69 von 164 mutmaßlichen TFs für die Assoziation mit Asthma beim Menschen (Online Supplement 3). Der Transkriptionsfaktor IRF1, der auch unter den Variantennamen IRF-1 und MAR bekannt ist, hatte beispielsweise eines der am stärksten angereicherten Bindungsmotive in den Promotoren von Asthma-assoziierten Genen. Um nach Beweisen zu suchen, die IRF1 direkt mit Asthma beim Menschen in Verbindung bringen, durchsuchten wir die PubMed-Datenbank mit der Abfragezeichenfolge „Asthma AND human AND (IRF1 OR IRF-1 OR MAR)“ und fanden einen Link in einem PubMed-Dokument, das von Matsuzaki und Kollegen veröffentlicht wurde 2010 (23). Diese Studie beschreibt die Rolle von IRF1 als TF, das die Expression von Asthma-implizierten Genen reguliert CCL5, was auf das Vorhandensein einer funktionellen IRF1-Bindungsstelle im Promotor des CCL5 Gen (23), wie in unserer Analyse gefunden.

Ein anderer TF, dessen Bindungsmotiv in der Asthma-Promotorgruppe ziemlich angereichert war, war TBX22. Dieser TF ist auch unter anderen Namen bekannt, darunter CLPA, CPX, TBXX und dJ795G23.1. Wir fanden in PubMed keine Hinweise auf einen Zusammenhang zwischen TBX22 und Asthma beim Menschen, was darauf hindeutet, dass dies ein potenzieller neuer Zusammenhang sein könnte. Ein weiterer hochrangiger TF, der möglicherweise mit Asthma-assoziierten Genen assoziiert ist, aber in PubMed keine Hinweise auf eine Assoziation gab, war der Interferon-Regulationsfaktor 8 (IRF8). Obwohl IRF8 nicht direkt mit Asthma in Verbindung gebracht wurde, wurde kürzlich gezeigt, dass IRF8 als transkriptioneller Inhibitor der Th17-Zelldifferenzierung fungiert (24), die eine wichtige Rolle bei Asthma-assoziierten Atemwegsentzündungen spielt (25). Das Herstellen solcher potentieller Verbindungen ermöglicht die Generierung neuer Hypothesen, die experimentell getestet werden können. Insgesamt fanden wir in PubMed keine früheren Hinweise auf eine Assoziation mit menschlichem Asthma für 95 TFs. Es wurde jedoch festgestellt, dass diese 95 TFs potenzielle Verbindungen mit menschlichem Asthma aufweisen (Online-Ergänzung 3). Wir glauben, dass diese neuen Erkenntnisse einen wichtigen Ausgangspunkt für zukünftige Untersuchungen mit diesen TFs als interessante Kandidaten für weitere Explorationen darstellen.

Zusätzlich zur direkten Verknüpfung identifizierter TFs mit Krankheiten ermöglicht unsere Datenbank die Verknüpfung identifizierter TFs mit Krankheiten unter Verwendung von Signalweginformationen. Hier präsentieren wir ein Beispiel, um zu zeigen, wie wir Wege aufklären können, um TFs, die in einer Krankheitsgruppe identifiziert wurden, mit der Krankheit zu verbinden. Auch wenn TFs manchmal Hinweise auf eine direkte Assoziation mit der Zielkrankheit aufweisen können, bleiben die Informationen über ihre Signalwegmechanismen im Allgemeinen unklar. Zum Beispiel haben wir zuvor die Identifizierung von TBX22 im Zusammenhang mit Asthma erwähnt, aber in PubMed gab es keinen Beweis für diesen Zusammenhang. Wir können die Verbindung dieser beiden Entitäten mithilfe von Pfadinformationen untersuchen. Zu diesem Zweck verwenden wir hiPathDB, eine Pfaddatenbank, die mehrere verschiedene Quellen mit meist unvollständigen Pfadinformationen wie KEGG, BioCarta und andere integriert (26). Unter Verwendung des Abschnitts Meta-Analyse unseres Servers (unten beschrieben) und der Auswahl der Transkriptionsfaktor-Annotationskategorie für Asthma sammeln wir Gen-IDs für den Transkriptionsfaktor TBX22 und 57 Gene, die möglicherweise von ihm kontrolliert werden, da sie seine Bindungsstelle in ihren Promotorregionen enthalten. Wir stellen fest, dass hiPathDB nach Einreichung der Gen-ID für TBX22 keinen Hinweis auf eine direkte Assoziation zwischen TBX22 und irgendeinem Signalweg zeigt. Nachdem wir jedoch die Gruppe von 57 Genen, die potenziell von TBX22 kontrolliert werden, an hiPathDB übermittelt hatten, fanden wir mit diesen Genen verbundene Signalweginformationen. Als Beispiel zeigt Abbildung 3 die wichtigsten KEGG-Pfade (jeweils drei Signal- und Stoffwechselwege), die hiPathDB basierend auf der Anzahl der Interaktionen zeigt. Die meisten dieser Wege wurden zuvor mit Asthma in Verbindung gebracht. Auf diese Weise können wir die Existenz einer Verbindung zwischen TBX22 und Asthma durch spezifische Regulationsmechanismen vermuten. Ähnliche Beobachtungen werden für IRF1 und Asthma gefunden. Es gab keine Beweise für ihre Assoziation in PubMed, aber IRF1 hatte einige direkt verwandte Pfadeinträge in hiPathDB, obwohl keine aus der KEGG-Datenbank. Ähnliche Verfahren können von Benutzern unserer Datenbank befolgt werden, um Hypothesen zu erhellen, die TF-Krankheitsmechanismen verbinden.

Abbildung 3. Beispiel für die Verwendung von Signalweginformationen, um TFs mit Krankheitsmechanismen zu verknüpfen.

Für jede Krankheitsgengruppe identifizierten wir neben kontextuellen Merkmalen des Promotors wie CpG-Inseln, Mikrosatelliten, SNPs und Histonmodifikationsstellen eine Reihe weiterer funktioneller Annotationen, wie angereicherte GO-Terme, Mikro-RNAs und biologische Signalwege ( Figur 2 ).

Die Ergebnisse unserer Analysen werden in einer öffentlich zugänglichen Datenbank präsentiert. Entsprechende Funktionen wurden bereitgestellt, um es Benutzern zu ermöglichen, die Ergebnisse abzufragen und anzuzeigen. Insbesondere werden dem Benutzer die folgenden Ansichten zur einfachen Navigation und Untersuchung der Ergebnisse bereitgestellt.

Signifikante Motivmodelle und kartierte TFs werden für jede krankheitsassoziierte Gengruppe angezeigt. Durch Auswählen von interessierenden Motivmodellen können Benutzer Promotormodelle mit Signaturen der ausgewählten Motivmodelle im Kontext anderer bekannter genomischer Anmerkungen, wie Histon-Modifikationsstellen, Mikrosatelliten, CpG-Inseln und SNPs, grafisch anzeigen. Die gezeigten Motivsignaturen repräsentieren mutmaßliche TFBSs. Links zu Literaturnachweisen in PubMed werden für die Benutzervalidierung des Zusammenhangs zwischen einem Krankheitsgruppengen und entdeckten TFs bereitgestellt.

Gezeigt werden Paare von Motivsignaturen und alle kartierten TFs, die in den Promotoren einer gegebenen Krankheitsgruppe signifikant überrepräsentiert sind. Solche Paare können möglicherweise Funktionsmodule darstellen.

In dieser Ansicht werden Modelle für jeden Krankheitsgruppenpromotor mit mutmaßlichen TFBS-Motivsignaturen und bekannten genomischen Annotationen angezeigt.

Statistisch signifikante Funktionsbegriffe werden auf zwei Arten dargestellt: (1) Begriffe, die mit einem Gen der Zielkrankheitsgruppe oder einem darauf abgebildeten TF assoziiert sind und (2) Begriffe, die mit einem Ziel-Krankheitsgruppen-Gen und auch mit einem darauf abgebildeten TF assoziiert sind. Darüber hinaus wird über SNPs berichtet, die mit entdeckten Motiven überlappen.

Es werden Abfragefunktionen bereitgestellt, die es Benutzern ermöglichen, Metaanalysen zu verschiedenen Krankheitsgruppen durchzuführen. Benutzer können beispielsweise Gene, TFs, GO-Begriffe, Signalwege, SNPs oder Mikro-RNAs erforschen, bei denen eine ausgewählte Gruppe von Krankheiten konvergiert oder divergiert.

Mit einem computergestützten Ansatz zur Charakterisierung von Promotoren von Genen, die mit 11 häufigen Atemwegserkrankungen und verwandten Erkrankungen assoziiert sind, entdeckten wir mehrere bekannte sowie neue TFs/TFBSs, die mit den Zielkrankheitsgenen assoziiert sind. In der resultierenden Datenbank werden direkte Links zu PubMed bereitgestellt, um vorhergesagte TFs/TFBSs zu validieren, die sich aus der computergestützten Modellierung mit vorhandener evidenzbasierter Literatur ergeben. Ist die Validierung eines TF/TFBS ​​nach dem derzeitigen, noch relativ rudimentären Verständnis nicht möglich, können diese Erkenntnisse zur Hypothesengenerierung genutzt und mit experimentellen Ansätzen weiter erforscht werden. Bei der manuellen Validierung von mutmaßlichen TFs, die für Asthma-assoziierte Gene entdeckt wurden, fanden wir beispielsweise in der PubMed-Literatur vorherige Hinweise auf einen Zusammenhang zwischen 90 von 164 mutmaßlichen TFs. Für die verbleibenden 74 TFs fanden wir keine vorherigen Hinweise auf eine Assoziation (Online Supplement 3).

Die Aufklärung von cis-wirkenden, promotorbasierten, transkriptionalen regulatorischen Elementen ist durch die Anwendung experimenteller und computergestützter Ansätze möglich. In der Vergangenheit umfassten experimentelle Ansätze Techniken wie den elektrophoretischen Mobilitäts-Shift-Assay (27), Chromatin-Immunpräzipitation (ChIP) (28), ChIP-Chip (29), ChIP-seq (30) und den Reportergen-Assay, der weit verbreitet ist um Promotor-TFBSs aufzuklären (31). Obwohl robuste Protokolle für die experimentelle Identifizierung von TFBSs verfügbar sind, sind Experimente technisch anspruchsvoll, ressourcenintensiv und zeitaufwendig und werden unpraktisch, wenn mehrere Elemente gleichzeitig auf mehrere Gene getestet werden müssen. Einige Technologien, darunter aktuelle Hochdurchsatzansätze wie ChIP-seq (30, 32), können genomweite Promotorregionen gleichzeitig testen, haben sich aber als besonders „rauschanfällig“ erwiesen. Solche Verfahren sind aufgrund des Bedarfs an relevanten TF-spezifischen Antikörpern zum Nachweis, deren Verfügbarkeit ebenfalls begrenzt ist, auf wenige TF-Typen beschränkt. Darüber hinaus sind solche Techniken nicht ohne weiteres auf andere Zelltypen und potentielle Umgebungsbedingungen übertragbar. Aufgrund dieser technischen Einschränkungen und der großen Sequenzbereiche, die bei der Suche nach TFBS-Signalen im Genom gescannt werden müssen, bieten Computeransätze, die die Identifizierung sequenzieller Muster oder Motive erleichtern, unschätzbare, kosteneffiziente und komplementäre Techniken zum Nachweis.

Mehrere Aspekte dieser Studie sind neu. Dies ist die erste Studie, die die regulatorische Landschaft der Transkription in einer umfassenden Sammlung von RRDaGs durch Aufklärung von Promotormodellen cis-regulatorischer Signaturen entwirrt. Wir entdeckten mehrere neue mutmaßliche TF/TFBS-Promotormotiv-Signaturen in diesen Genen, die ausgezeichnete Kandidaten für weitere experimentelle Untersuchungen sein könnten. Darüber hinaus haben wir RRDaG-TFs/TFBSs mit funktionellen Annotationen wie GO-Begriffen, Signalwegen, SNPs und Mikro-RNAs verknüpft, die wichtig sein könnten, um molekulare Mechanismen bei diesen Krankheiten zu verstehen, aufzuklären und zu hypothetisieren.

Die meisten entdeckten genomweiten, krankheitsassoziierten SNPs sind auf nichtkodierende Regionen des Genoms abgebildet (33), die TFBS-Loci umfassen können. Ein funktioneller SNP, der innerhalb eines TFBS auftritt, kann die Bindungsaffinität zwischen dem TFBS und seinem spezifischen TF verringern, was das Expressionsverhalten des Zielgens nachteilig beeinflusst und die Pathogenese beeinflusst. In der vorliegenden Studie haben wir viele SNPs kartiert, die sich physisch mit Regionen von agnostisch vorhergesagten TFBS-Motiven in RRDaG-Promotoren überlappen. Dies kann für die Untersuchung von regulatorischen SNP-Effekten nützlich sein, die andere Konzepte beinhalten, wie z. B. Wege und biologische Funktionen (d. h. GO-Begriffe).

Wir haben eine frei zugängliche Online-Datenbank speziell für RRDaGs zusammengestellt und die durch unsere Analyse entdeckten regulatorischen Merkmale in Bezug auf andere verwandte genomische Annotationen abgebildet. Die Datenbank ermöglicht benutzergenerierte Abfragen, und die Ausgabe kann auf fünf verschiedene Arten angezeigt werden. Die motivzentrierten, promotorzentrierten, gepaarten Motiv- und funktionellen Annotationsansichten bieten gute Ausgangspunkte für Forscher, die an einer bestimmten RRD interessiert sind, und die Metaanalyseansicht bietet einen Ausgangspunkt für Forscher, die daran interessiert sind, verschiedene RRDs zu vergleichen. In der motivzentrierten Ansicht werden signifikante mutmaßliche TFBS-Motivmodelle und kartierte TFs für jede krankheitsassoziierte Gengruppe angezeigt. Diese Ansicht kann besonders nützlich für Ermittler sein, die daran interessiert sind, ein bestimmtes regulatorisches Element oder sein Modell zu analysieren oder zu verwenden. Die promotorzentrierte Ansicht zeigt alle Anmerkungen für vom Benutzer ausgewählte Promotoren einer bestimmten Krankheitsgruppe an und bietet einen breiten Überblick über die regulatorischen Elemente, die mit den krankheitsspezifischen RRDaGs verbunden sind. Die Paar-Motiv-Ansicht zeigt Motivsignaturen und kartierte TFs, die paarweise von den Promotoren einer bestimmten Krankheitsgruppe überrepräsentiert sind und daher für die Pathogenese wichtig sein können. Darüber hinaus bietet die funktionale Annotationsansicht Einblicke in die Auswirkungen von regulatorischen Elementen oder assoziierten TFs auf die Funktion eines bestimmten interessierenden Gens und einen Ausgangspunkt für die experimentelle Validierung. Schließlich ist die Sicht der Metaanalyse wichtig, um Verbindungen zwischen verschiedenen Krankheitsgruppen herzustellen. In der Metaanalyseansicht können Benutzer untersuchen, wie Gene, TFs, GO-Terme, Signalwege, SNPs oder Mikro-RNAs zwischen ausgewählten Krankheiten konvergieren oder divergieren. Das Verständnis der Ähnlichkeiten und Unterschiede in den Regulationsmechanismen von Atemwegserkrankungen und verwandten Erkrankungen kann beispielsweise Einblicke in die Wirksamkeit einer bestimmten Behandlung bei diesem Spektrum verwandter Erkrankungen geben.

Die Liste der mutmaßlichen RRD-assoziierten TFs kann in Genexpressionsexperimenten verwendet werden, um zu validieren und zu bestätigen, welche dieser TFs unterschiedlich exprimiert werden und um zu bestimmen, welche dieser TFs eine funktionelle Einheit regulatorischer Programme bilden, die für ein bestimmtes Genexpressionsexperiment oder Gewebezustand spezifisch sind . Unsere Ergebnisse können auch bei der Planung von Protein-Protein-Interaktionsexperimenten im Zusammenhang mit bestimmten Atemwegserkrankungen verwendet werden. Darüber hinaus können die von uns entdeckten Promotor- und Motivmodelle verwendet werden, um nach Genen zu suchen, die eine ähnliche Promotorstruktur aufweisen und somit Potenzial zur Koregulation aufweisen (sehen Referenz 34 zum Beispiel). Insgesamt haben wir eine Ressource entwickelt, die unserer Meinung nach für die Durchführung von Atemwegsforschung nützlich sein wird, einschließlich der Verbesserung der Kapazitäten zur Wirkstoffforschung, der Signatur der zugrunde liegenden Mechanismen, die zu Krankheiten beitragen, und der Entwicklung von Diagnosewerkzeugen. Zukünftige Veröffentlichungen werden zusätzliche Atemwegs- und verwandte Erkrankungen umfassen.

Die Autoren danken Rachel V. Stankowski für das Korrekturlesen des Manuskripts und für ihre Vorschläge Volker Matys, Chaim Linhart, Carole Ober und Robert F. Lemanske, Jr. für ihre Vorschläge Ryan Frahm für die Serverunterstützung den Autoren der Software und Ressourcen, die in diesem Dokument verwendet wurden Analyse und anonymen Gutachtern unseres Manuskripts für ihre hilfreichen Kommentare.


Schau das Video: TOP 5 NEJHORŠÍ POČÍTAČOVÉ VIRY NA SVĚTĚ (September 2022).


Bemerkungen:

  1. Harding

    Sie irren sich nicht, alles wahr

  2. Fesho

    Bravo, Ihre nützliche Idee

  3. Delroy

    Gut gemacht, dieser hervorragende Satz ist genau richtig

  4. Tayler

    wunderbar, sehr wertvoller Gedanke

  5. Duer

    Alles ist nicht so einfach

  6. Willimod

    Neugierig, aber es ist nicht klar



Eine Nachricht schreiben