Information

14: Repetitive DNA – Ein eukaryotisches Genomphänomen – Biologie

14: Repetitive DNA – Ein eukaryotisches Genomphänomen – Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

  • 14.1: Einführung
    Aufgrund ihrer geringen Größe haben bakterielle Genome wenige sich wiederholende DNA-Sequenzen. Im Gegensatz dazu machen repetitive DNA-Sequenzen einen großen Teil eines eukaryotischen Genoms aus. Ein Großteil dieser wiederholten DNA besteht aus identischen oder nahezu identischen Sequenzen unterschiedlicher Länge, die sich viele Male in einem Genom wiederholen. Beispiele umfassen Satelliten-DNA (Minisatelliten- und Mikrosatelliten-DNA) und Transposons oder transponierbare Elemente. Hier betrachten wir Experimente, die zuerst die Existenz und den Anteil wiederholter DNA aufgedeckt haben
  • 14.2: Die Komplexität der genomischen DNA
    In den 1960er Jahren, als Roy Britten und Eric Davidson die eukaryotische Genregulation untersuchten, wussten sie, dass es mehr als genug DNA gibt, um die Gene zu erklären, die zum Kodieren eines Organismus benötigt werden. Es war auch wahrscheinlich, dass die DNA strukturell komplexer war als ursprünglich angenommen. Sie wussten, dass die Dichtegradientenzentrifugation von Cäsiumchlorid (CsCl) Moleküle aufgrund von Dichteunterschieden trennte und dass fragmentierte DNA sich in der Zentrifuge in eine Haupt- und eine Nebenbande unterschiedlicher Dichte auftrennen würde
  • 14.3: Die „springenden Gene“ von Mais
    Barbara McClintocks Bericht, dass DNA-Stücke herumspringen und sich in neue Loci in der DNA integrieren könnten, war so dramatisch und geheimnisvoll, dass viele dachten, das Phänomen sei entweder ein Einzelfall oder nicht real! Erst mit der anschließenden Entdeckung von Transposons in Bakterien (und anderen Eukaryoten) wurden McClintocks springende Gene endlich als das erkannt, was sie waren!
  • 14.4: Transposons seit McClintock
    Transposons existieren überall, wo wir in Prokaryoten suchen, und machen einen Großteil der eukaryotischen repetitiven DNA aus. Als solche können sie einen großen Teil der eukaryontischen Genome darstellen, einschließlich einiger, die sich nicht einmal mehr transponieren. Transposons galten früher als nutzlos oder als Junk-DNA ohne offensichtliche Funktion ... oder als egoistische Gene mit keinem anderen Zweck als der Selbstreplikation. Aber angesichts einiger neuer Beweise vielleicht nicht!
  • 14.5: Zur Evolution von Transposons, Genen und Genomen
    Wir stellten fest, dass Transposons in Bakterien Antibiotikaresistenzgene tragen, ein klares Beispiel für die Vorteile der Transposition in Prokaryonten. Natürlich sind prokaryontische Genome klein, ebenso wie die typische bakterielle Transposon-Last. Hefearten weisen auch eine geringe Transposon-Last auf. Aber was können wir von der hohen Transposon-Last in Eukaryoten halten?
  • 14.6: Rollen der Umsetzung in Evolution und Vielfalt
    Eine Rolle für ungleiche Rekombination beim Bewegen von Exons in und aus verschiedenen eukaryotischen Split-Genen wurde früher beschrieben. Diese Art von Exon-Shuffling könnte auftreten, wenn kurze DNA-Sequenzen in zwei verschiedenen Introns während der meiotischen Synapse falsch ausgerichtet sind, was ein ungleiches Crossing-Over ermöglicht. Die Expression eines Gens mit einem „neuen“ Exon erzeugt ein Protein mit einer neuen Domäne und einer neuen Aktivität. Wenn die Veranstaltung nicht schädlich ist, wird die Vielfalt erhöht!
  • 14.7: Umgang mit den Gefahren zügelloser Transposition
    Die meisten Organismen haben nicht die hohe Transposon-Last, die wir haben. Für diejenigen wie uns und angesichts der allgemeinen Tendenz von Transposons, sich zufällig in neue DNA-Loci einzufügen, wie kommt es, dass wir überhaupt existieren? Wird die Gefahr der Transposition in essentielle Gensequenzen nicht durch die Möglichkeit mehrerer gleichzeitiger Transpositionen von Elementen, die durch Cut-and-Paste- und insbesondere Replikationsmechanismen erzeugt werden, vergrößert? Tatsächlich wurden Transposons in Genen gefunden, die infolgedessen inaktiv sind.
  • 14.8: Schlüsselwörter und Begriffe

Thumbnail: Maiskörner (Hopi Blue) mit durch Transposons modifizierter Pigmentierung. (CC BY-SA 3.0 Unported; Abrahami und modifiziert von über Wikipedia)


Transkriptions- und Triplett-Wiederholungsinstabilität

I. EINLEITUNG

Kurze repetitive DNA-Sequenzen – als Mikrosatelliten- und Minisatelliten-Wiederholungen bezeichnet – sind in allen Genomen instabil, aber an mehreren Loci im menschlichen Genom ist Wiederholungsinstabilität mit Krankheit assoziiert [1–4]. Erweiterungen von CAG·CTG-Trinukleotid-(Triplett-)Wiederholungen sind die Ursache für mehrere neurologische Erkrankungen des Menschen, einschließlich myotoner Dystrophie, Huntington-Krankheit und einer Reihe von spinozerebellären Ataxien [ 5 , 6 ]. Diese Erkrankungen sind gekennzeichnet durch die Ausdehnung einer Triplett-Wiederholung über einen Schwellenwert von etwa 25–35 Wiederholungen auf eine Länge mit pathologischen Folgen [ 1 , 6 ].

Die Vererbung von Krankheiten mit Wiederholungssequenzen zeigt typischerweise eine fortschreitende Verschlechterung des Krankheitsphänotyps in nachfolgenden Generationen, wenn sich der Wiederholungstrakt weiter ausdehnt, was auf eine kritische Phase der Instabilität in der Keimbahn hinweist. Es ist die Neigung sich wiederholender Sequenzen, sich in der Keimbahn auszudehnen, die das bestimmende Merkmal dieser Gruppe von Krankheiten ist. Das somatische Gewebe betroffener Personen weist jedoch auch ein charakteristisches Muster wiederholter Instabilität auf, beispielsweise sind CAG-Wiederholungen bei der Huntington-Krankheit typischerweise im Striatum sehr instabil, in Leber und Niere mäßig instabil und in Herz und Muskel stabil [ 7 ]. Die Komplexität der gewebespezifischen Muster wiederholter Instabilität – von der Keimbahn bis hin zu verschiedenen somatischen Geweben – stellt eine Herausforderung für das Verständnis der zugrunde liegenden Mechanismen dar. Warum variiert die wiederholte Instabilität von Gewebe zu Gewebe? Entstehen diese Instabilitätsmuster durch die Modulation eines fundamentalen Mechanismus oder wirken unterschiedliche Mechanismen in verschiedenen Geweben? Werden die gleichen Wiederholungstypen an verschiedenen Stellen im Genom durch den gleichen oder durch unterschiedliche Mechanismen destabilisiert?

Die Grundlage für die wiederholte Instabilität beim Menschen wurde anhand von Modellsystemen untersucht, darunter Escherichia coli, Hefe, Säugetierzellen und Mäuse. In Bakterien und Hefen destabilisiert praktisch jeder Prozess, der DNA-Einzelstränge freilegt, Triplett-Wiederholungen, einschließlich DNA-Replikation, homologe Rekombination, DNA-Reparatur und Transkription, wobei Replikation und Rekombination die dramatischsten Auswirkungen zeigen [ 1 , 4 ]. Es wird angenommen, dass die Exposition von einzelsträngiger DNA es CAG·CTG-Wiederholungen ermöglicht, Haarnadeln und DNA-Doppelstränge zu bilden, wie sie es tun in vitro [ 1 , 3 , 4 , 8 , 9 ]. Diese Sekundärstrukturen stören normale DNA-Stoffwechselprozesse oder lösen anomale Prozesse aus, was letztendlich zu Veränderungen der Länge des Repeat-Trakts führt. Daher entsteht die Triplett-Repeat-Instabilität wahrscheinlich über einen Weg, bei dem ein normaler DNA-Stoffwechselprozess Einzelstränge freilegt, die es ihnen ermöglichen, eine Sekundärstruktur zu bilden, die wiederum einen normalen oder aberranten DNA-Reparaturprozess ins Spiel bringt, der die Veränderung des Repeat-Trakts bewirkt Länge.

Studien an Bakterien und Hefe haben kritische Einblicke in die potenziellen Wege geliefert, die zu wiederholter Instabilität führen, aber sie identifizieren nicht die Wege, die für die Instabilität beim Menschen verantwortlich sind. Beispielsweise erklären die in Bakterien und Hefen als am wichtigsten identifizierten Prozesse – DNA-Replikation und homologe Rekombination – bestimmte Schlüsselbeobachtungen in Säugerzellen und Mäusen nicht, die wohl die relevantesten Modelle für die beobachtete mitotische Instabilität von Wiederholungen liefern in der menschlichen Keimbahn und im Körpergewebe. Die am schwierigsten zu berücksichtigende Beobachtung in replikationsbasierten Modellen ist die anhaltende Instabilität, die im Laufe der Zeit in sich langsam teilenden Zellen (z. B. in der Leber) und sich nicht teilenden Zellen wie den Neuronen im Striatum auftritt [ 10–13]. Zudem korreliert der Grad der Instabilität nicht mit gewebespezifischen Zellproliferationsraten [ 14–16]. Darüber hinaus wurde über Instabilität während des Meiosestillstands in der weiblichen Keimbahn [ 17 ] und in nicht proliferierenden Spermienvorläufern [ 18 , 19 ] berichtet. Studien an Mäusen legen auch bestenfalls eine untergeordnete Rolle für die homologe Rekombination nahe, da die Wiederholungsstabilität bei Mäusen, denen die Rekombinationsproteine ​​RAD52 und RAD54 fehlen, nicht beeinflusst wurde [ 20 ]. Außerdem muss die anhaltende Instabilität in terminal differenzierten Neuronen [ 10–13 , 21 ] in Abwesenheit eines Schwesterchromatids auftreten, der bei weitem bevorzugten Partner für die homologe Rekombination in Säugerzellen [ 22 ]. Somit sind Replikation und Rekombination unwahrscheinliche Quellen für die Instabilität, die in somatischen Zellen beobachtet wird, insbesondere in G1/G0-arrestierten Neuronen.

Diese Überlegungen legen nahe, dass andere Wege – zusätzlich oder anstelle von Replikation und Rekombination – wahrscheinlich zur Instabilität der Triplett-Wiederholung in bestimmten Geweben beitragen. In diesem Kapitel wird die Möglichkeit untersucht, dass die Transkription durch eine Triplett-Wiederholung Instabilität auslöst. Die Auswirkungen der Transkription wurden in Bakterien untersucht [ 23–27 ], aber der Weg, der von der Transkription zur Wiederholungslängenänderung führt, ist noch nicht definiert. Die meisten Ergebnisse bei Bakterien wurden im Hinblick auf ein Wechselspiel zwischen Transkription und Replikation interpretiert [ 23–26 ], was zum Beispiel unwahrscheinlich auf die Instabilität von sich nicht teilenden Neuronen zutrifft. Ein transkriptionsinduzierter, replikationsunabhängiger Weg wurde vorgeschlagen [ 26 ] und eine modifizierte Version dieses Weges ist in 44-1 gezeigt. Die Transkription löst wahrscheinlich Wiederholungsinstabilität aus, indem einzelsträngige DNA freigelegt wird, während sich die RNA-Polymerase durch die Wiederholungen bewegt, wodurch die Wiederholungen Haarnadeln und Slipped-Strang-Strukturen bilden können [1, 4, 8, 9]. Diese abweichenden Strukturen könnten während der Transkription oder in einem Prozess, der physikalisch nicht mit der Transkription verbunden ist, DNA-Reparaturprozesse in Gang setzen, um mit Strukturen umzugehen, die nach einer vorbeiziehenden Polymerase zurückgeblieben sind. Es sind die Reparaturprozesse selbst, die Veränderungen in der Länge des Wiederholungstraktes bewirken würden.

ABBILDUNG 44-1 . Pathway für transkriptionsinduzierte Triplet-Repeat-Instabilität. Die Passage der RNA-Polymerase trennt die Stränge des Duplexes, was die Bildung einer Sekundärstruktur in dem nicht transkribierten Strang ermöglicht. Ist die Struktur beim Wiederanlagern der beiden Stränge vorhanden, kann sich eine Slipped-Strand-Struktur wie die hier gezeigte ausbilden. Obwohl in jedem Strang äquivalente Strukturen gezeigt werden, bilden CTG und CAG keine Haarnadeln mit gleicher Leichtigkeit und daher haben die beiden Stränge möglicherweise nicht dieselbe Struktur. DNA-Reparaturprozesse wie MMR und NER werden vorgeschlagen, um die Haarnadeln zu erkennen und die Reparatur einzuleiten. Das Entfernen der Schlaufen würde zu einer Kontraktion führen. Die Spaltung der Stränge gegenüber den Schleifen, gekoppelt mit der DNA-Reparatursynthese unter Verwendung der Schleifen als Matrizen, würde Expansionen verursachen.

Zwei DNA-Reparaturprozesse – Nukleotidexzisionsreparatur (NER) und Mismatch-Reparatur (MMR) oder Komponenten davon – sind logische Kandidaten, um an einem transkriptionsinduzierten Weg der Wiederholungsinstabilität teilzunehmen. NER hat eine wohldefinierte Verbindung zur Transkription über einen Subpathway, der als Transkriptionsgekoppelte Reparatur (TC-NER) bekannt ist [ 28 , 29 ]. Darüber hinaus wird die Stabilität von Triplett-Repeats in Bakterienstämmen mit Mutationen in NER [ 25 , 30 ] sowie in menschlichen Zellen durch den Abbau von NER-Komponenten mit siRNA signifikant verändert (Lin et al.). MMR wurde in einigen Berichten mit TC-NER in Bakterien [ 31 ] und in menschlichen Zellen [ 32–34 ] in Verbindung gebracht. Darüber hinaus wurde gezeigt, dass Msh2 mit Komponenten von NER in Hefe interagiert [ 35 ] und an CAG·CTG-Slipped-Strang-Strukturen bindet [ 36 ], und MMR wurde mit Triplett-Repeat-Instabilität in Bakterien in Verbindung gebracht [ 27 , 37–39 ] , Hefe [ 40 , 41 ], menschliche Zellen (Lin et al.) und Mäuse [ 10 , 18 , 20 , 42–48 ].

Dieses Kapitel untersucht die Grundlage für die Annahme, dass ein transkriptionsvermittelter Signalweg zu der beim Menschen beobachteten CAG·CTG-Triplett-Wiederholungsinstabilität beitragen könnte. Das Kapitel überprüft vorhandene Daten zur transkriptionsinduzierten Instabilität und präsentiert neue Daten, die zeigen, dass Elemente des in Abb. 44-1 skizzierten Signalwegs in menschlichen Zellen funktionieren.


14: Repetitive DNA – Ein eukaryotisches Genomphänomen – Biologie

DIE ORGANISATION UND KONTROLLE EUKARYOTISCHER GENOME

Die Genexpression in Eukaryoten weist zwei Hauptunterschiede gegenüber dem gleichen Prozess in Prokaryoten auf.

Das typische vielzellige eukaryontische Genom ist viel größer als das eines Bakteriums.
Die Zellspezialisierung beschränkt die Expression vieler Gene auf bestimmte Zellen.
Die geschätzten 35.000 Gene im menschlichen Genom enthalten eine enorme Menge an DNA, die nicht die Synthese von RNA oder Protein programmiert.

Eukaryotische DNA wird präzise mit großen Mengen an Protein kombiniert.
Während der Interphase werden Chromatinfasern stark gedehnt.
Bei Verlängerung wäre jedes DNA-Molekül etwa 6 cm lang.

Erste Stufe - Histonproteine
Ihre positiv geladenen Aminosäuren binden fest an negativ geladene DNA.
Die fünf Histone-Typen sind von einem Eukaryoten zum anderen sehr ähnlich und kommen sogar in Bakterien vor.
Entfaltetes Chromatin hat das Aussehen von Perlen an einer Schnur, einem Nukleosom, in dem sich DNA um einen Kern aus Histonproteinen windet.
Die Perlenschnur scheint während des gesamten Zellzyklus im Wesentlichen intakt zu bleiben.
Histone verlassen die DNA nur vorübergehend während der DNA-Replikation.
Sie bleiben während der Transkription in der DNA.
Durch Änderung von Form und Position ermöglichen Nukleosomen, dass sich RNA-synthetisierende Polymerasen entlang der DNA bewegen.

Stufe zwei – Wenn die Chromosomen in die Mitose eintreten, wickelt sich die Perlenschnur zusammen, um die 30-nm-Chromatinfaser zu bilden.
Ebene drei – Diese Faser bildet Schleifendomänen, die an ein Gerüst aus Nicht-Histon-Proteinen gebunden sind.
Ebene vier – die Schleifendomänen wickeln und falten sich, um das charakteristische Metaphase-Chromosom zu erzeugen.
Interphase-Chromatin ist im Allgemeinen viel weniger kondensiert als das Chromatin der Mitose, wobei die 30-nm-Fasern und die Schleifendomänen intakt bleiben.
Das Chromatin jedes Chromosoms nimmt einen begrenzten Bereich innerhalb des Interphasekerns ein.
Interphase-Chromosomen haben Bereiche, die stark kondensiert bleiben, Heterochromatin, und weniger verdichtete Bereiche, Euchromatin.

Genomorganisation auf DNA-Ebene

Bei Eukaryoten kodiert der größte Teil der DNA (etwa 97% beim Menschen) nicht für Protein oder RNA.
1. nichtkodierende Regionen sind regulatorische Sequenzen.
2. Introns.
3. repetitive DNA, die in vielen Kopien im Genom vorhanden ist.
Bei Säugetieren besteht etwa 10 -15% des Genoms aus tandemartig repetitiver DNA oder Satelliten-DNA.
Diese unterscheiden sich in ihrer Dichte von anderen Regionen, so dass sie nach der differentiellen Ultrazentrifugation eine separate Bande bilden.
Es gibt drei Arten von Satelliten-DNA, die sich durch die Gesamtlänge der DNA an jedem Standort unterscheiden. Tabelle 19.1.
Einige genetische Störungen werden durch ungewöhnlich lange Abschnitte von tandemartig wiederholten Nukleotidtripletts innerhalb des betroffenen Gens verursacht.
Das Fragile-X-Syndrom wird durch Hunderte bis Tausende von Wiederholungen von CGG im fragilen X-Gen verursacht.
Die Huntington-Krankheit tritt aufgrund von Wiederholungen von CAG auf, die in ein Protein mit einer langen Reihe von Glutaminen übersetzt werden.
Die Schwere der Erkrankung und das Erkrankungsalter sind mit der Anzahl der Wiederholungen korreliert.
Ungefähr 25-40% der meisten Säugetiergenome bestehen aus eingestreuter repetitiver DNA.
Erscheinen an mehreren Stellen im Genom.
Sind ähnlich, aber in der Regel nicht identisch.

Während die meisten Gene als einzelne Kopie pro haploidem Chromosomensatz vorliegen, existieren Multigenfamilien als Sammlung identischer oder sehr ähnlicher Gene.
Diese haben sich wahrscheinlich aus einem einzigen Vorfahren-Gen entwickelt.
Die Mitglieder von Multigenfamilien können im Genom geclustert oder dispergiert sein.
Identische Gene sind Multigenfamilien, die tandemartig geclustert sind. Abb. 19.2.
Bestehen in der Regel aus den Genen für RNA-Produkte oder denen für Histonproteine.
Die drei größten rRNA-Moleküle werden in einer einzigen Transkriptionseinheit kodiert, die hundert- bis tausendmal hintereinander wiederholt wird.
Dieses Transkript wird gespalten, um drei rRNA-Moleküle zu ergeben, die sich mit Proteinen und einer anderen Art von rRNA verbinden, um ribosomale Untereinheiten zu bilden.
Nicht identische Gene
Zwei verwandte Familien von Globin-Genen, a (alpha) und ß (beta), des Hämoglobins, die sich auf verschiedenen Chromosomen befinden. Abb. 19.3.
Die verschiedenen Versionen jeder Globin-Untereinheit werden zu unterschiedlichen Zeitpunkten in der Entwicklung exprimiert.
Innerhalb beider Familien gibt es Sequenzen, die während des embryonalen, fötalen und/oder adulten Entwicklungsstadiums exprimiert werden.
Die embryonalen und fötalen Hämoglobine haben eine höhere Affinität zu Sauerstoff als erwachsene Formen, wodurch der Sauerstofftransfer von der Mutter zum sich entwickelnden Fötus sichergestellt wird.
Die Unterschiede in den Genen entstehen durch Mutationen, die sich über Generationen in den Genkopien anhäufen.
Diese Mutationen können sogar zu genügend Veränderungen führen, um Pseudogene zu bilden, DNA-Abschnitte, die ähnliche Sequenzen wie echte Gene aufweisen, aber keine funktionellen Proteine ​​​​liefern.

Genamplifikation, -verlust oder -umlagerung

Die Nukleotidsequenz des Genoms eines Organismus kann im Laufe seines Lebens systematisch verändert werden.
Beeinflusst Gameten nicht
Ihre Wirkung ist auf bestimmte Zellen und Gewebe beschränkt.
Bei der Genamplifikation werden bestimmte Gene repliziert, um die Expression dieser Gene zu erhöhen.
Bei Amphibien haben die Gene für rRNA nicht nur ein normales Komplement von mehreren Kopien, sondern Millionen von zusätzlichen Kopien werden in einer sich entwickelnden Eizelle synthetisiert.
Dies unterstützt die Zelle bei der Produktion enormer Mengen an Ribosomen für die Proteinsynthese nach der Befruchtung.
In einigen Insektenzellen gehen ganze oder Teile von Chromosomen früh in der Entwicklung verloren.
Die Neuanordnung der Genorte in somatischen Zellen kann einen starken Einfluss auf die Genexpression haben.
Transposons sind Gene, die sich innerhalb des Genoms von einem Ort zum anderen bewegen können.
10 % des menschlichen Genoms sind Transposons.
Wenn man in eine kodierende Sequenz eines anderen Gens "springt", kann es die normale Genfunktion verhindern.
Wenn das Transposon in einen regulatorischen Bereich eingefügt wird, kann es die Transkription erhöhen oder verringern.
Die meisten Transposons sind Retrotransposons (Fig. 19.5), bei denen die transkribierte RNA den Code für ein Enzym enthält, das die Insertion des Retrotransposons katalysiert und ein Gen für die reverse Transkriptase enthalten kann.
Die reverse Transkriptase verwendet das ursprünglich aus dem Retrotransposon transkribierte RNA-Molekül als Vorlage, um eine doppelsträngige DNA-Kopie zu synthetisieren.
Dies kann das eukaryotische Genom mit mehreren Kopien seiner Sequenz bevölkern.
Während der Differenzierung des Immunsystems treten größere Umlagerungen von mindestens einem Satz von Genen auf.
B-Lymphozyten produzieren Immunglobine oder Antikörper, die spezifisch Viren, Bakterien und andere Eindringlinge erkennen und bekämpfen. Abb. 19.6.
Jede differenzierte Zelle produziert einen bestimmten Antikörpertyp, der einen bestimmten Eindringling angreift.
Funktionelle Antikörpergene werden aus physisch getrennten DNA-Regionen zusammengesetzt.
Jedes Immunglobin besteht aus vier Polypeptidketten, jede mit einer konstanten Region und einer variablen Region, die jedem Antikörper seine einzigartige Funktion verleihen.
Bei der Differenzierung eines B-Lymphozyten wird eines von mehreren hundert möglichen variablen Segmenten mit dem konstanten Abschnitt durch Deletion der dazwischenliegenden DNA verbunden.
Durch die zufällige Kombination verschiedener variabler und konstanter Regionen entsteht eine enorme Vielfalt unterschiedlicher Polypeptide, die sich mit anderen zu vollständigen Antikörpermolekülen verbinden.
Als Ergebnis kann das reife Immunsystem Millionen verschiedener Arten von Antikörpern aus Millionen von Subpopulationen von B-Lymphozyten herstellen.

Die Kontrolle der Genexpression

Jede Zelle exprimiert nur einen kleinen Bruchteil ihrer Gene
Werden als Reaktion auf Signale von ihrer internen und externen Umgebung kontinuierlich ein- und ausgeschaltet.
Die Genexpression muss während der zellulären Differenzierung langfristig kontrolliert werden.
Hochspezialisierte Zellen exprimieren nur einen winzigen Bruchteil ihrer Gene.
Probleme mit der Genexpression und -kontrolle können zu Ungleichgewichten und Krankheiten, einschließlich Krebs, führen.

Die Kontrolle der Genexpression kann bei jedem Schritt auf dem Weg vom Gen zum funktionellen Protein erfolgen. Abb. 19.7
Diese Kontrollebenen umfassen Chromatin-Packung, Transkription, RNA-Prozessierung, Translation und verschiedene Veränderungen des Proteinprodukts.

Modifikationen der Chromatin-Packung

Gene von dicht kondensiertem Heterochromatin werden normalerweise nicht exprimiert.

Chemische Modifikationen des Chromatins spielen eine Schlüsselrolle bei der Chromatinstruktur und der Transkriptionsregulation.
DNA-Methylierung
Inaktive DNA ist im Vergleich zu aktiv transkribierter DNA im Allgemeinen stark methyliert.
Zum Beispiel ist das inaktivierte X-Chromosom von Säugetieren bei Weibchen stark methyliert.
Methylierungsenzyme methylieren die Tochterstränge korrekt.
Dies erklärt das genomische Imprinting, bei dem die Methylierung entweder die mütterlichen oder die väterlichen Allele ausschaltet.
Histonacetylierung und Deacetylierung scheinen eine direkte Rolle bei der Regulation der Gentranskription zu spielen.
Acetylierte Histone greifen die DNA weniger fest, wodurch Transkriptionsproteine ​​in dieser Region leichter zugänglich sind.
Einige der Enzyme, die für die Acetylierung oder Deacetylierung verantwortlich sind, sind mit Transkriptionsfaktoren verbunden oder sind Bestandteile von Transkriptionsfaktoren, die an Promotoren binden.
DNA-Methylierung und Histon-Deacetylierung können zusammenwirken, um die Transkription zu unterdrücken.

Die Initiation der Transkription ist der wichtigste und am häufigsten verwendete Kontrollpunkt bei der Genexpression.

Kontrollelemente sind nichtkodierende DNA-Segmente, die die Transkription durch Bindung von Transkriptionsfaktoren regulieren. Abb. 19.8
Die eukaryotische RNA-Polymerase ist von Transkriptionsfaktoren abhängig, bevor die Transkription beginnt.
Ein Transkriptionsfaktor erkennt die TATA-Box.

Distale Kontrollelemente, Enhancer, können Tausende von Nukleotiden vom Promotor entfernt oder sogar stromabwärts des Gens oder innerhalb eines Introns sein. Abb. 19.9.
Das Biegen der DNA ermöglicht es Transkriptionsfaktoren, Aktivatoren, die an Enhancer gebunden sind, den Proteininitiationskomplex am Promotor zu kontaktieren.

Eukaryotische Gene haben auch Repressorproteine, die an DNA-Kontrollelemente binden, die Silencer genannt werden.
Die Repression kann hauptsächlich auf der Ebene der Chromatinmodifikation erfolgen.

Jedes Protein hat im Allgemeinen eine DNA-bindende Domäne, die an DNA bindet, und eine Protein-bindende Domäne, die andere Transkriptionsfaktoren erkennt.

Gene, die für die Enzyme eines Stoffwechselwegs kodieren, können über verschiedene Chromosomen verstreut sein.
Die koordinierte Genexpression hängt von der Assoziation eines spezifischen Kontrollelements oder einer Sammlung von Kontrollelementen mit jedem Gen einer verteilten Gruppe ab.
Eine gemeinsame Gruppe von Transkriptionsfaktoren bindet an sie und fördert die gleichzeitige Gentranskription.

Posttranskriptionelle Mechanismen
Die Genexpression kann durch jeden posttranskriptionellen Schritt blockiert oder stimuliert werden.

Beim alternativen RNA-Spleißen werden unterschiedliche mRNA-Moleküle aus demselben Primärtranskript hergestellt, je nachdem, welche RNA-Segmente als Exons und welche als Introns behandelt werden. Abb. 19.11. Film! Regulation des mRNA-Abbaus.
Prokaryotische mRNA-Moleküle können bereits nach wenigen Minuten abgebaut werden.
Eukaryotische mRNAs halten typischerweise über Stunden und können sogar Tage oder Wochen andauern.
Beispielsweise sind in roten Blutkörperchen die mRNAs für die Hämoglobin-Polypeptide ungewöhnlich stabil und werden in diesen Zellen wiederholt translatiert.
Ein üblicher Weg des mRNA-Abbaus beginnt mit der enzymatischen Verkürzung des Poly(A)-Schwanzes.
Dies löst die enzymatische Entfernung der 5'-Kappe aus.
Es folgt ein schneller Abbau der mRNA durch Nukleasen.

Kontrolle der Translation Die Translation spezifischer mRNAs kann durch regulatorische Proteine ​​blockiert werden, die an spezifische Sequenzen oder Strukturen innerhalb der 5'-Leader-Region der mRNA binden. Film!
Dies verhindert die Anheftung an Ribosomen.
Proteinfaktoren, die erforderlich sind, um die Translation in Eukaryoten zu initiieren, bieten Ziele für die gleichzeitige Kontrolle der Translation aller mRNA in einer Zelle.
Dadurch kann die Zelle die Übersetzung unterbrechen, wenn die Umgebungsbedingungen schlecht sind
Eukaryontische Polypeptide müssen oft prozessiert werden, um funktionelle Proteine ​​zu erhalten. Film!
Bei der Spaltung, chemischen Modifikationen und dem Transport zum entsprechenden Bestimmungsort kann eine Regulierung erfolgen.
Mukoviszidose zum Beispiel entsteht durch Mutationen in den Genen eines Chloridionenkanalproteins, das verhindert, dass es die Plasmamembran erreicht.
Das defekte Protein wird schnell abgebaut.
Die Zelle begrenzt die Lebensdauer normaler Proteine ​​durch selektiven Abbau.

Zum Abbau bestimmte Proteine ​​sind durch die Anlagerung von Ubiquitin-Proteinen gekennzeichnet. Abb. 19.12.
Riesige Proteosomen erkennen das Ubiquitin und bauen das markierte Protein ab.

Die Molekularbiologie des Krebses

Krebs ist eine Krankheit, bei der Zellen den Kontrollmethoden entkommen, die normalerweise das Zellwachstum und die Zellteilung regulieren.
Veränderungen können zufällige spontane Mutationen oder Umwelteinflüsse wie chemische Karzinogene oder physikalische Mutagene sein.
Krebserregende Gene, Onkogene, sind Produkte von Proto-Onkogenen, die für Proteine ​​kodieren, die das normale Zellwachstum und die normale Zellteilung stimulieren und wesentliche Funktionen in normalen Zellen haben. Abb. 19.13.
Ein Onkogen entsteht aus einer genetischen Veränderung, die zu einer Erhöhung des Proteins des Proto-Onkogens oder der Aktivität jedes Proteinmoleküls führt.
Diese genetischen Veränderungen umfassen DNA-Bewegungen innerhalb des Genoms, Amplifikation von Proto-Onkogenen und Punktmutationen im Gen.
Bösartige Zellen haben häufig Chromosomen, die gebrochen und falsch wieder zusammengefügt wurden.
Dies kann ein Fragment an eine Stelle in der Nähe eines aktiven Promotors oder eines anderen Steuerelements verlagern.
Die Amplifikation erhöht die Zahl der Genkopien.
Eine Punktmutation kann zur Translation eines Proteins führen, das aktiver oder langlebiger ist. Mutationen an Genen, deren normale Produkte die Zellteilung hemmen, Tumorsuppressorgene, tragen ebenfalls zu Krebs bei.
Einige Tumorsuppressorproteine ​​reparieren normalerweise beschädigte DNA.
Andere steuern die Adhäsion von Zellen aneinander oder an eine extrazelluläre Matrix, was für normales Gewebe entscheidend ist.
Wieder andere sind Bestandteile von Zellsignalwegen, die den Zellzyklus hemmen.

Onkogene Proteine ​​und fehlerhafte Tumorsuppressorproteine ​​stören normale Signalwege. Abb. 19.14.

Mutationen in den Produkten zweier Schlüsselgene, des ras-Proto-Onkogens und des p53-Tumorsuppressorgens, treten bei 30% bzw. 50% der menschlichen Krebserkrankungen auf.
Beide sind Bestandteile von Signalübertragungswegen, die externe Signale an die DNA übermitteln.
Ras, das Produkt des ras-Gens, ist ein G-Protein, das die Synthese eines Proteins ermöglicht, das den Zellzyklus stimuliert.
Viele Ras-Onkogene haben eine Punktmutation, die zu einer hyperaktiven Version des Ras-Proteins führt, die selbst Signale ausgeben kann, was zu einer übermäßigen Zellteilung führt.
Das vom normalen p53-Gen kodierte Tumorsuppressorprotein ist ein Transkriptionsfaktor, der die Synthese von wachstumshemmenden Proteinen fördert.
Eine Mutation, die das p53-Gen ausschaltet, kann zu übermäßigem Zellwachstum und Krebs führen.

Das p53-Gen wird oft als "Schutzengel des Genoms" bezeichnet.
Eine Schädigung der DNA der Zelle führt zur Expression des p53-Gens.
Das p53-Protein kann:
aktivieren das p21-Gen, das den Zellzyklus stoppt.
Aktivieren Sie Gene, die an der DNA-Reparatur beteiligt sind.
"Selbstmordgene" aktivieren, deren Proteinprodukte den Zelltod verursachen.

Mehrere Mutationen liegen der Krebsentstehung zugrunde

Wenn Krebs aus einer Anhäufung von Mutationen resultiert und wenn Mutationen im Laufe des Lebens auftreten, dann ist die Wahrscheinlichkeit, dass wir Krebs entwickeln, je länger wir leben.


Methoden

Überblick über den RECLASS-Workflow

Der Arbeitsablauf von REPCLASS ist in Abbildung 1 schematisiert. Die Eingabedatei für das Programm ist eine einzelne Textdatei, die die zu klassifizierenden DNA-Sequenzen im Fasta-Format enthält. Jeder Eintrag wird dann von den drei Klassifikationsmodulen verarbeitet: Homologie (HOM), Struktur (STR) und Ziel-Site-Duplizierung (TSD). Jedes der Module umfasst mehrere Schritte und Prozesse, die im Folgenden detailliert beschrieben werden. Der letzte Schritt ist ein Integrationsschritt, der darauf abzielt, die Ergebnisse der drei Module zu vergleichen, einzuordnen und zu kombinieren, um eine einzige vorläufige Klassifizierung für jeden Fasta-Eintrag in der Eingabedatei bereitzustellen. Die Ausgabe von REPCLASS ist eine Textdatei, die die Klassifizierung für jeden Fasta-Eintrag in der Eingabedatei anzeigt, falls eine Klassifizierung erhalten wird. Den Klassifikationsbegriffen ist ein Buchstabencode vorangestellt, der die Module angibt, die zur Erstellung der Klassifikation verwendet wurden (H, S oder T). Die Klassifikation wird von einer Beschreibung der identifizierten strukturellen Merkmale (z. B. Länge der TIRs, LTRs und Poly-A-Terminus) und der Konsensuslänge der TSD, falls welche identifiziert wurde, begleitet. Am Ende der Ausgabedatei wird die Gesamtzahl der nach REPCLASS klassifizierten Einträge und die Aufschlüsselung dieser Anzahl nach Modulen oder Modulkombinationen angegeben. Beachten Sie, dass der Benutzer auch die Möglichkeit hat, jedes der Module von REPCLASS einzeln oder in einer beliebigen paarweisen Kombination auszuführen (siehe Benutzerhandbuch und Dokumentation).

Überblick über den RECLASS-Workflow. Unterprogramme werden kursiv in schwarzen Kästchen dargestellt. Datenbanken werden in grauen Zylindern angezeigt. Jede Eingabeabfragesequenz (typischerweise ein Konsens) wird von den drei Klassifikationsmodulen von REPCLASS analysiert. HOM: Homologie-basiert, sucht Ähnlichkeiten zu bekannten Wiederholungen, die in Repbase hinterlegt sind, unter Verwendung von TBlastX und Extrahieren der Klassifikation aus der Schlüsselwort-IndexdateiTIR_search), LTRs (LTR_search), tRNA-ähnliche Sequenzen (tRNAscan-SE) oder polyA/SSRs (polyA/SSR_search) TSD: Duplikation der Zielstelle, einzelne Kopien werden mit BlastN aus der Zielgenomsequenz extrahiert und ihre flankierenden Sequenzen werden nach TSD durchsucht. Wenn keine TSD gefunden werden, wird das Unterprogramm Helitron_scan wird ausgeführt, um nach strukturellen Merkmalen von zu suchen Helitrons. Der letzte Schritt versucht, die Ergebnisse der drei Module zu vergleichen und zu integrieren, was zu einer vorläufigen Klassifizierung für jede Eingabesequenz führt. Eine vollständige Beschreibung des Arbeitsablaufs und der Unterprogramme finden Sie unter Ergebnisse und Methoden.

Überblick über den RECLASS-Workflow. Unterprogramme sind kursiv in schwarzen Kästchen dargestellt. Datenbanken werden in grauen Zylindern angezeigt. Jede Eingabeabfragesequenz (typischerweise ein Konsens) wird von den drei Klassifikationsmodulen von REPCLASS analysiert. HOM: Homologie-basiert, sucht Ähnlichkeiten zu bekannten Wiederholungen, die in Repbase hinterlegt sind, unter Verwendung von TBlastX und Extrahieren der Klassifikation aus der Schlüsselwort-IndexdateiTIR_search), LTRs (LTR_search), tRNA-ähnliche Sequenzen (tRNAscan-SE) oder polyA/SSRs (polyA/SSR_search) TSD: Duplikation der Zielstelle, einzelne Kopien werden mit BlastN aus der Zielgenomsequenz extrahiert und ihre flankierenden Sequenzen werden nach TSD durchsucht. Wenn keine TSD gefunden werden, wird das Unterprogramm Helitron_scan wird ausgeführt, um nach strukturellen Merkmalen von zu suchen Helitrons. Der letzte Schritt versucht, die Ergebnisse der drei Module zu vergleichen und zu integrieren, was zu einer vorläufigen Klassifizierung für jede Eingabesequenz führt. Eine vollständige Beschreibung des Arbeitsablaufs und der Unterprogramme finden Sie unter Ergebnisse und Methoden.

HOM Modul

Dieses Modul verwendet jede Eintragssequenz als Abfrage in einer TBlastX-Suche (übersetzte Abfrage gegen übersetzte Datenbank) aller Referenzwiederholungsbibliotheken, die bei Repbase Update ( Jurka et al. 2005) hinterlegt sind, oder jeder benutzerdefinierten Wiederholungsbibliothek, die wie in Repbase annotiert und indiziert ist. Die neueste Version von Repbase Update, die in dieser Studie verwendet wurde, war Version 13.03, heruntergeladen von http://www.girinst.org/. Die TBlastX-Suche wird mit Standardparametern unter Verwendung einer lokalen Installation von WU-Blast Version 2.0 (http://blast.wustl.edu/) durchgeführt. Wir verwenden TBlastX (anstelle von BlastN), da es eine erhöhte Empfindlichkeit bietet, um konservierte Proteinmotive sowie kurze, aber signifikante Übereinstimmungen in nicht kodierenden Sequenzen zu erkennen. Der Benutzer hat die Möglichkeit, den Quellcode zu ändern, um beliebige andere Anwendungen der WU-Blast-Suite auszuführen.

Die TBlastX-Ausgabedateien werden geparst, und die ersten x (Standardwert 10) Treffer mit an e Wert kleiner als e -5 werden gewählt. Die Klassifizierung für diese x TEs wird aus einer Schlüsselwortindexdatei abgerufen, die für die Repbase-Datenbank erstellt wurde, und mit einer Subroutine namens . analysiert Schlüsselübereinstimmung. Dieses Programm extrahiert Schlüsselwörter und Beschreibungen aus Repbase Update im EMBL-Format für jede der Treffer-(Betreff-)TE-Sequenzen. Das Indexierungstool sucht nach bestimmten Schlüsselwörtern wie Unterklasse, Überfamilie, Familie usw. Der Index besteht aus der von Repbase zugewiesenen ID für den TE zusammen mit Begriffen, die die Klassifikation definieren: Unterklasse (SC), Überfamilie (SF), Familie (FM ), Gruppe (GP), Untergruppe (SG) und Schlüsselwörter (KW). Für jedes Keyword zwei Konfidenzwerte, Pe und Pk, werden wie folgt berechnet. Pe ist der gewichtete Durchschnitt der e Werte für alle Treffer, die das Schlüsselwort enthalten, nach der jeweiligen Transformation e Wert mit der Formel Pe = |ln (e Wert)|/100 und mit e Werte < e −100 auf eingestellt e −100 . Pk ist der gewichtete Durchschnitt des Vorkommens eines bestimmten Keywords zur Gesamtzahl der Treffer, d.h. Pk = Schlüsselwortanzahl/Nr. von Treffern. Das Programm sortiert die Schlüsselwörter nach Pe und Pk bewertet und weist eine vorläufige Klassifizierung basierend auf dem Schlüsselwort mit der höchsten Bewertung für beide Bewertungen zu.

STR Modul

Dieses Modul besteht aus mehreren Unterprogrammen, die entwickelt wurden, um nach strukturellen Merkmalen zu suchen, die für verschiedene Unterklassen von Elementen charakteristisch sind. Vier Unterprogramme (unten beschrieben) werden unabhängig ausgeführt, und RECLASS meldet die Ergebnisse für jedes Unterprogramm zusammen mit beschreibenden Statistiken der gefundenen Merkmale, falls vorhanden. Ein fünftes Unterprogramm, Helitron_scan, wird ausgeführt, wenn keine TSD durch die TSD Modul (unten beschrieben).

LTR_search

LTR_search scannt nach LTRs unter Verwendung eines Gleitfensterverfahrens mit einer anfänglichen Standardfenstergröße von 10 bp, die bei Übereinstimmung um 1 bp erhöht wird und von jedem Terminus der Abfragesequenz in entgegengesetzte Richtung gleitet (+/–20 bp). Eine Fehlpaarung von 1 bp pro 10 bp ist zulässig. Der Benutzer hat die Möglichkeit, die anfängliche Fenstergröße anzugeben. Das Programm betrachtet eine Region als mutmaßliches LTR, wenn die Gesamtlänge der direkten Wiederholung größer als 100 bp ist und innerhalb von 20 bp von jedem Termini der Abfrage beginnt/endet.

TIR_search

TIR_search verwendet eine modifizierte Version des umgekehrt Programm, das Teil der EMBOSS 6.0 Suite ist (Olson 2002), um die längstmöglichen invertierten Wiederholungen zu identifizieren, die innerhalb von 30 bp von den Termini der Abfragesequenz auftreten. Die Parameter für umgekehrt sind Lücke = 12, Schwellenwert = 50, Übereinstimmung = 3, Nichtübereinstimmung = 4 und maxrepeat = 10.000. Das Programm meldet die Größe der TIR, falls eine identifiziert wird und wenn sie >10 bp lang ist.

TRNAscan-SE

Das Ziel dieser Subroutine ist es, nach einer tRNA-ähnlichen Sekundärstruktur innerhalb der Abfragesequenz zu suchen. Eine solche Struktur weist auf ein SINE hin, da die meisten von ihnen von tRNA-Sequenzen abgeleitet sind. Wir verwenden das Programm tRNAscan-SE Version 1.23 ( Lowe und Eddy 1997), dessen UNIX-Quellcode unter http://lowelab.ucsc.edu/tRNAscan-SE/ verfügbar ist. Wir bewerben uns tRNAscan-SE zu jeder Abfragesequenz mit den Standardparametern. Die Ausgabe des Programms enthält eine Reihe von Statistiken, einschließlich der Anzahl der gefundenen tRNAs und der Anzahl der tRNA-Pseudogene. Unsere empirischen Tests haben ergeben, dass tRNAscan-SE konnte den tRNA-abgeleiteten Teil vieler bekannter SINEs erkennen, die typischerweise als tRNA-Pseudogene vorhergesagt wurden.

PolyA/SSR_Suche

Diese Subroutine verwendet einen einfachen Sliding-Window-Algorithmus, um das Vorhandensein von Simple Sequence Repeats (SSRs) mit Einheiten im Größenbereich von 1 bis 5 nt an oder in der Nähe der Enden der Abfragesequenz zu erkennen. Das Vorhandensein dieser Merkmale an einem (aber nicht an beiden) Enden der Abfrage weist auf ein potentielles Nicht-LTR-Retrotransposon hin. Für SSRs wenden wir einen variablen Schwellenwert an, um nur diejenigen mit einer minimalen Anzahl von Wiederholungseinheiten zu behalten, abhängig von der Länge der Einheit (mindestens 10 perfekte Einheiten für Mononukleotide [einschließlich polyA/T], 7 für Dinukleotide, 5 für Trinukleotide, 4 für Tetranukleotide und 3 für Pentanukleotide). Für jede Abfrage-(Konsens-)Sequenz werden SSRs nach einer Probe einzelner Elemente (1–10, abhängig von der Kopienzahl) durch Extrahieren der ersten und letzten 50 nt, die dem Konsens entsprechen, plus 50 bp flankierender genomischer Sequenzen auf jeder Seite extrahiert, extrahiert aus das Zielgenom (siehe auch TSD Modul, unten). Dies geschieht aufgrund der inhärenten Variation der Länge der SSR an jedem Locus, die die Einbeziehung langer SSRs in den Konsens verhindern kann. Das Vorhandensein und die durchschnittliche Länge von polyA/T-Schwänzen wird in der REPCLASS-Ausgabedatei angegeben, da sie stark auf retroponierte Elemente hinweisen.

Helitron_scan

Dieses Programm wurde entwickelt, um nach den charakteristischen Merkmalen der Terminalsequenz zu suchen Helitrons, die konserviertes 5′-TC und CTRR-3′ (R = A oder G) an ihren 5′- bzw eine 2- bis 5-bp-Schleife) 10–12 nt vom CTRR-3′-Terminus entfernt (Kapitonov und Jurka 2001). Helitrons erzeugen keine TSDs, aber sie inserieren bevorzugt zwischen A- und T-Nukleotiden, was zu einer insgesamt konservierten terminalen Sequenzanordnung führt (5′-A|TC…/x nt/…gcctgcggt/2–5 nt/accgcaggc…/2-8 nt /CTRR|T-3′).

Wenn mehrere Haarnadelmotive im gleichen Rapport gefunden werden, wird das Motiv mit der höchsten Punktzahl beibehalten. Das Endergebnis HT zum Helitron_scan ist die Summe der H53 und HP punktet. Ein HT Wert von 0,75 und höher wird als Hinweis auf a . genommen Helitron.

TSD Modul

Dieses Modul wurde entwickelt, um potenzielle TSDs zu identifizieren, die durch das Einfügen einzelner TE-Sequenzen entstehen. Mit wenigen Ausnahmen (z. B. TA in Tc1/Seemann Elemente), sind die Abfolge und/oder Länge der TSD zwischen einzelnen Elementen nicht konserviert ( Wicker et al. 2007). Somit ist die TSD im Allgemeinen nicht in der Abfrage-(Konsensus-)Sequenz enthalten, sondern findet sich flankierend zu jeder Insertion. deshalb, die TSD_Suche Unterroutine führt zuerst eine BlastN-Suche (über eine lokale WU-Blast-Installation) mit jeder Abfrage gegen eine Nukleotiddatenbank des Zielgenoms (wie vom Benutzer definiert und hochgeladen) durch, um einzelne Kopien der Wiederholung abzurufen. Als nächstes wird die BlastN-Ausgabe geparst, um nur Kopien zu behalten, die mit beiden Enden der Abfrage übereinstimmen, und extrahiert die ersten und letzten 10 bp jedes Elements plus 50 bp der flankierenden genomischen Sequenz auf jeder Seite. Ein Gleitfensteralgorithmus wird dann verwendet, um 5′- und 3′-flankierende Sequenzen in entgegengesetzten Richtungen (beginnend mit dem Ende der 5′-Flanke und dem Beginn der 3′-Flanke) nach Sequenzmotiven der Länge >2 bp zu scannen, die in direkter Orientierung übereinstimmen .Wir erlauben eine Fehlpaarung von 1 bp/Motiv von 6–10 und 2 bp/Motiv von >10 bp. Der Einschluss von 10 bp der terminalen Sequenzen des Elements ermöglicht die Gewinnung von TSDs, die in Länge und Sequenz konserviert sind und als Teil des Konsensus aufgenommen worden sein können. Das erste passende Motiv wird als potentieller TSD interpretiert. Wenn >50% der untersuchten Elemente eine potentielle TSD aufweisen, wird die maximale Anzahl von Elementen mit derselben TSD-Länge abgerufen und ein Konsens dieser TSD-Sequenzen erzeugt. Sequenz und Länge des Konsensus werden gespeichert und in der RECLASS-Ausgabedatei gemeldet. Wenn in >50% der untersuchten Kopien TSDs gefunden werden, aber keine Konsensus-TSD-Länge rekonstruiert werden kann, meldet die Suche "variable TSD-Länge", was auf Nicht-LTR-Elemente hinweist. Wenn in weniger als 50 % der untersuchten Kopien TSDs gefunden werden, wird davon ausgegangen, dass das Element keine TSD erzeugt. Denn das Fehlen von TSD ist ein Merkmal von Helitrons, Wiederholungen ohne TSD unterliegen dann einer zusätzlichen Suche nach Strukturmerkmalen von Helitrons (oben beschrieben).

Integrationsschritt

Der letzte Schritt im REPCLASS-Workflow ist ein Integrationsprozess, der die Ergebnisse der drei Module im Kontext des aktuellen TE-Klassifizierungssystems interpretiert, vergleicht, gewichtet und synthetisiert, um eine vorläufige Klassifizierung für jede Abfragesequenz zu erhalten. Dazu haben wir eine benutzerdefinierte Klassifikationsdatenbank erstellt, die weitgehend das „Unified Classification System for eukaryotic transposable elements“ (Wicker et al. 2007) widerspiegelt. Diese relationale Datenbank wird verwendet, um die verschiedenen Klassifikationsstufen zu integrieren und die Ergebnisse der drei vorgelagerten Module zu validieren. Wenn beispielsweise zwei oder drei der Module zu derselben Unterklasse konvergieren, wird diese Unterklasse als endgültige Klassifizierung übernommen. Wenn eines der Module eine Klassifikation auf Überfamilienebene erzeugt, werden diese Informationen extrahiert und der Unterklassenklassifikation hinzugefügt. Die Klassifizierungsdatenbank wird auch verwendet, um die von den Modulen erhaltenen Informationen zu ergänzen oder zu vervollständigen. Zum Beispiel die HOM Modul kann die Superfamilie aber nicht die Unterklasse oder Klasse melden. Dies liegt daran, dass der Schlüsselwortindex aus Repbase Update während des HOM Die Suche ist nicht immer vollständig oder genau, insbesondere bei älteren Einträgen.

Ein weiteres Ziel des Integrationsschritts besteht darin, widersprüchliche Klassifizierungen aufzulösen, die von den verschiedenen Modulen erzeugt werden können. In diesem Fall wendet das Integrationsprogramm eine hierarchische Strategie an, die auf einer Rangfolge der drei Module mit abnehmendem Vertrauensniveau basiert: HOM > STR > TSD (siehe auch Ergebnisse). Die hierarchische Regel wird auf jeder Ebene der Klassifikation separat angewendet. Unsere empirischen Tests haben gezeigt, dass das Ranking die meisten Fälle widersprüchlicher Klassifikationen auflöst. Der Benutzer kann es auch nützlich finden, die Rangfolge zwischen den Modulen zu ändern oder den Integrationsschritt zu deaktivieren, der dann die Anzeige der von jedem Modul erzeugten Klassifikationen ermöglicht, und den Benutzer die Integration der Ergebnisse für jede klassifizierte Wiederholung manuell durchführen zu lassen.

Rechen- und Verarbeitungszeit

Die meisten der in diesem Dokument berichteten Ergebnisse wurden durch Ausführen von REPCLASS auf dem UT Arlington Distributed and Parallel Computing Cluster erzielt, das aus 81 Xeon-Rechenknoten mit zwei Prozessoren mit 2.667 GHZ und jeweils 2 GB Arbeitsspeicher besteht. Die Software wurde auf unterschiedlich vielen Prozessoren ausgeführt, um die Rechenleistung in Bezug auf Skalierbarkeit und Lastverteilung zu messen (für weitere Details siehe Ranganathan et al. 2006). Kurz gesagt korrelierte die Verarbeitungszeit linear mit der Anzahl der Fasta-Einträge in der Eingabedatei und der Anzahl der verwendeten Prozessoren. Es dauerte beispielsweise etwa 2 Stunden mit 2 Prozessoren oder 40 Minuten mit 10 Prozessoren, um REPCLASS auf dem Caenorhabditis elegans Repbase Update Library (116 Einträge) und 21 bzw. 2 h mit 2 bzw. 10 Prozessoren für die C. elegans RepeatScout ungefilterte Bibliothek (1.851 Einträge). Somit kann REPCLASS für ein relativ kleines Genom mit einer gefilterten Wiederholungsbibliothek in nur wenigen Stunden auf einem Standard-Desktop-Computer ausgeführt werden. Bei größeren und wiederholungsreichen Genomen wird die Durchlaufzeit durch den Einsatz von parallelem Cluster- oder Grid-Computing deutlich verbessert ( Ranganathan et al. 2006).

Softwareverfügbarkeit

REPCLASS 1.0 ist als UNIX-basiertes Paket verfügbar, das unter http://www3.uta.edu/faculty/cedric/repclass.htm heruntergeladen werden kann, mit vollständiger Dokumentation, einschließlich Benutzerhandbuch und Anweisungen für Installation, Ersteinrichtung und Filterung. Das Paket und der Quellcode sind auch als Open-Source-Software über http://sourceforge.net/projects/repclass/ erhältlich.

RepeatScout und Filterung

RepeatScout (RepeatScout Price et al. 2005) Version 1.0.5 wurde von http://bix.ucsd.edu/repeatscout/ heruntergeladen und mit Standardparametern ausgeführt. Die Ausgabe von RepeatScout besteht aus einer Bibliothek von Konsensussequenzen für jede der identifizierten Wiederholungsfamilien. Vor dem Ausführen von REPCLASS werden drei verschiedene Filter auf die RepeatScout-Ausgabe angewendet. Zuerst Tandem Repeats Finder Version 4.0 ( Benson 1999 http://tandem.bu.edu/trf/trf.html) und nseg ( Wootton und Federhen 1996 ftp://ftp.ncbi.nih.gov/pub/seg/nseg ) werden verwendet, um Konsensussequenzen zu entfernen, die überwiegend oder vollständig aus Tandem-Wiederholungen, SSR und anderen Wiederholungen geringer Komplexität bestehen. In dieser Studie haben wir alle als SSR/niedrige Komplexität maskierten Sequenzen für mehr als 70 % ihrer Länge verworfen. Zweitens haben wir wiederholte Konsensussequenzen mit einer Länge von weniger als oder gleich 100 bp herausgefiltert, da die Größe bekannter TEs im Allgemeinen 100 bp überschreitet (siehe Ergebnisse). Wir betrachten diesen Cutoff als den minimalen Schwellenwert, der auf jedes Genom angewendet werden sollte, unabhängig von der Genomgröße und der Anzahl der wiederholten Konsensussequenzen. Für Genome, die größer sind und eine größere Anzahl von Wiederholungen enthalten, kann jedoch ein höherer Schwellenwert angemessen sein. Um die Bestimmung des am besten geeigneten Längenschwellenwerts für die analysierte genomische Landschaft zu erleichtern, erzeugt REPCLASS einen Graphen der Wiederholungslängenverteilung für die in der Eingabeabfragedatei kompilierten Sequenzen. Ein Beispiel für die Wiederholungslängenverteilung für die RepeatScout-Bibliothek erhalten für C. elegans ist in ergänzender Abbildung 4 ( Supplementary Material online) dargestellt. Der dritte und letzte Filter basiert auf der Kopienanzahl pro Wiederholungsfamilie. Wenn RepeatScout mit Standardparametern ausgeführt wird, werden im Prinzip Wiederholungen, die in weniger als 10 Kopien vorhanden sind, nicht gemeldet. Die von RepeatScout ermittelte Wiederholungszahl kann jedoch sehr kleine Wiederholungsfragmente enthalten und die Anzahl der echten Kopien von TE-Familien möglicherweise nicht genau widerspiegeln. Daher wenden wir einen zweiten Filter an, der auf einer strengeren Schätzung der Kopienzahl basiert, basierend auf einer BlastN-Suche des Zielgenoms bei jeder Konsensuswiederholung als Abfrage unter Verwendung des WU-Blast-Pakets. Wir zählen all diese Treffer als gültige Kopien, wenn sie mindestens die Hälfte der Abfragesequenzlänge mit ≥80% Nukleotidähnlichkeit umfassen. Dieser Cutoff ähnelt dem, der traditionell zur Definition von TE-Familien verwendet wird ( Feschotte und Pritham 2007a Wicker et al. 2007). Um den Benutzer bei der Bestimmung des Kopienzahlgrenzwerts für diesen Filterschritt zu unterstützen, erzeugt REPCLASS einen Graphen der Kopienzahlverteilung der in der Eingabebibliothek enthaltenen Abfragesequenzen. Ein Beispiel für den Graphen erhalten für die C. elegans Die RepeatScout-Bibliothek ist in der ergänzenden Abbildung 5 ( Supplementary Material online) dargestellt. In der vorliegenden Studie haben wir nur Wiederholungsfamilien mit einer Kopienzahl von mehr als 10 beibehalten. Der Cutoff-Wert kann je nach Genomgröße und Gesamtwiederholungsgehalt des analysierten Genoms variieren.

Genomsequenzdaten

Details zu den in dieser Studie analysierten Genomsequenzen sind in der ergänzenden Tabelle 1 (Supplementary Material online) enthalten, einschließlich Genomgröße, Version der analysierten Baugruppe, Whole Genome Shotgun (WGS)-Abdeckung, Sequenzierungszentren, die die Sequenz und Baugruppe produzieren, und zugehörige Referenzen . Alle Sequenzanordnungen wurden vom NCBI oder dem Genome Browser der University of California-Santa Cruz (UCSC) oder dem Broad Institute heruntergeladen.


Inhalt

In dem großen rDNA-Array sind Polymorphismen zwischen rDNA-Wiederholungseinheiten sehr gering, was darauf hindeutet, dass sich rDNA-Tandem-Arrays durch konzertierte Evolution entwickeln. [2] Der Mechanismus der konzertierten Evolution ist jedoch unvollkommen, so dass Polymorphismen zwischen Wiederholungen innerhalb eines Individuums in signifikantem Ausmaß auftreten und phylogenetische Analysen für eng verwandte Organismen durcheinanderbringen können. [4] [5]

5S-Tandem-Wiederholungssequenzen in mehreren Drosophila miteinander verglichen, ergab das Ergebnis, dass Insertionen und Deletionen häufig zwischen Spezies auftraten und oft von konservierten Sequenzen flankiert wurden. [6] Sie könnten durch das Verrutschen des neu synthetisierten Strangs während der DNA-Replikation oder durch Genkonversion auftreten. [6]

Die rDNA-Transkriptionstrakte weisen eine niedrige Polymorphismusrate zwischen den Arten auf, was einen interspezifischen Vergleich ermöglicht, um die phylogenetische Verwandtschaft mit nur wenigen Exemplaren aufzuklären. Kodierende Regionen von rDNA sind zwischen den Arten hoch konserviert, aber ITS-Regionen sind aufgrund von Insertionen, Deletionen und Punktmutationen variabel. Zwischen entfernten Spezies wie Mensch und Frosch ist ein Sequenzvergleich in ITS-Flächen nicht angebracht. [7] Konservierte Sequenzen an kodierenden Regionen der rDNA ermöglichen Vergleiche entfernter Spezies, sogar zwischen Hefe und Mensch. Humane 5.8S rRNA hat 75% Identität mit Hefe 5.8S rRNA. [8] In Fällen von Geschwisterarten werden der Vergleich des rDNA-Segments einschließlich der ITS-Trakte zwischen den Arten und die phylogenetische Analyse zufriedenstellend durchgeführt. [9] [10] Die verschiedenen kodierenden Regionen der rDNA-Wiederholungen zeigen normalerweise unterschiedliche Evolutionsraten. Als Ergebnis kann diese DNA phylogenetische Informationen von Arten liefern, die zu weiten systematischen Ebenen gehören. [11]

Ein Fragment von Hefe-rDNA, das das 5S-Gen, nicht-transkribierte Spacer-DNA und einen Teil des 35S-Gens enthält, weist eine lokalisierte, cis-wirkende mitotische Rekombination stimulierende Aktivität auf. [12] Dieses DNA-Fragment enthält einen mitotischen Rekombinations-Hotspot, der als HOT1 bezeichnet wird. HOT1 exprimiert rekombinationsstimulierende Aktivität, wenn es an neuen Stellen im Hefegenom eingefügt wird. HOT1 enthält einen RNA-Polymerase I (PolI)-Transkriptionspromotor, der die 35S-ribosomale rRNA-Gentranskription katalysiert. In einer PolI-defekten Mutante ist die HOT1-Hotspot-Rekombinations-stimulierende Aktivität aufgehoben. Der Grad der PolI-Transkription in HOT1 scheint den Grad der Rekombination zu bestimmen. [13]

Krankheiten können mit DNA-Mutationen in Verbindung gebracht werden, bei denen die DNA erweitert werden kann, wie beispielsweise bei der Huntington-Krankheit, oder aufgrund von Deletionsmutationen verloren geht. Das gleiche gilt für Mutationen, die in rDNA-Wiederholungen auftreten. Es wurde festgestellt, dass, wenn die Gene, die mit der Synthese von Ribosomen verbunden sind, zerstört oder mutiert werden, dies zu verschiedenen Erkrankungen des Skeletts oder des Knochenmarks führen kann. Außerdem kann jede Beschädigung oder Störung der Enzyme, die die Tandem-Repeats der rDNA schützen, zu einer geringeren Synthese von Ribosomen führen, was auch zu anderen Defekten in der Zelle führt. Neurologische Erkrankungen können auch durch Mutationen in den rDNA-Tandem-Repeats entstehen, wie beispielsweise das Bloom-Syndrom, das auftritt, wenn die Anzahl der Tandem-Repeats im Vergleich zur normalen Zahl der Tandem-Repeats nahezu um das Hundertfache ansteigt. Auch aus Mutationen der Tandem-Repeats in der ribosomalen DNA können verschiedene Krebsarten entstehen. Zelllinien können entweder durch eine Neuanordnung der Tandem-Wiederholungen oder eine Erweiterung der Wiederholungen in der rDNA bösartig werden. [14]


Aktuelle Genetik

Eukaryonten- und auch Human-DNA enthält einen großen Anteil an nicht-kodierenden Sequenzen. Was die kodierende DNA betrifft, kann die nicht-kodierende DNA einzigartig sein oder in mehr identischen oder ähnlichen Kopien vorliegen. DNA-Sequenzen mit hohen Kopienzahlen werden dann als repetitive Sequenzen bezeichnet. Liegen die Kopien eines Sequenzmotivs in einem Block oder einem Array nebeneinander, sprechen wir von Tandem-Repeats, die repetitiven Sequenzen, die im gesamten Genom als einzelne Einheiten, flankiert von einer einzigartigen Sequenz, verteilt sind, sind eingestreute Repeats.

Die Natur eingestreuter Wiederholungen - transponierbare Elemente

Die meisten eingestreuten Wiederholungen entstehen durch einen Transpositionsprozess, bei dem ein DNA-Abschnitt an eine andere Stelle des Genoms "springt". Es gibt im Wesentlichen zwei Arten von transponierbaren DNA-Elementen oder Transposons: DNA-Transposons und Retrotransposons. Die wichtigsten Klassen von eingestreuten Wiederholungen mit der Fähigkeit zur Transposition sind in Abb. 1 dargestellt. 1.

DNA-Transposons

DNA-Transposons gelten im menschlichen Genom aufgrund der Akkumulation von Mutationen während der Vertebraten-Phylogenese als inaktiv, so dass wir nur ihre alten Überreste oder "Fossilien" finden können. Das aus den menschlichen fossilen Elementen abgeleitete aktive Transposon kann jedoch mit den Informationen konstruiert werden, die aus menschlichen und anderen Wirbeltiergenomen gesammelt wurden. Ein Beispiel ist das Sleeping Beauty Transposon, das aufgrund seiner spezifischeren Integrationsstelle (als z. B. für Retroviren beobachtet) ein vielversprechender Bestandteil der Gentherapie der nächsten Generation ist. Wie funktioniert ein typisches DNA-Transposon? Der Kern des transponierbaren Elements kodiert für eine Enzymtransposase. Dieses Enzym bindet an die Enden des Elements. Die Enden des Transposons werden durch invertierte Wiederholungen gebildet, die daher DNA-Stränge austauschen und die für die Transposase-Wirkung notwendige Stamm-Schleife-Struktur stabilisieren können. Transposase schneidet dann das Transposon heraus und ligiert die resultierenden freien chromosomalen DNA-Enden. [Bei der Reifung von Immunglobulin- (V-D-J-Rekombination) und TCR-(T-Zell-Rezeptor)-Genen wird ein nahezu identischer Mechanismus zum Ausschneiden der dazwischenliegenden Sequenzen verwendet. Interessanterweise ist das Enzym, das diese Reaktion katalysiert (aus den beiden Komponenten RAG1 und RAG2), tatsächlich wahrscheinlich aus einer Transposase hervorgegangen.] Der freie Komplex Transposon-Transposase bindet an ein spezifisches Sequenzmotiv an anderer Stelle im Genom, die Transposase spaltet die Wirts-DNA und ligiert die Transposon in den neuen Ort. Somit bewegt sich das Transposon durch einen Ausschneide-und-Einfüge-Mechanismus und die Kopienzahl bleibt stabil.

Retrotransposons

Retrotransposons sind die wichtigsten transponierbaren Elemente im menschlichen Genom. Erstens sind sie viel häufiger und bilden direkt mindestens 45% des menschlichen Genoms (die Schätzungen variieren, aber die meisten Forscher glauben, dass es noch mehr sein müssen, da alte Retrotransposons, die inaktiviert wurden, durch Mutation so weit auseinandergegangen sind wo sie nicht identifizierbar sind). Zweitens sind Retrotransposons im menschlichen Genom noch aktiv.

Zum Springen benötigen sie zelluläre RNA-Polymerasen (II oder III), durch die sie in RNA transkribiert werden, während die ursprüngliche DNA-Kopie an derselben Stelle erhalten bleibt. Die RNA-Kopie wird in DNA revers transkribiert, und die DNA wird an einer neuen Stelle in das Genom eingefügt. Somit wird die Anzahl dieser Elemente durch einen Duplizierungsmechanismus (Kopieren und Einfügen) erweitert. Wie für das L1-Retrotransposon beschrieben, ist der Vorgang der Retrotransposition anfällig für verschiedene Fehler, so dass die neuen Kopien eines Retrotransposons aufgrund von Trunkierung oder Punktmutation weitgehend inaktiviert würden. Da die meisten Transposon-Kopien inaktiv sind, wird die weitere Expansion der Retrotransposon-Familie von den wenigen aktiven Elementen voller Länge bestimmt. Aber selbst wenn alle aktiven Elemente später während der Evolution verloren gingen, könnte das Genom buchstäblich von den fossilen Mitgliedern der Sequenzfamilie überrannt werden.

Retrotransposons können weiter in autonom und nichtautonom eingeteilt werden. Autonome Retrotransposons kodieren für Proteine, die für ihre Transposition notwendig sind, obwohl sie für ein erfolgreiches Springen auch von Wirts-RNA-Polymerasen und DNA-Reparaturenzymen abhängig sind. Nichtautonome Retrotransposons kodieren für kein Protein und müssen die Enzyme anderer Transposons kapern, um eine Transposition durchführen zu können.

LTR-Retrotransposons - Endogene Retroviren

Endogene Retroviren, auch LTR-Retrotransposons genannt, ähneln in ihrer Zusammensetzung Proviren echter Retroviren - sie enthalten Long Terminal Repeats (LTRs), gag-, pol-, env- und prt-Gene, aber mindestens eines der Proteine, die für den Zusammenbau von infektiösen Viruspartikeln notwendig sind, ist mutiert oder tatsächlich fehlt - insbesondere env. Somit können sich endogene Retroviren nur innerhalb von Zellen bewegen, ansonsten ist ihr Lebenszyklus ähnlich wie bei infektiösen Retroviren, z.B. HIV-Virus. Obwohl endogene Retroviren bei vielen Säugetieren, einschließlich Schimpansen, aktiv sind, enthält der Mensch derzeit nur Fossilien (mutiert und nicht transpositionsfähig), die etwa 8 % des Genoms ausfüllen. Endogene Retroviren voller Länge sind typischerweise 7-9 kb lang, aber wie im Fall von L1 (siehe unten) sind viele abgeschnitten, insbesondere am 5. Ende. Häufig finden wir nur Standalone-LTR als Folge retroviraler Insertion und anschließender intrachromosomaler Rekombination zwischen den LTRs oder ungleicher Rekombination der homologen Chromosomen, was zur Deletion des kodierenden Teils des Retrovirus führt (Abb. 5).

Nicht-LTR-Retrotransposons

LINEs (Long Interspersed Nuclear Elements) sind autonome Retrotransposons. Sie machen etwa 21% des menschlichen Genoms aus. Die aktiven Elemente gehören zur am häufigsten vorkommenden LINE-1- oder L-1-Familie, die allein 17% des Genoms umfasst. Von den etwa einer halben Million L1 in unserem Genom sind fast 10.000 in voller Länge und etwa 100 sind noch zur Retrotransposition fähig. Das aktive L1-Element ist etwa 6 kb lang und enthält zwei offene Leserahmen, ORF1 und ORF2. 5 UTR (untranslated region) fungiert auch als Promotor, 3 UTR enthält polyA-Signal. Die Funktion von ORF1 ist nicht klar, es ist nur bekannt, dass es an L1-mRNA bindet, ORF2 enthält die reverse Transkriptase und die Endonuklease-Domäne und ist das Enzym, das für die Integration verantwortlich ist. Der Lebenszyklus von L1 beginnt mit der Transkription der L1-DNA durch die zelluläre RNA-Polymerase II und der Standardreifung zum mRNA-Molekül. Die L1-mRNA wird in das Zytoplasma transportiert und ORF1 translatiert. Dann wird die Translation an einer internen ribosomalen Eintrittsstelle (IRES) erneut initiiert, um ORF2 zu translatieren (unkanonischer und ineffektiver Prozess in Eukaryoten, sodass nur ein Teil der L1-mRNAs ihr ORF2-Protein erhält). Beide Proteine ​​binden sofort an die L1-mRNA. Dieser Protein-mRNA-Komplex wird in den Zellkern transportiert. ORF2 schneidet chromosomale DNA an der Zielstelle (die Zielstelle ist nicht absolut spezifisch, wie es bei Restriktionsendonukleasen der Fall ist, aber es gibt eine gewisse Bevorzugung für AT-reiche Sequenzen, die Schnittstellen sind ungefähr TT/AAAA). Der DNA-Schnitt ist ungleich (erzeugt klebrige Enden). Die freie 3·OH-Gruppe auf einer Seite des gespaltenen DNA-Moleküls wird von der reversen Transkriptase von ORF2 verwendet, um die Synthese des ersten cDNA-Strangs zu starten (Ziel-geprimte reverse Transkription). Der detaillierte Mechanismus der Synthese des zweiten cDNA-Strangs wird noch diskutiert, aber der Prozess endet mit der stabilen Integration von doppelsträngiger L1-DNA an einer neuen Stelle im Genom. Aufgrund des gestaffelten DNA-Bruchs durch die Transposon-Endonuklease wird das integrierte L1-Element von einer Duplikation der Zielstelle von 7-20 bp flankiert (Abb. 2). Die Reverse Transkriptase ist oft nicht in der Lage, die Erststrangsynthese zu beenden, was zu einer 5-Trunkierung der neu gebildeten Kopie führt (Abb. 3A). Der Reversen Transkriptase fehlt auch die Aktivität des Korrekturlesens (3. bis 5. Endonuklease), wodurch häufig eine Mutation in die neue Kopie eingeführt wird.Interessanterweise wird L1-mRNA überwiegend in meiotischen und postmeiotischen Spermatozyten exprimiert, wodurch das L1-Potenzial für die Kopienexpansion erhöht wird (in die Keimbahn eingeführte Kopien können im Gegensatz zu somatischen Transpositionsereignissen vererbt werden).

Nichtautonome Retrotransposons - SINE

SINEs kurze eingestreute Kernelemente sind typischerweise weniger als 500 bp lang und haben kein Proteincodierungspotential. Die wichtigste SINE-Familie beim Menschen wird von Alu-Elementen gebildet (der Name leitet sich von ihrer Entdeckung ab, die auf einem Paar konservierter AluI-Restriktionsstellen basiert). Die mehr als 1 Million Alu-Elemente im menschlichen Genom machen etwa 11% seiner Masse aus.

Alu-Elemente teilen 282 bp Konsensus, der mit der SRP (Signal Recognition Particle) RNA-Untereinheit (genannt 7SL RNA) verwandt ist und vermutlich von dieser abgeleitet wurde. SRP ist ein Ribonukleo-Protein-Komplex, der Signalpeptide erkennt, daran bindet und den Ribosom-mRNA-naszierenden Peptidkomplex zum endoplasmatischen Retikulum (ER)-Kanal transloziert, durch den das naszierende Protein in das ER-Lumen transloziert oder in die Membran integriert wird . Alus werden wie das 7SL-RNA-Gen von der RNA-Polymerase III transkribiert. Alu-RNA kann zwei SRP-Proteine ​​(9 und 14) binden. Vermutlich kann Alu somit an Ribosomen binden und durch seinen polyA-Schwanz kann es (wenn das Ribosom gerade LINE-1-mRNA übersetzt) ​​naszierendes ORF2-Protein binden und das ORF2-Protein zwingen, seine RNA und nicht das LINE-1 . umgekehrt zu transkribieren und zu integrieren mRNA (Abb. 4).

Funktion der transponierbaren Elemente

Aus der unmittelbaren Sicht haben Transposons keine notwendige Funktion in der Zelle - sogenannte Junk-DNA" oder "egoistische DNA", da sich Transposons im Namen der zellulären Ressourcen ausbreiten. In einem größeren Maßstab kann die Beweglichkeit der retrotransponierbaren Elemente wichtig für die Plastizität des Genoms. Gelegentliche Insertion in Gene kann die Genfunktion stören und eine Erbkrankheit verursachen (Abb. 3C). LTR- und LINE-Elemente können auch die Genexpression verändern, wenn sie in der Nähe eines Gens eingefügt werden, da LTRs und LINE 5 UTR starke Promotoraktivität in beide Richtungen (Fig. 3F).

Da das LINE-1-Retrotransposon ein relativ schwaches Polyadenylierungssignal hat, kommt es vor, dass die RNA-Polymerase II es durchliest und flankierende DNA-Sequenzen an die L1-mRNA anheftet, die dann retrotranskribiert und in eine neue Position verschoben wird. LINE-1 kann also ein Vektor für das DNA-Shuffling sein. Da die retrotransponierten Kopien von L1 oft 5-trunkiert sind, kann sich die mobilisierte DNA auch ohne Sequenz des L1-Vektors an eine neue Position bewegen. Dies könnte für das Shuffling kleinerer DNA-Fragmente wichtig sein – wie für den Austausch von Exons zwischen Genen (Abb. 3D).

Die L1-Retrotransposition kann sogar zu Deletionen und Inversionen führen, wie in Abb. 1 dargestellt. 3E.

Sehr selten unterliegt eine zelluläre mRNA einer reversen Transkription und Transposition durch ein Enzym von L1 oder anderen Retrotransposons. In diesem Fall wird das Gen dupliziert. Die neue Kopie wird als prozessiertes Pseudogen bezeichnet, da sie von prozessierter mRNA ohne Introns abgeleitet wird und aufgrund des fehlenden Promotors normalerweise nicht funktionsfähig ist ( 3B ). Selten kann ein prozessiertes Pseudogen unter Selektionsdruck eine Funktion übernehmen. Ein bekanntes Beispiel ist das Pyruvat-Dehydrogenase-Gen, Untereinheit E1alpha. Dieses Gen (PDHA1) befindet sich bei eutherischen Säugetieren auf dem X-Chromosom. Aber die Expression vieler Gene, die auf dem X-Chromosom liegen, wird während der Spermatogenese gestoppt, einschließlich PDHA1, obwohl sie für die Funktion aller Zellen unerlässlich ist. Diese fehlende Funktion wurde anscheinend durch Retrotransposition gerettet - es gibt ein nahe verwandtes Gen PDHA2 auf Chromosom 4 - und dieses Gen ist intronlos - ein typisches Merkmal prozessierter Pseudogene. Hochexprimierte Housekeeping-Gene haben natürlich eine höhere Wahrscheinlichkeit der Retrotransposition. So finden wir viele prozessierte Pseudogene für ribosomale Proteine, glykolytische Enzyme, Beta-Aktin etc. Prozessierte Pseudogene sollten nicht mit "gewöhnlichen" Pseudogenen verwechselt werden, die durch genomische DNA-Duplikationen entstanden sind (zB Pseudogene im Hämoglobin-Cluster) und somit das ursprüngliche Gen beibehalten Struktur (Exons, Introns, Promotor, ... allerdings mit eingeschränkter Funktion). Es wurden mehrere Gene entdeckt, die direkt von einem Retrotransposon abgeleitet wurden. Die neueste Ergänzung ist das Gen Peg10 (väterlicherweise exprimiert 10), das von einem LTR-Retrotransposon der Ty3/Zigeunerfamilie abgeleitet ist (das ähnlichste Retrotransposon wurde in aktiver Form in Fugu-Fischen gefunden ). Peg10 ist für die Plazentaentwicklung bei Mäusen notwendig, das gleiche würde wahrscheinlich auch für den Menschen gelten. Andere Beispiele umfassen Syncytin-Gene, die von endogenen Retroviren der HERV-W-Familie abgeleitet sind. Diese sind wichtig bei der Synzytienbildung aus Trophoblastzellen, der Mechanismus der Membranfusion ähnelt tatsächlich dem retroviralen Eintritt in die Zelle.

Selbst inaktive Wiederholungselemente erhöhen die Plastizität des Genoms, indem sie interchromosomales ungleiches Crossing-over oder intrachromosomale Rekombination fördern, was zu Deletionen/Duplikationen oder Inversionen führt (Abb. 5).

Last but not least wird spekuliert, dass Transposons eine echte physiologische Funktion haben, da z.B. ihre Expression wird während der Stressreaktion hochreguliert. Doch die vielfältigen Hypothesen, die sich aus dieser Beobachtung ableiten lassen, sind noch lange nicht geklärt.

Tandemwiederholungen

Tandem-Wiederholungen bestehen aus aufeinanderfolgenden identischen oder nahezu identischen (degenerierten) Wiederholungseinheiten. Sie variieren sowohl in der Länge der Wiederholungseinheit als auch in der Länge der gesamten Wiederholung sehr, so dass jede Klassifizierung nicht zufriedenstellend ist und "cum grano salis" genommen werden muss. Die größten Wiederholungen, die dazu neigen, aus großen Wiederholungseinheiten zusammengesetzt zu sein, heißen Satelliten. Der Name Satelliten kommt von der Zentrifugation von DNA in Dichtegradienten. Erstens unterliegt die DNA während konventioneller Verfahren zur DNA-Isolierung einer Scherbelastung mit resultierender DNA-Fragmentierung (man beachte, dass in vivo ein G1-Phasen-Chromosom 1 DNA-Molekül enthält). Diese Fragmente können dann in Dichtegradienten zentrifugiert werden, so dass die DNA-Moleküle im Gradienten Plätze mit der gleichen Dichte wie das DNA-Molekül einnehmen. Ein Großteil der DNA wird eine Bande bilden. Aber DNA-Fragmente mit deutlich unterschiedlichem CG/AT-Gehalt, verursacht z. g. durch große monotone Wiederholungen bilden sich kleinere "Satelliten"-Bänder. Die Bezeichnung der Satelliten-DNA wurde später erweitert, um ähnlich repetitive Sequenzen einzubeziehen, die diese Satellitenbanden nicht bilden. Es gibt verschiedene primäre Repeat-Einheiten für Satelliten, von GGAAT in den Satelliten 2 und 3 bis zu 171 bp in Alpha-Satelliten. Aber diese Primäreinheiten sind oft degeneriert und enthalten gewisse Unregelmäßigkeiten. Diese Unregelmäßigkeiten können periodisch sein und somit sekundäre Wiederholungseinheiten bilden. Satelliten-DNA ist an Zentromeren und konstitutivem Heterochromatin reichlich vorhanden. Obwohl das menschliche Genom als vollständig assembliert angesehen wird, sind die Zentromerregionen und Heterochromatin enthaltenden Satellitensequenzen nicht enthalten, da die Sequenzierung solcher Regionen aus verschiedenen Gründen schwierig ist (fehlende Restriktionsstellen, schwierige Sequenzierung, fast unmögliche Contig-Assemblierung). Von den verschiedenen Satelliten, die am oder in der Nähe des Zentromers gefunden werden, bildet wahrscheinlich eine Familie von Alpha-Satelliten-Wiederholungen (mit einer Primäreinheit von 171 bp) den funktionellen Kern von Zentromeren, da sie für den Kinetochoraufbau während der Zellteilung wichtig sind (einige Kinetochorproteine ​​binden an die Alpha- -Satellit am Zentromer, und somit nukleiert Kinetochor-Assembly). Die Funktion anderer Satelliten ist unbekannt und wird meist als Junk-DNA angesehen.

Minisatelliten sind kürzere Tandemwiederholungen im Bereich von kb, die in subtelomeren Regionen der Chromosomen angereichert sind. Sie sind hinsichtlich der Anzahl der Wiederholungseinheiten in einer Wiederholung oft sehr polymorph (viele Allele in der Population) und können als genetische Marker verwendet werden – VNTR, variable Anzahl von Tandem-Wiederholungen. VNTRs sind oft zu groß, um durch PCR amplifiziert zu werden, und werden daher typischerweise durch Southern-Blot untersucht. Manchmal wird angenommen, dass bestimmte Minisatelliten regulatorische Funktionen haben, wie z.B. ein VNTR im Insulinpromotor, bei dem eine unterschiedliche Länge der Wiederholung mit verschiedenen Diabetestypen in Verbindung gebracht wurde. Ein Allel des Insulin-VNTR ist in Abb. 1 gezeigt. 7. Telomere menschlicher Chromosomen, die aus mehreren Kilobasen des Hexamer-Repeats TTAGGG gebildet werden, gehören ebenfalls zum Minisatelliten-Bereich der Tandem-Repeats, obwohl sie durch einen bestimmten Mechanismus entstehen - durch das Enzym Telomerase. Telomerase besteht aus einer Proteinuntereinheit mit reverser Transkriptase-Aktivität und einer RNA-Untereinheit mit einer zu TTAGGG komplementären Sequenz, die als Matrize für die Telomerverlängerung dient (die Telomerase-Proteinuntereinheit ist mit der reversen Transkriptase von Nicht-LTR-Retrotransposons verwandt). Telomere können sich jedoch auch durch den passiven allgemeinen Mechanismus des ungleichen Crossing-Over verlängern (siehe Abb. 5D), z.B. in Krebszellen.

An dieser Stelle sei vielleicht noch einmal darauf hingewiesen, dass die Sequenz des menschlichen Genoms die euchromatischen Regionen umfasst, proximal begrenzt, jedoch ohne die Zentromere und das pericentromere Heterochromatin, und distal von Telomeren, die ebenfalls zusammen mit subtelomeren Regionen nicht eingeschlossen sind.

Mikrosatelliten haben Wiederholungseinheiten von typischerweise 1-5 bp, wobei die Wiederholungslänge selten Hunderte von Wiederholungen überschreitet. Die häufigste Familie dieser Wiederholungen sind 2 bp-Wiederholungen, von denen (CA)n-Wiederholungen vorherrschen. Die Mikrosatelliten sind im Genom sehr verbreitet, hoch polymorph und werden sehr oft als genetische Marker verwendet. Beispiele für solche genetischen Marker finden sich im Kapitel über die Verknüpfung.

Trinukleotidexpansionskrankheiten

In oder in der Nähe der Gene kann die Länge von Mikrosatelliten tiefgreifende Folgen haben - z.B. bei sogenannten Trinukleotidexpansionskrankheiten, einer Gruppe von heterogenen hereditären mendelschen Syndromen. Das bekannteste Beispiel ist die Huntington-Chorea, eine tödliche neurologische Erkrankung mit Beginn im Erwachsenenalter, die sich als Demenz und extrapyramidale Bewegungssteuerungsstörung darstellt. Im Huntingtin-Gen gibt es eine CAG-Repeat-Sequenz, die für einen Abschnitt von Glutaminresten (Polyglutamin-Trakt) im Huntingtin-Protein kodiert. Normalerweise haben Menschen weniger als 20 CAG-Trinukleotide und folglich Glutamine im Huntingtin, wo es als wichtige Domäne für die Protein-Protein-Interaktion dient. Wenn diese Zahl jedoch durch Mutation auf mehr als 30 Glutamine ansteigt, funktioniert das Protein nicht richtig, was zu einem fortschreitenden Absterben von Neuronen im Nucleus caudatus führt. Bei anderen Trinukleotidexpansionskrankheiten, myotoner Dystrophie (Muskeldystrophie mit Muskelschwäche, die paradoxerweise mit erhöhtem Muskeltonus einhergeht), findet eine pathologische Expansion des Trinukleotid-CTG in der 3. untranslatierten Region der DMPK (Dystrophia myotonica Proteinkinase) statt. Die mutierte mRNA selbst hat daher das pathologische Potenzial und richtet wahrscheinlich durch die Sequestrierung verschiedener Transkriptionsfaktoren verheerende Folgen an. Weitere Beispiele für "Ausdehnungs"-Krankheiten finden Sie im Kapitel Nichtmendelsche Vererbung.

Mechanismen der Tandem-Wiederholungsexpansion/-schrumpfung

Der erste Mechanismus, der zum Polymorphismus der Tandemwiederholungslänge beiträgt, ist ungleiches Crossing-Over. Das ist insbesondere für die größeren Wiederholungen typisch (Abb. 5D). Kleine Mikrosatelliten-Wiederholungen ändern oft ihre Länge durch Fehler bei der DNA-Synthese, z. g. ein Mechanismus, der als Polymerase-Slippage bezeichnet wird (Abb. 8). An der Spitze der Replikation ist die DNA-Doppelhelix noch nicht extrem stabil und unterliegt starken thermischen Schwankungen. Wenn die Polymerase zufällig am Mikrosatelliten repliziert, können die DNA-Stränge (während der Fluktuationen) möglicherweise nicht exakt reassoziieren, sondern mit einer Verschiebung um mehrere Wiederholungseinheiten. Dieser Mechanismus wird in einigen Arten von Wiederholungen verstärkt, die Übergangszustände durch Bildung von Doppelstrangschleifen stabilisieren können, z. das CAG/CTG-Trinukleotid.

Links

Repetitive Sequenzen werden in einer zentralen Datenbank, Repbase, gespeichert (leider ist die direkte Nutzung von RepBase nur für akademische Einrichtungen möglich). http://www.girinst.org/

Es gibt auch spezialisierte Datenbanken, die nur einige Aspekte abdecken, wie zum Beispiel eine Datenbank mit humanen endogenen Retroviren. http://herv.img.cas.cz/

RepeatMasker ist ein Computerprogramm, das die Identifizierung repetitiver Sequenzen unter Verwendung von Repbase und schließlich deren Maskierung in der Sequenz durchführt (z. B. um die Genentdeckung zu erleichtern). http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker

SRPDB (Signal Recognition Particle Database) stellt Sequenzen und Strukturen bereit, die sich auf Funktionen von SRP beziehen. http://psyche.uthct.edu/SRPDB/SRPDB.html

AluGene ist eine Datenbank von Alu-Elementen, die in proteinkodierende Gene eingebaut sind http://alugene.tau.ac.il/

L1Xplorer ist eine Datenbank zur Erkennung und Annotation von intakten L1-Elementen in voller Länge http://l1xplorer.molgen.mpg.de

Links

Abb. 1: Verschiedene Klassen von Transposonen, die im menschlichen Genom vorkommen
A: Nicht-LTR-Retrotransposons. LINEs (lange eingestreute Wiederholungen) werden durch LINE-1 (L1) dargestellt. 6-kb-Element enthält zwei offene Leserahmen. Der ORF2 enthält Endonuklease (en), Reverse Transkriptase (rvt)-Domäne sowie eine Cystein-reiche Domäne (C-rich). Die 5 -untranslatierte Region (5 UTR) enthält auch den internen Promotor für die RNA-Polymerase II (in einem üblichen Gen befindet sich der Promotor stromaufwärts von der 5 UTR). 3 untranslatierte Region (3 UTR) enthält ein kanonisches Polyadenylierungssignal (AATAAA) und einen polyA-Schwanz (der normalerweise auch in den gewöhnlichen Genen fehlt und nur durch die Wirkung der polyA-Polymerase an die mRNA angefügt wird). L1 wird von der Zielstellenduplikation (TSD) flankiert, die während der Ziel-geprimten reversen Transkription auftritt.
B: LTR-Retrotransposon – endogenes Retrovirus. Dargestellt ist eine typische Struktur eines Retrovirus, genauer eines Provirus, die in die DNA integrierte Form. Endogene Retroviren lassen sich von den infektiösen nur durch Punktmutationen oder Deletionen in den für die infektiöse Partikelassemblierung notwendigen Genen unterscheiden - in den meisten Fällen ist es das env (Envelope)-Gen. gag (gruppenspezifisches Antigen) ist das Nukleokapsidprotein. pol (Polymerase) besitzt die reverse Transkriptase (rvt)-Aktivität für die Erst- und Zweitstrang-DNA-Synthese, RnaseH-Aktivität für die Spaltung von RNA im RNA/DNA-Hybrid nach der Erststrang-Synthese und Integrase (int)-Aktivität (spaltet die Ziel-DNA und ligiert die Retrovirus in die gespaltene Stelle). prt (Protease) ist unverzichtbar für die Virusassemblierung durch Spaltung von Proteinvorläufern, die von Retrovirus-mRNA translatiert werden (z. B. werden gag und pol oft als ein großes Polyprotein translatiert). LTRs (long terminal repeats) sind identische Sequenzen an den Retrovirusenden. Jede LTR besteht aus U3 (3. untranslatierte Region), R (Rekombinationsregion) und U5 (5. untranslatierte Region). Dies leitet sich von der Retrovirus-mRNA-Struktur ab, die sich nur von stromaufwärts R bis stromabwärts R erstreckt. Wie die cDNA voller Länge von dieser mRNA abgeleitet wird, würde den Rahmen dieses Kapitels sprengen. Obwohl die endogenen Retroviren im Zytoplasma revers transkribiert werden, so dass der Integrationsmechanismus theoretisch keine Duplikationen an der Zielstelle erfordert, werden diese oft gebildet, wenn auch kürzer als in L1.
C: DNA-Transposon wird durch die 1,2-kb-Mariner-Familie repräsentiert. Auch das synthetische DNA-Transposon Dornröschen gehört zu dieser Familie. Die zentrale Transposase-Region wird von invertierten Wiederholungen flankiert. Bei der Integration wird eine Duplikation der Zielstelle aus der Wirts-DNA gebildet. Die Duplikation der Zielstelle wird im Genom als Transposon-Signatur belassen, wenn das Transposon an eine andere Stelle springt.
D: Nichtautonome NonLTR-Retrotransposons gehören zum SINE (short interspersed repeat). Die beim Menschen aktive Unterfamilie wird durch ein typisches 282 bp großes Alu-Element repräsentiert. Alu ist ein Dimmer, der aus zwei nahezu identischen Monomeren besteht (helles und mittleres Grau). Das linke Monomer weist eine Streichung des dunkelgrauen Kästchens auf. Das Monomer stammt vom 7SL-RNA-Gen, das für die RNA-Untereinheit von SRP (Signal Recognition Particle) kodiert. SRP ist ein komplex erkennendes Signalpeptid der S-Proteine, die in das Lumen oder die Membran des endoplasmatischen Retikulums transportiert werden sollen. Beachten Sie, dass das 7SL-Gen im Maßstab von 50 % gezeichnet ist! Die PolyA-Region von Alu ist nicht Teil des 7SL-Gens, ist aber für den Erfolg von Alu bei der Retrotransposition wichtig.

Abbildung 2. Zielgerichtete reverse Transkription (TPRT)
Das ORF2-Protein spaltet zuerst einen DNA-Strang am Ziel (die Zielsequenz ist reich an A+T und die Sequenz ähnelt normalerweise dem Konsensus-TTAAAA, die Spaltung erfolgt zwischen T und A am komplementären Strang). Der gespaltene Strang dissoziiert und bindet an den polyA-Schwanz der L1-mRNA (gestrichelte orange Linie). Die freie 3. OH-Gruppe des DNA-Strangs leitet die cDNA-Erststrangsynthese ein. Die Spaltung des zweiten DNA-Strangs erfolgt 7-20 nt stromabwärts des ersten Schnitts und die durch dieses Ereignis erzeugte freie 3 -OH-Gruppe wird verwendet, um die Synthese des zweiten Strangs von L1-cDNA zu starten. Der Mechanismus der Zweitstrangsynthese ist nicht vollständig aufgeklärt. Der gesamte Prozess endet mit der Bildung einer neuen DNA-Kopie von L1, flankiert von einer Duplikation der Zielstelle.

Abbildung 3. LINE-1 verändert das Genom auf verschiedene Weise
EIN: Retrotransposition in cis. L1 macht retrotransponierte Kopien von sich selbst. Die Kopien können vollständig oder häufiger 5 abgeschnitten oder 5 mit Inversion abgeschnitten sein. B: Das ORF2-Protein von L1 kann SINE-Elemente (wie Alu) oder andere zelluläre mRNAs retrotransponieren, wodurch prozessierte Pseudogene erzeugt werden (Retrotransposition in trans). Kodierende Exons sind durch braune Kästchen dargestellt, 5 und 3 UTR (untranslatierte Regionen) sind in hellerer Farbe dargestellt, das Spleißen von Exons in mRNA ist durch gestrichelte Linien gekennzeichnet. C: Retrotransposon kann in ein Gen inserieren. Die Insertion in das Exon führt normalerweise zur Unterbrechung des offenen Leserahmens und zur Proteinverkürzung (Sternchen zeigt die Stelle eines neuen Stopcodons an). Aber auch das Einfügen in ein Intron kann schädliche Folgen haben - z.B. Exon-Skipping oder die Schaffung eines neuen Exons, was auch oft das Protein stört. Die Retrotransposon-Insertion ist eine gut dokumentierte Ursache für verschiedene Erbkrankheiten. Am häufigsten eingesetzt werden Alu-Elemente, gefolgt von L1. D: 3. Transduktion. L1 hat ein relativ schwaches Polyadenylierungssignal. Daher kann die RNA-Polymerase auch einen Abschnitt der flankierenden Chromosomen-DNA durchlesen und transkribieren. Diese Hybrid-mRNA wird dann retrotransponiert, was dazu führt, dass sowohl L1 (das jedoch normalerweise teilweise 5 verkürzt oder sogar vollständig deletiert ist) als auch die flankierende DNA verschoben wird. Dies könnte ein Mechanismus des Exon-Shufflings zwischen den Genen sein. E: Die Insertion eines Retrotransposons wird oft von einer Umordnung begleitet - hier Deletion des grünen Segments und Inversion des roten Segments einschließlich eines Exons mit anschließendem Überspringen dieses Exons beim Spleißen. F: Der L1-Promotor kann die Transkription nicht nur seines eigenen Elements fördern, sondern auch der benachbarten Gene, sowohl stromaufwärts als auch stromabwärts.

Abbildung 4 Alu-Sequenzen sind Hyperparasiten
A: Struktur des 7SL-RNA-Gens und Alu-Elements (links) und Sekundärstruktur der jeweiligen RNA-Moleküle (rechts). Die Transkription des 7SL-RNA-Gens wird durch den internen RNA-Polymerase-III-Promotor (A) und -Enhancer (EN) gesteuert. Das Alu-Gen hat einen zusammengesetzten internen Promotor (A+B). Der natürliche Terminator der RNA-Polymerase III ist das Tetranukleotid TTTT. Die Transkription wird unterbrochen, nachdem die ersten drei T. 7SL-RNA aus der Alu-Domäne (blau) und der S-Domäne (gelb) zusammengesetzt sind. Die SRP-Proteine ​​9 und 14 binden an die Alu-Domäne, die zur Verankerung am Ribosom dient. Andere Proteine ​​binden an die S-Domäne, einschließlich Protein 54, das an der Erkennung des Signalpeptids (rote Linie) mitwirkt. Alu-RNA wird im Wesentlichen durch zwei Alu-Domänen von 7SL-RNA gebildet, wobei eine polyA-Sequenz hinzugefügt wird.
B: Alu-RNA bindet an Ribosomen.Wenn das Ribosom nur ORF2 von LINE-1-mRNA (grüne Linie) translatiert, konkurriert der polyA-Schwanz des Alu-Elements mit dem polyA-Schwanz von L1 um die Bindung von naszierendem ORF2. PolyA-bindende Proteine ​​vermitteln die Interaktion. Wenn ORF2 an Alu bindet, wird ORF2 Alu anstelle von L1 umgekehrt übersetzen und transponieren und somit auf L1 parasitieren. Wenn wir L1 als genomischen Parasiten betrachten, ist Alu ein Hyperparasit - d. e. der Parasit des Parasiten. Andere zelluläre mRNAs (blaue Linie) können ebenfalls mit der L1-mRNA um die ORF2-Bindung konkurrieren, wenn auch mit viel geringerer Effizienz (es wird geschätzt, dass von 3000 L1-Retrotranspositionen 300 von Alu-Elementen und nur cca 1 von einer anderen mRNA gekapert würden.

Abbildung 5. Wiederholungen fördern genomische Umlagerungen.
A+B: genomische Region, die direkte Wiederholungen enthält (in die gleiche Richtung, die gleiche Sequenz auf dem gleichen DNA-Strang). Die zwei Wiederholungen können paaren und rekombinieren. Die intrachromosomale Rekombination (A) führt zur Deletion. Das hypothetische kreisförmige Fragment geht verloren - es besitzt kein Zentromer. Ungleiches Crossing-over mit resultierender interchromosomaler Rekombination (B) verursacht Deletion und Duplikation.
C: Intrachromosomale Rekombination zwischen zwei invertierten Wiederholungen (in die entgegengesetzte Richtung, die gleiche Sequenz befindet sich auf dem gegenüberliegenden DNA-Strang) führt zur Inversion der dazwischenliegenden DNA-Sequenz. Die funktionellen Konsequenzen solcher Neuordnungen sind kontextabhängig, von lautlos bis tödlich, wie zu erwarten ist.
D: Tandem-Repeat-Polymorphismen können durch ungleiches Überkreuzen entstehen.

Abbildung 6. Satelliten
A: Primäreinheiten und (sekundäre) Einheiten höherer Ordnung der Tandemwiederholung. Wahrscheinliche "Evolutionsgeschichte" von Wiederholungen, wie durch die GGAAT-Sequenz veranschaulicht. Diese Sequenz multipliziert und bildet somit eine perfekte monotone Wiederholung. Einige Positionen unterliegen später einer Mutation (rot), wodurch eine unvollkommene (degenerierte) Wiederholung entsteht. Dann multipliziert sich die Sequenz erneut, aber jetzt multiplizieren sich mehrere degenerierte Einheiten zu einer Einheit, wodurch eine perfekte Wiederholung dieser größeren, sekundären Einheit entsteht (Pfeil). Die Sequenz GGAAT ist Basis der menschlichen Satelliten 2 und 3. Diese Satelliten unterscheiden sich durch die Sekundäreinheit.
B: Struktur des menschlichen mitotischen Chromosoms in Bezug auf Satellitensequenzen. Alpha-Satellit bildet im Kern des Zentromers Heterochromatin. Neben den mit Heterochromatin assoziierten Proteinen lagern sich Alpha-Satelliten-bindende Proteine ​​auf den Alpha-Satellitensequenzen zusammen, um die innere Platte des Kinetochors zu bilden. Einige dieser Proteine ​​sind während des gesamten Zellzyklus mit dem Zentromer assoziiert. Auf der inneren Kinetochorplatte sitzt eine äußere Kinetochorplatte, die mit Mikrotubuli der Mitosespindel interagiert. Centromer wird normalerweise von perizentrischem Heterochromatin flankiert, das von anderen Arten von Satellitensequenzen gebildet wird. Spitzen des Chromosoms (Telomere) werden durch telomere Wiederholung TTAGGG gebildet, die angrenzenden subtelomeren Regionen sind ebenfalls stark repetitiv.

Abbildung 7. VNTR im Insulin-Gen
EIN: DNA-Segment (kodierender Strang, Richtung 5 bis 3 ), das das Insulingen enthält. Das Insulin-Gen enthält drei Exons (Großbuchstaben), die die reife mRNA bilden. Die wichtigen regulatorischen Sequenzmotive sind rot markiert - TATA-Box stromaufwärts der Transkriptionsinitiationsstelle, ATG als Start der Translation (transkribiert in AUG in mRNA, die als Initiationscodon dient, Insertion des ersten Methionins des Polypeptidstrangs), die konservierten Dinukleotide GT und AG an Intron-Spleißstellen, Stoppcodon TAG und Polyadenylierungssignal AATAAA. Stellen von Einzelnukleotid-Polymorphismen sind fett gedruckt (das bedeutet, dass viele Probanden ein anderes Nukleotid an dieser Position haben, nicht das gezeigte). Der Minisatellit ist natürlich blau, es wird nur ein Allel angezeigt, andere Allele unterscheiden sich durch die Anzahl der Wiederholungen. B: Dieses Allel des VNTR besteht aus 29 Wiederholungen des Sequenzmotivs GGGGTGTGGGGACA, obwohl nicht alle Wiederholungseinheiten perfekt mit dem Konsensus übereinstimmen (nicht übereinstimmende Basen sind in schwarz). Beachten Sie, dass die Wiederholung ein Palindrom TGTnnnnACA enthält, das "Stem-Loop"-Strukturen stabilisieren und somit die Instabilität der Anzahl der Wiederholungen fördern kann (siehe Abb. 8). Eine variable Länge des Minisatelliten direkt stromaufwärts des Insulingens in der Promotorregion kann unterschiedlich mit dem Transkriptionsfaktor-Bindungspromotor interagieren und somit eine unterschiedliche Expression des Insulingens bewirken. Tatsächlich wurden einige Allele mit der Entwicklung von Diabetes in Verbindung gebracht (allerdings ist es sehr schwierig, den direkten Effekt von "nur" Kopplung zu unterscheiden - siehe das Kapitel über Kopplung.

Abb. 8. Polymorphismus in Mikrosatelliten kann durch Polymerase-Schlupf entstehen
Während der Polymerisation können thermische Fluktuationen DNA-Stränge dissoziieren. Die Reassoziation ist normalerweise perfekt und führt zu keiner Änderung. Gelegentlich kann sich die DNA jedoch aufgrund der Wiederholung ungleich ausrichten. Entweder schlingt sich der polymerisierende Strang zurück, was zu einer Expansion des Rapports führen kann (das ist häufiger) oder der sich verlängernde Strang bindet distaler an die Matrize (die Matrize schlingt sich zurück) mit anschließender Schrumpfung des Rapports. Einschub: Einige Wiederholungen können dieses Verfahren aufgrund der Stabilisierung des Übergangszustands durch die Bildung einer Stamm-Schleife-Struktur aus der unvollkommenen Doppelhelix fördern, insbesondere CAG/CTG-Wiederholungen, die an der Pathogenese mehrerer Trinukleotidexpansionskrankheiten beteiligt sind. Je länger der Mikrosatellit ist, desto höher ist die Wahrscheinlichkeit des Polymerase-Slippages, was in Kombination mit der ausgeprägteren Tendenz zur Verlängerung des Repeats eine positive (verstärkende) Rückkopplungsschleife erzeugt.


14.5 DNA-Replikation in Eukaryoten

In diesem Abschnitt gehen Sie den folgenden Fragen nach:

  • Was sind die Ähnlichkeiten und Unterschiede zwischen der DNA-Replikation in Eukaryonten und Prokaryonten?
  • Welche Rolle spielt die Telomerase bei der DNA-Replikation?

Anschluss für AP ® Kurse

Konzepte und Beispiele, die in diesem Abschnitt beschrieben werden, fallen nicht in den Anwendungsbereich von AP. Die Rolle von Telomeren und Telomerase bei Alterung und Krebs ist jedoch informativ und baut auf Ihrem Wissen über die DNA-Replikation in Prokaryonten auf.

Lehrerunterstützung

Vergleichen Sie die eukaryotische DNA-Replikation mit der prokaryotischen Replikation. Tabelle 14.2 ist nützlich. Besorgen Sie sich Abbildungen des Prozesses in eukaryotischen Zellen, die es den Schülern ermöglichen, die Details zu sehen.

Kombinieren Sie diese Themen in einer Diskussion über Telomere, Altern und Krebs. Die Schüler könnten denken, dass die Telomerlänge die Unterschiede in der Lebenserwartung verschiedener Tiere wie Menschen und Hunde erklärt. Erklären Sie, dass dies eine verlockende Schlussfolgerung sein mag, aber einige langlebige Arten wie der Mensch haben kürzere Telomere als Mäuse, die nur wenige Jahre alt werden.

Eukaryontische Genome sind viel komplexer und größer als prokaryontische Genome. Das menschliche Genom hat drei Milliarden Basenpaare pro haploiden Chromosomensatz, und 6 Milliarden Basenpaare werden während der S-Phase des Zellzyklus repliziert. Es gibt mehrere Replikationsursprünge auf dem eukaryontischen Chromosom. Menschen können bis zu 100.000 Replikationsursprünge haben. Die Replikationsrate beträgt ungefähr 100 Nukleotide pro Sekunde, viel langsamer als die prokaryontische Replikation. In Hefe, einem Eukaryoten, finden sich auf den Chromosomen spezielle Sequenzen, die als autonom replizierende Sequenzen (ARS) bekannt sind. Diese entsprechen dem Replikationsursprung in E coli.

Die Zahl der DNA-Polymerasen in Eukaryoten ist viel größer als in Prokaryoten: 14 sind bekannt, von denen fünf eine wichtige Rolle bei der Replikation spielen und gut untersucht wurden. Sie sind bekannt als pol α, pol β, pol γ, pol δ, und pol ε.

Die wesentlichen Schritte der Replikation sind die gleichen wie bei Prokaryonten. Bevor die Replikation beginnen kann, muss die DNA als Matrize zur Verfügung gestellt werden. Eukaryotische DNA ist an basische Proteine, die als Histone bekannt sind, gebunden, um Strukturen zu bilden, die Nukleosomen genannt werden. Das Chromatin (der Komplex zwischen DNA und Proteinen) kann einige chemische Modifikationen erfahren, so dass die DNA von den Proteinen abgleiten kann oder für die Enzyme der DNA-Replikationsmaschinerie zugänglich ist. Am Replikationsursprung wird ein Prä-Replikationskomplex mit anderen Initiatorproteinen gebildet. Andere Proteine ​​werden dann rekrutiert, um den Replikationsprozess zu starten (Tabelle 14.2).

Eine Helikase, die die Energie der ATP-Hydrolyse nutzt, öffnet die DNA-Helix. Replikationsgabeln werden an jedem Replikationsstartpunkt gebildet, wenn sich die DNA abwickelt. Die Öffnung der Doppelhelix verursacht ein Überwinden oder Supercoiling in der DNA vor der Replikationsgabel. Diese werden durch die Wirkung von Topoisomerasen aufgelöst. Primer werden durch das Enzym Primase gebildet, und unter Verwendung des Primers kann DNA pol die Synthese starten. Während der Leitstrang kontinuierlich vom Enzym pol . synthetisiert wird δ, der nacheilende Strang wird von pol . synthetisiert ε. Ein als PCNA (Proliferating Cell Nuclear Antigen) bekanntes Gleitklemmenprotein hält den DNA-Pol an Ort und Stelle, damit er nicht von der DNA abrutscht. RNase H entfernt den RNA-Primer, der dann durch DNA-Nukleotide ersetzt wird. Die Okazaki-Fragmente im nacheilenden Strang werden nach dem Austausch der RNA-Primer durch DNA zusammengefügt. Die verbleibenden Lücken werden durch DNA-Ligase verschlossen, die die Phosphodiesterbindung bildet.

Telomer-Replikation

Im Gegensatz zu prokaryontischen Chromosomen sind eukaryontische Chromosomen linear. Wie Sie erfahren haben, kann das Enzym DNA pol Nukleotide nur in der 5'-3'-Richtung hinzufügen. Im Leitstrang wird die Synthese fortgesetzt, bis das Ende des Chromosoms erreicht ist. Auf dem nacheilenden Strang wird DNA in kurzen Abschnitten synthetisiert, die jeweils durch einen separaten Primer initiiert werden. Wenn die Replikationsgabel das Ende des linearen Chromosoms erreicht, gibt es keinen Platz für einen Primer für das zu kopierende DNA-Fragment am Ende des Chromosoms. Diese Enden bleiben somit ungepaart, und im Laufe der Zeit können diese Enden mit der weiteren Zellteilung immer kürzer werden.

Die Enden der linearen Chromosomen werden als Telomere bezeichnet, die sich wiederholende Sequenzen aufweisen, die für kein bestimmtes Gen kodieren. In gewisser Weise schützen diese Telomere die Gene davor, bei der weiteren Zellteilung gelöscht zu werden. Beim Menschen wird eine Sequenz aus sechs Basenpaaren, TTAGGG, 100- bis 1000-mal wiederholt. Die Entdeckung des Enzyms Telomerase (Abbildung 14.16) half beim Verständnis der Aufrechterhaltung der Chromosomenenden. Das Telomerase-Enzym enthält einen katalytischen Teil und eine eingebaute RNA-Matrize. Es heftet sich an das Ende des Chromosoms und komplementäre Basen zur RNA-Matrize werden am 3'-Ende des DNA-Strangs hinzugefügt. Sobald das 3'-Ende der nacheilenden Strangmatrize ausreichend verlängert ist, kann die DNA-Polymerase die zu den Enden der Chromosomen komplementären Nukleotide hinzufügen. Somit werden die Enden der Chromosomen repliziert.

Telomerase ist typischerweise in Keimzellen und adulten Stammzellen aktiv. In adulten Körperzellen ist es nicht aktiv. Für ihre Entdeckung der Telomerase und ihrer Wirkung erhielt Elizabeth Blackburn (Abbildung 14.16) 2009 den Nobelpreis für Medizin und Physiologie.

Telomerase und Alterung

Die Telomere von Zellen, die sich einer Zellteilung unterziehen, werden weiterhin verkürzt, da die meisten somatischen Zellen keine Telomerase herstellen. Dies bedeutet im Wesentlichen, dass die Verkürzung der Telomere mit dem Altern verbunden ist. Mit dem Aufkommen der modernen Medizin, der Gesundheitsvorsorge und eines gesünderen Lebensstils hat sich die Lebenserwartung des Menschen verlängert, und die Nachfrage nach einem jüngeren Aussehen und einer besseren Lebensqualität mit zunehmendem Alter steigt.

Im Jahr 2010 fanden Wissenschaftler heraus, dass Telomerase einige altersbedingte Zustände bei Mäusen umkehren kann. Dies könnte in der regenerativen Medizin Potenzial haben. 2 Telomerase-defiziente Mäuse wurden in diesen Studien verwendet. Diese Mäuse weisen Gewebeatrophie, Stammzelldepletion, Organsystemversagen und eine beeinträchtigte Reaktion auf Gewebeverletzungen auf. Die Telomerase-Reaktivierung bei diesen Mäusen verursachte eine Verlängerung der Telomere, reduzierte DNA-Schäden, kehrte die Neurodegeneration um und verbesserte die Funktion von Hoden, Milz und Darm. Somit könnte die Telomerreaktivierung das Potenzial zur Behandlung altersbedingter Erkrankungen beim Menschen haben.

Krebs ist durch eine unkontrollierte Zellteilung abnormaler Zellen gekennzeichnet. Die Zellen akkumulieren Mutationen, vermehren sich unkontrolliert und können durch einen Prozess namens Metastasierung in verschiedene Teile des Körpers wandern. Wissenschaftler haben beobachtet, dass Krebszellen die Telomere erheblich verkürzt haben und dass die Telomerase in diesen Zellen aktiv ist. Interessanterweise wurde die Telomerase erst aktiv, nachdem die Telomere in den Krebszellen verkürzt wurden. Wenn die Wirkung der Telomerase in diesen Zellen während der Krebstherapie durch Medikamente gehemmt werden kann, könnte die weitere Teilung der Krebszellen möglicherweise verhindert werden.


DNA-Methylierungsveränderungen bei menschlichen Krebserkrankungen

5.2.3.2 Hypomethylierung des Oncogenes-Promotors

Die DNA-Hypomethylierung einiger Onkogene ist an der Tumorentstehung beteiligt. LINE (Long Interspersed Nuclear Element) ist die aktivste und am häufigsten vorkommende mobile DNA- oder Transposon-Sequenz, deren Hypomethylierung bei einigen Krebsarten zu einer Transkriptionsaktivierung führen könnte [49] . Die Insertionsmutagenese von LINE zerstörte die Expression von APC (adenomatöse Polyposis coli) in CC [50] . Andere Single-Copy-Gene sind bei menschlichen Krebserkrankungen ebenfalls hypomethyliert. Beispiel: PR-Domain mit 16 (PRDM16) ist hypomethyliert, und der Hypomethylierungsstatus des PRDM16 Promotor könnte bei Astrozytompatienten schlechte Prognosen vorhersagen [51]. Hohe Expression der Transmembranprotease Serin 4 (TMPRSS4), ist ein unabhängiger prognostischer Faktor bei Plattenepithelkarzinomen (SCC), und seine abweichende Hypomethylierung korreliert mit hohem TMPRSS4 Expression, die als unabhängiger prognostischer Faktor bei SCC nachgewiesen wurde [52] . Die Hypomethylierung des Promotors führt zur Aktivierung von Protoonkogenen. Ein Beispiel ist MAT2A (Methionin-Adenosyltransferase), ein identifiziertes hypomethyliertes tumorförderndes Gen im primären humanen HCC [53] . S100A8 (S100 Calcium-bindendes Protein A8) Protein, bekannt als Calcyclin, war in Nichttumorgeweben häufig hypermethyliert, in HCC-Geweben jedoch hypomethyliert. Der Methylierungsgrad der Site (cg2007009) in S100A8 Expressionsniveaus nahmen bei HCC signifikant ab. Außerdem ist die Hypomethylierung von S100A8 wurde sowohl mit verkürztem PFS (progressionsfreies Überleben) als auch mit OS (Gesamtüberleben) in Verbindung gebracht, was eine potenzielle Rolle für S100A8 Hypomethylierung als diagnostischer HCC-Biomarker [54]. Die S100A4 Gen, auch Metastasen-assoziiertes Gen genannt, wird häufig demethyliert, und seine Proteinexpression ist bei CC erhöht [55] . Darüber hinaus ADP-Ribosylierungsfaktor (ARF) – wie 4C (ARL4C) eine Überexpression aufgrund von DNA-Hypomethylierung in der 3′-untranslatierten Region (3′UTR) fördert die Tumorentstehung des Lungen-SCC [56].


Inhalt

SINEs werden als Nicht-LTR-Retrotransposons klassifiziert, da sie keine Long Terminal Repeats (LTRs) enthalten. [4] Es gibt drei Arten von SINEs, die Wirbeltieren und Wirbellosen gemeinsam sind: CORE-SINEs, V-SINEs und AmnSINEs. [3] SINEs haben 50-500 Basenpaare interne Regionen, die ein tRNA-abgeleitetes Segment mit A- und B-Boxen enthalten, die als interner Promotor für die RNA-Polymerase III dienen. [5] [3]

Interne Struktur Bearbeiten

SINEs zeichnen sich durch ihre unterschiedlichen Module aus, die im Wesentlichen eine Aufteilung ihrer Sequenz sind. SINEs können, müssen aber nicht unbedingt einen Kopf, einen Körper und einen Schwanz besitzen. Der Kopf befindet sich am 5'-Ende von kurz eingestreuten Kernelementen und ist evolutionär von einer RNA abgeleitet, die von RNA-Polymerase III synthetisiert wurde, wie ribosomale RNAs und tRNAs der 5'-Kopf zeigt an, von welchem ​​endogenen Element SINE abgeleitet wurde und konnte seine Transkriptionsmaschinerie parasitär nutzen. [1] Zum Beispiel leitet sich das 5' des Alu-Sinus von 7SL-RNA ab, einer von RNA-Polymerase III transkribierten Sequenz, die für das RNA-Element von SRP, einem reichlich vorhandenen Ribonukleoprotein, kodiert. [6] Der Körper von SINEs besitzt einen unbekannten Ursprung, teilt aber oft viel Homologie mit einer entsprechenden LINE, was es SINEs somit ermöglicht, durch LINEs kodierte Endonukleasen (die bestimmte Sequenzmotive erkennen) parasitär zu kooptieren. Schließlich besteht der 3′-Schwanz von SINEs aus kurzen einfachen Wiederholungen unterschiedlicher Länge. Diese einfachen Wiederholungen sind Stellen, an denen sich zwei (oder mehr) kurz verstreute Kernelemente zu einem dimeren SINE verbinden können. [7] Kurz eingestreute Kernelemente, die nicht nur Kopf und Schwanz besitzen, werden einfache SINEs genannt, während kurz eingestreute Kernelemente, die auch einen Körper besitzen oder eine Kombination aus zwei oder mehr SINEs sind, komplexe SINEs sind. [1]

Kurz eingestreute Kernelemente werden von der RNA-Polymerase III transkribiert, von der bekannt ist, dass sie ribosomale RNA und tRNA transkribiert, zwei Arten von RNA, die für den ribosomalen Zusammenbau und die mRNA-Translation wichtig sind. [8] SINEs besitzen wie tRNAs und viele kleinnukleare RNAs einen internen Promotor und werden daher anders als die meisten proteinkodierenden Gene transkribiert. [1] Mit anderen Worten, kurz eingestreute Kernelemente haben ihre Schlüsselpromotorelemente innerhalb der transkribierten Region selbst. Obwohl SINEs und andere Gene, die interne Promotoren besitzen, von RNA-Polymerase III transkribiert werden, rekrutieren sie andere Transkriptionsmaschinen und Faktoren als Gene, die stromaufwärts gelegene Promotoren besitzen. [9]

Veränderungen in der Chromosomenstruktur beeinflussen die Genexpression hauptsächlich, indem sie die Zugänglichkeit von Genen für die Transkriptionsmaschinerie beeinflussen. Das Chromosom hat ein sehr komplexes und hierarchisches System zur Organisation des Genoms. Dieses Organisationssystem, das Histone, Methylgruppen, Acetylgruppen und eine Vielzahl von Proteinen und RNAs umfasst, ermöglicht, dass verschiedene Domänen innerhalb eines Chromosoms für Polymerasen, Transkriptionsfaktoren und andere assoziierte Proteine ​​in unterschiedlichem Maße zugänglich sind. [10] Darüber hinaus können die Form und Dichte bestimmter Bereiche eines Chromosoms die Form und Dichte benachbarter (oder sogar entfernter) Regionen auf dem Chromosom durch Interaktion, die durch verschiedene Proteine ​​und Elemente ermöglicht wird, beeinflussen. Nicht-kodierende RNAs, wie zum Beispiel kurz durchsetzte Kernelemente, von denen bekannt ist, dass sie mit der Chromatinstruktur assoziieren und dazu beitragen, können daher eine große Rolle bei der Regulierung der Genexpression spielen. [11] Kurze, durchsetzte Kernelemente können in ähnlicher Weise an der Genregulation beteiligt sein, indem sie die genomische Architektur modifizieren.

Tatsächlich haben Usmanova et al. 2008 schlugen vor, dass kurz eingestreute Kernelemente als direkte Signale bei der Chromatinumlagerung und -struktur dienen können. Die Arbeit untersuchte die globale Verteilung von SINEs in Maus- und Humanchromosomen und stellte fest, dass diese Verteilung der genomischen Verteilung von Genen und CpG-Motiven sehr ähnlich war. [12] Die Verteilung von SINEs auf Gene war signifikant ähnlicher als die von anderen nicht-kodierenden genetischen Elementen und unterschied sich sogar signifikant von der Verteilung von lang eingestreuten Kernelementen. [12] Dies deutet darauf hin, dass die SINE-Verteilung kein bloßer Zufall war, der durch LINE-vermittelte Retrotransposition verursacht wurde, sondern dass SINEs eine Rolle bei der Genregulation spielen. Darüber hinaus enthalten SINEs häufig Motive für YY1-Polycomb-Proteine. [12] YY1 ist ein Zinkfingerprotein, das als transkriptioneller Repressor für eine Vielzahl von Genen fungiert, die für die Entwicklung und Signalübertragung essentiell sind. [13] Es wird angenommen, dass das Polycomb-Protein YY1 die Aktivität von Histon-Deacetylasen und Histon-Acetyltransferasen vermittelt, um die Chromatin-Reorganisation zu erleichtern. Dies dient häufig der Bildung von Heterochromatin (Gen-Silencing-Zustand).[14] Somit legt die Analyse nahe, dass kurz eingestreute Kernelemente als „Signalverstärker“ bei der polycomb-abhängigen Stilllegung von Gen-Sets durch Chromatin-Reorganisation fungieren können. [12] Im Wesentlichen ist es die kumulative Wirkung vieler Arten von Wechselwirkungen, die zum Unterschied zwischen Euchromatin, das nicht dicht gepackt und im Allgemeinen für die Transkriptionsmaschinerie zugänglicher ist, und Heterochromatin, das dicht gepackt und für die Transkription im Allgemeinen nicht zugänglich ist, unterscheidet Maschinen-SINEs scheinen in diesem Prozess eine evolutionäre Rolle zu spielen.

Neben der direkten Beeinflussung der Chromatinstruktur gibt es eine Reihe von Möglichkeiten, wie SINEs potenziell die Genexpression regulieren können. Beispielsweise kann lange nicht-kodierende RNA direkt mit transkriptionalen Repressoren und Aktivatoren interagieren und deren Funktion abschwächen oder modifizieren. [15] Diese Art der Regulation kann auf verschiedene Weise erfolgen: Das RNA-Transkript kann auch als Co-Regulator direkt an den Transkriptionsfaktor binden, die RNA kann die Fähigkeit der Co-Regulatoren, mit dem Transkriptionsfaktor zu assoziieren, regulieren und modifizieren. [15] Beispielsweise ist bekannt, dass Evf-2, eine bestimmte lange nicht-kodierende RNA, als Co-Aktivator für bestimmte Homöobox-Transkriptionsfaktoren fungiert, die für die Entwicklung und Organisation des Nervensystems entscheidend sind. [16] Darüber hinaus können RNA-Transkripte die Funktionalität des Transkriptionskomplexes durch Wechselwirkung oder Assoziation mit RNA-Polymerasen während der Transkription oder des Ladeprozesses stören. [15] Darüber hinaus können nicht-kodierende RNAs wie SINEs direkt an den DNA-Duplex, der das Gen kodiert, binden oder mit ihm interagieren und so dessen Transkription verhindern. [fünfzehn]

Außerdem sind viele nicht-kodierende RNAs in der Nähe von Protein-kodierenden Genen verteilt, oft in umgekehrter Richtung. Dies gilt insbesondere für kurz eingestreute Kernelemente, wie in Usmanova et al. Diese nicht-kodierenden RNAs, die neben Gensätzen liegen oder diese überlappen, stellen einen Mechanismus bereit, durch den Transkriptionsfaktoren und Maschinen rekrutiert werden können, um die Transkription lokaler Gene zu erhöhen oder zu unterdrücken. Das besondere Beispiel von SINEs, die möglicherweise den YY1-Polycomb-Transkriptionsrepressor rekrutieren, wird oben diskutiert. [12] Alternativ bietet es auch einen Mechanismus, durch den die lokale Genexpression eingeschränkt und reguliert werden kann, da die Transkriptionskomplexe die Transkription benachbarter Gene behindern oder verhindern können. Es gibt Untersuchungen, die darauf hindeuten, dass dieses Phänomen insbesondere bei der Genregulation pluripotenter Zellen beobachtet wird. [17]

Zusammenfassend lässt sich sagen, dass nicht-kodierende RNAs wie SINEs in der Lage sind, die Genexpression auf einer Vielzahl unterschiedlicher Ebenen und auf unterschiedliche Weise zu beeinflussen. Es wird angenommen, dass kurz eingestreute Kernelemente tief in ein komplexes regulatorisches Netzwerk integriert sind, das in der Lage ist, die Genexpression im gesamten eukaryotischen Genom fein abzustimmen.

Die von dem kurz eingestreuten Kernelement kodierte RNA kodiert für kein Proteinprodukt, wird aber dennoch revers transkribiert und in eine alternative Region im Genom zurückinseriert. Aus diesem Grund wird angenommen, dass sich kurze interspersed Nuclear Elements (LINEs) gemeinsam mit langen interspersed Nuclear Elements (LINEs) entwickelt haben, da LINEs tatsächlich Proteinprodukte kodieren, die es ihnen ermöglichen, revers transkribiert und wieder in das Genom integriert zu werden. [4] Es wird angenommen, dass SINEs die Proteine ​​kooptiert haben, die von LINEs kodiert werden, die in 2 Leserastern enthalten sind. Open Reading Frame 1 (ORF 1) kodiert für ein Protein, das an RNA bindet und als Chaperon fungiert, um die LINE-Protein-RNA-Komplexstruktur zu erleichtern und aufrechtzuerhalten. [18] Open Reading Frame 2 (ORF 2) kodiert für ein Protein, das sowohl Endonuklease- als auch Reverse-Transkriptase-Aktivität besitzt. [19] Dies ermöglicht es, die LINE-mRNA revers in DNA zu transkribieren und basierend auf den Sequenzmotiven, die von der Endonuklease-Domäne des Proteins erkannt werden, in das Genom zu integrieren.

LINE-1 (L1) wird am häufigsten in der Keimbahn und während der frühen Entwicklung transkribiert und retrotransponiert, daher bewegen sich SINEs während dieser Zeiträume am häufigsten im Genom. Die SINE-Transkription wird durch Transkriptionsfaktoren in somatischen Zellen nach der frühen Entwicklung herunterreguliert, obwohl Stress eine Hochregulierung von normalerweise stummen SINEs verursachen kann. [20] SINEs können zwischen Individuen oder Spezies durch horizontalen Transfer durch einen viralen Vektor übertragen werden. [21]

Es ist bekannt, dass SINEs Sequenzhomologie mit LINES teilen, was eine Grundlage bildet, auf der die LINE-Maschinerie SINE-Transkripte revers transkribieren und integrieren kann. [22] Alternativ wird angenommen, dass einige SINEs ein viel komplexeres System der Rückintegration in das Genom verwenden. Seite? ˅). [22] Diese DNA-Brüche werden genutzt, um die reverse Transkriptase zu primen und schließlich das SINE-Transkript wieder in das Genom zu integrieren. [22] SINEs hängen jedoch von Enzymen ab, die von anderen DNA-Elementen kodiert werden, und werden daher als nicht-autonome Retrotransposons bezeichnet, da sie von der Maschinerie der LINEs abhängen, die als autonome Retrotransposons bekannt sind.< [23]

Die Theorie, dass sich kurz eingestreute Kernelemente entwickelt haben, um die Retrotransposon-Maschinerie lang eingestreuter Kernelemente zu nutzen, wird durch Studien gestützt, die das Vorhandensein und die Verteilung von LINEs und SINEs in Taxa verschiedener Arten untersuchen. [24] Beispielsweise zeigen LINEs und SINEs in Nagetieren und Primaten eine sehr starke Homologie am Insertionsstellen-Motiv. [24] Solche Beweise sind eine Grundlage für den vorgeschlagenen Mechanismus, bei dem die Integration des SINE-Transkripts mit LINE-kodierten Proteinprodukten kooptiert werden kann. Dies wird insbesondere durch eine detaillierte Analyse von über 20 Nagetierarten profilierten LINEs und SINEs, hauptsächlich L1s und B1s, gezeigt. [24] Ziel der Studie war es, phylogenetische Klarheit im Kontext der LINE- und SINE-Aktivität zu schaffen.

Die Studie gelangte zu einem Kandidatentaxa, von dem angenommen wird, dass es das erste Aussterben der L1 LINE ist. Sie stellte erwartungsgemäß fest, dass es keine Hinweise darauf gab, dass B1 SINE-Aktivität in Arten auftrat, die keine L1 LINE-Aktivität aufwiesen. [24] Die Studie deutete auch darauf hin, dass das kurzzeitig durchsetzte Kernelement-Silencing von B1 tatsächlich vor der Auslöschung des langdurchsetzten Kernelement-Aussterbens von L1 auftrat keine aktiven L1 LINEs enthalten (obwohl die Gattung mit B1 SINE Silencing noch aktive L1 LINEs enthält). [24] Es wurde auch eine andere Gattung gefunden, die in ähnlicher Weise aktive, lang eingestreute L1-Kernelemente enthielt, aber keine kurz eingestreuten B1-Kernelemente enthielt das umgekehrte Szenario, in dem aktive B1-SINEs in einer Gattung vorhanden waren, die keine aktiven L1-Linien besaß nicht gefunden. [24] Dieses Ergebnis wurde erwartet und unterstützt stark die Theorie, dass sich SINEs entwickelt haben, um die von LINEs kodierten RNA-bindenden Proteine, Endonukleasen und reversen Transkriptasen zu kooptieren. In Taxa, die lange eingestreute nukleare Elemente-Proteinprodukte nicht aktiv transkribieren und translatieren, haben SINEs nicht die theoretische Grundlage, durch die sie innerhalb des Genoms retrotransponiert werden können. Die Ergebnisse von Rinehart et al. unterstützen somit das aktuelle Modell der SINE-Retrotransposition sehr.

Die Insertion eines SINEs stromaufwärts einer kodierenden Region kann zu einem Exon-Shuffling oder zu Veränderungen der regulatorischen Region des Gens führen. Die Insertion eines SINE in die kodierende Sequenz eines Gens kann schädliche Auswirkungen haben und eine unregulierte Transposition kann genetische Erkrankungen verursachen. Die Transposition und Rekombination von SINEs und anderen aktiven Kernelementen wird als einer der wichtigsten Beiträge zur genetischen Diversität zwischen Linien während der Artbildung angesehen. [21]

Es wird angenommen, dass kurz eingestreute Kernelemente parasitären Ursprung in eukaryotischen Genomen haben. Diese SINEs haben sich auf einer evolutionären Zeitskala viele Male mutiert und repliziert und bilden somit viele verschiedene Abstammungslinien. Ihr früher evolutionärer Ursprung hat dazu geführt, dass sie in vielen eukaryotischen Abstammungslinien allgegenwärtig sind.

Alu-Elemente, kurz eingestreute Kernelemente von etwa 300 Nukleotiden, sind die am häufigsten vorkommenden SINE beim Menschen, mit >1.000.000 Kopien im gesamten Genom, was über 10 Prozent des Gesamtgenoms ausmacht. Dies ist bei anderen Arten nicht ungewöhnlich. [25] Die Kopienzahlunterschiede von Alu-Elementen können verwendet werden, um die Phylogenien von Primatenarten zu unterscheiden und zu konstruieren. [21] Hunde unterscheiden sich hauptsächlich in ihrer Häufigkeit von SINEC_Cf-Wiederholungen im gesamten Genom und nicht in anderen Mutationen auf Gen- oder Allelebene. Diese hundespezifischen SINEs können für eine Spleißakzeptorstelle kodieren, wodurch die Sequenzen verändert werden, die in jeder Spezies als Exons oder Introns erscheinen. [26]

Abgesehen von Säugetieren können SINEs bei einer Reihe von Arten hohe Kopienzahlen erreichen, darunter nichtknöcherne Wirbeltiere (Elefantenhai) und einige Fischarten (Coelacanths). [27] In Pflanzen sind SINEs oft auf eng verwandte Arten beschränkt und sind während der Evolution häufig aufgetaucht, zerfallen und verschwunden. [28] Dennoch sind einige SINE-Familien wie die Au-SINEs [29] und die Angio-SINEs [30] ungewöhnlich weit über viele oft nicht verwandte Pflanzenarten verbreitet.

Es gibt >50 menschliche Krankheiten, die mit SINEs verbunden sind. [20] Wenn SINEs in der Nähe oder innerhalb des Exons eingefügt werden, können sie ein falsches Spleißen verursachen, zu kodierenden Regionen werden oder den Leserahmen verändern, was häufig zu Krankheitsphänotypen bei Menschen und anderen Tieren führt. [26] Die Insertion von Alu-Elementen in das menschliche Genom wird mit Brustkrebs, Dickdarmkrebs, Leukämie, Hämophilie, Dent-Krankheit, Mukoviszidose, Neurofibromatose und vielen anderen in Verbindung gebracht. [4]

MicroRNAs Bearbeiten

Die Rolle von kurz eingestreuten Kernelementen bei der Genregulation innerhalb von Zellen wurde durch mehrere Studien unterstützt. Eine solche Studie untersuchte die Korrelation zwischen einer bestimmten Familie von SINEs mit microRNAs (in Zebrafischen). [31] Die spezifische Familie von SINEs, die untersucht wurden, waren die Anamnia V-SINEs. Diese Familie von kurzen eingestreuten Kernelementen wird oft in der untranslatierten Region des 3'-Endes vieler Gene gefunden und kommt in Wirbeltiergenomen vor. [31] Die Studie umfasste eine Computeranalyse, bei der die genomische Verteilung und Aktivität der Anamnia V-SINEs in Danio rerio Zebrafische weiter untersucht wurde, wurde das Potenzial dieser V-SINEs zur Generierung neuartiger microRNA-Loci analysiert. [31] Es wurde festgestellt, dass Gene, von denen vorhergesagt wurde, dass sie V-SINEs besitzen, von microRNAs mit signifikant höheren Hybridisierungs-E-Werten (im Vergleich zu anderen Bereichen im Genom) angegriffen wurden. [31] Die Gene mit hohen Hybridisierungs-E-Werten waren Gene, die besonders an Stoffwechsel- und Signalwegen beteiligt sind. [31] Fast allen miRNAs, die eine starke Fähigkeit zur Hybridisierung mit mutmaßlichen V-SINE-Sequenzmotiven in Genen aufweisen, wurde (bei Säugern) eine regulatorische Rolle zugeschrieben. [31] Diese Ergebnisse, die eine Korrelation zwischen kurz eingestreuten Kernelementen und verschiedenen regulatorischen microRNAs herstellen, legen stark nahe, dass V-SINEs eine bedeutende Rolle bei der Abschwächung von Reaktionen auf verschiedene Signale und Stimuli im Zusammenhang mit Metabolismus, Proliferation und Differenzierung spielen. Viele andere Studien müssen durchgeführt werden, um die Gültigkeit und das Ausmaß der Rolle von Retrotransposons mit kurzen Einstreuungen von nuklearen Elementen in regulatorischen Genexpressionsnetzwerken zu bestimmen. Zusammenfassend lässt sich sagen, dass, obwohl nicht viel über die Rolle und den Mechanismus bekannt ist, durch den SINEs miRNA-Genloci erzeugen, allgemein bekannt ist, dass SINEs eine bedeutende evolutionäre Rolle bei der Entstehung von "RNA-Genen" gespielt haben, dies wird auch oben in SINEs . angesprochen und Pseudogene.

Angesichts solcher Beweise, die darauf hindeuten, dass kurz verstreute Kernelemente evolutionäre Quellen für die Generierung von microRNA-Loci waren, ist es wichtig, die möglichen Beziehungen zwischen den beiden sowie den Mechanismus, durch den die microRNA den RNA-Abbau und im weiteren Sinne die Genexpression reguliert, weiter zu diskutieren. Eine microRNA ist eine nicht-kodierende RNA, die im Allgemeinen 22 Nukleotide lang ist. [32] Dieses nicht-proteinkodierende Oligonukleotid wird selbst von einer längeren nuklearen DNA-Sequenz kodiert, die normalerweise von der RNA-Polymerase II transkribiert wird, die auch für die Transkription der meisten mRNAs und snRNAs in Eukaryoten verantwortlich ist. [33] Einige Forschungen deuten jedoch darauf hin, dass einige microRNAs, die stromaufwärts kurz eingestreute Kernelemente aufweisen, von der RNA-Polymerase III transkribiert werden, die weithin an ribosomaler RNA und tRNA beteiligt ist, zwei Transkripten, die für die mRNA-Translation wichtig sind. [34] Dies bietet einen alternativen Mechanismus, durch den kurz eingestreute Kernelemente mit Genregulationsnetzwerken, an denen microRNAs beteiligt sind, wechselwirken oder diese vermitteln.

Die Regionen, die miRNA kodieren, können unabhängige RNA-Gene sein, die oft Antisense zu benachbarten Protein-kodierenden Genen sind, oder können innerhalb der Introns von Protein-kodierenden Genen gefunden werden. [35] Die Co-Lokalisierung von microRNA und proteinkodierenden Genen bietet eine mechanistische Grundlage, durch die microRNA die Genexpression reguliert. Darüber hinaus haben Scarpato et al. zeigt (wie oben diskutiert), dass Gene, von denen durch Sequenzanalyse vorhergesagt wurde, dass sie kurz eingestreute Kernelemente (SINEs) besitzen, von microRNAs, die signifikant stärker als andere Gene sind, gezielt und hybridisiert wurden. [31] Dies bietet einen evolutionären Weg, auf dem die parasitären SINEs kooptiert und verwendet wurden, um RNA-Gene (wie microRNAs) zu bilden, die sich entwickelt haben, um eine Rolle in komplexen Genregulationsnetzwerken zu spielen.

Die microRNAs werden als Teil längerer RNA-Stränge von im Allgemeinen etwa 80 Nukleotiden transkribiert, die durch komplementäre Basenpaarung Haarnadelschleifen-Strukturen bilden können [36] Diese Strukturen werden im Kern vom Kernprotein DiGeorge Syndrome Critical Region 8 ( DGCR8), das das Drosha-Protein rekrutiert und mit ihm assoziiert. [37] Dieser Komplex ist für die Abspaltung einiger Haarnadelstrukturen von der Prä-microRNA verantwortlich, die ins Zytoplasma transportiert wird. Die prä-miRNA wird vom Protein DICER zu einem doppelsträngigen 22 Nukleotid verarbeitet. [38] Danach wird einer der Stränge in einen Multi-Protein-RNA-induzierten Silencing-Komplex (RISC) eingebaut. [39] Zu diesen Proteinen gehören Proteine ​​der Argonaute-Familie, die für die Fähigkeit des Komplexes entscheidend sind, mit der Ziel-mRNA zu interagieren und deren Translation zu unterdrücken. [40]

Das Verständnis der verschiedenen Arten, wie microRNA die Genexpression reguliert, einschließlich der mRNA-Translation und -Degradation, ist der Schlüssel zum Verständnis der potenziellen evolutionären Rolle von SINEs bei der Genregulation und bei der Erzeugung von microRNA-Loci. Dies ist neben der direkten Rolle von SINEs in regulatorischen Netzwerken (wie in SINEs als lange nicht-kodierende RNAs diskutiert) entscheidend, um die Beziehung zwischen SINEs und bestimmten Krankheiten zu verstehen. Mehrere Studien haben gezeigt, dass eine erhöhte SINE-Aktivität mit bestimmten Genexpressionsprofilen und der Posttranskriptionsregulierung bestimmter Gene korreliert. [41] [42] [43] Tatsächlich haben Peterson et al. 2013 zeigte, dass eine hohe SINE-RNA-Expression mit einer posttranskriptionellen Herunterregulierung von BRCA1 korreliert, einem Tumorsuppressor, der an mehreren Krebsarten, nämlich Brustkrebs, beteiligt ist. [43] Darüber hinaus haben Studien eine starke Korrelation zwischen der transkriptionellen Mobilisierung von SINEs und bestimmten Krebsarten und Zuständen wie Hypoxie festgestellt. Dies kann auf die genomische Instabilität, die durch die SINE-Aktivität verursacht wird, sowie auf direktere Downstream-Effekte zurückzuführen sein. [42] SINEs wurden auch mit unzähligen anderen Krankheiten in Verbindung gebracht. Im Wesentlichen sind kurz eingestreute Kernelemente tief in unzählige Regulations-, Stoffwechsel- und Signalwege integriert und spielen somit eine unvermeidliche Rolle bei der Entstehung von Krankheiten. Über diese genomischen Parasiten ist noch viel zu wissen, aber es ist klar, dass sie in eukaryontischen Organismen eine bedeutende Rolle spielen.

Die Aktivität von SINEs weist jedoch genetische Überreste auf, die weder positiv noch negativ eine wesentliche Rolle zu spielen scheinen und sich im Genom als Pseudogene manifestieren. SINEs sollten jedoch nicht als RNA-Pseudogene verwechselt werden. [1] Im Allgemeinen werden Pseudogene erzeugt, wenn prozessierte mRNAs von Protein-kodierenden Genen revers transkribiert und wieder in das Genom eingebaut werden (RNA-Pseudogene sind revers transkribierte RNA-Gene). [44] Pseudogene sind im Allgemeinen funktionslos, da sie von prozessierten RNAs abstammen, unabhängig von ihrem evolutionären Kontext, der Introns und verschiedene regulatorische Elemente umfasst, die Transkription und Prozessierung ermöglichen. Obwohl diese Pseudogene nicht funktionsfähig sind, können sie in einigen Fällen noch Promotoren, CpG-Inseln und andere Merkmale aufweisen, die die Transkription ermöglichen, sie können daher immer noch transkribiert werden und können eine Rolle bei der Regulation der Genexpression spielen (wie SINEs und andere nicht-kodierende Elemente .). ). [44] Pseudogene unterscheiden sich somit von SINEs dadurch, dass sie von transkribierter funktioneller RNA abgeleitet sind, während SINEs DNA-Elemente sind, die durch die Kooptierung von RNA-Genen die Transkriptionsmaschinerie retrotransponieren. Es gibt jedoch Studien, die darauf hindeuten, dass retro-transponierbare Elemente wie kurz eingestreute Kernelemente nicht nur in der Lage sind, sich in alternativen Regionen im Genom zu kopieren, sondern auch für zufällige Gene. [45] [46] Somit können SINEs eine entscheidende Rolle bei der Erzeugung von Pseudogenen spielen, von denen bekannt ist, dass sie selbst an regulatorischen Netzwerken beteiligt sind. Dies ist vielleicht ein weiteres Mittel, mit dem SINEs die Genregulation beeinflussen und dazu beitragen konnten.



Bemerkungen:

  1. Matlal

    Wacker, was für eine ausgezeichnete Antwort.

  2. Abdul-Qahhar

    Wunderbare, sehr nützliche Informationen

  3. Jaime

    This has already been discussed recently.



Eine Nachricht schreiben