Information

8.2: Beispiel für mehrere Gene, die einen Charakter beeinflussen – Biologie

8.2: Beispiel für mehrere Gene, die einen Charakter beeinflussen – Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Katzenfell-Genetik

Die meisten Aspekte des Fell-Phänotyps von gewöhnlichen Katzen können durch die Wirkung einiger weniger Gene erklärt werden (Tabelle 6-2). Andere Gene, die hier nicht beschrieben werden, können diese Merkmale weiter modifizieren und für die Phänotypen verantwortlich sein, die bei Tabby-Katzen und bei exotischeren Rassen wie Siamkatzen zu sehen sind.

Zum Beispiel das X-chromosomale Orange Gen hat zwei allelische Formen. Die ÖÖ Allel produziert orangefarbenes Fell, während das ÖB Allele produzieren nicht-oranges (oft schwarzes) Fell. Beachten Sie jedoch, dass aufgrund der Inaktivierung des X-Chromosoms das Ergebnis ein Mosaik in der Expression ist. In ÖÖ / ÖB weibliche heterozygote Flecken in Schwarz und Orange sind zu sehen, was das Schildpattmuster erzeugt (Abbildung 6-13 A,B). Dies ist ein seltenes Beispiel für Co-Dominanz da der Phänotyp beider Allele zu sehen ist. Beachten Sie, dass die Katze in Teil A im Vergleich zur Katze in Teil B ein kurzes Fell hat; rezessive Allele an einem unabhängigen Locus (L/l) produzieren lange (NS) statt kurz (L_) Fell.

Allele des verdünnen Gen beeinflusst die Intensität der Pigmentierung, unabhängig davon, ob diese Pigmentierung auf schwarzes oder orangefarbenes Pigment zurückzuführen ist. Teil C zeigt eine schwarze Katze mit mindestens einem dominanten Allel von verdünnen (D_), im Gegensatz zur Katze in D, die eher grau als schwarz ist, weil sie die dd Genotyp.

Epistase wird durch ein Allel nur eines der Gene in Tabelle (PageIndex{2}) nachgewiesen. Ein dominantes Allel von weiße Maskierung (W) verhindert die normale Entwicklung von Melanozyten (pigmentproduzierende Zellen). Daher können Katzen mit Genotyp (W_) wird unabhängig vom Genotyp vollständig weißes Fell haben Orange oder verdünnen Orte (Teil E). Obwohl dieser Ort eine weiße Farbe erzeugt, W_ ist nicht dasselbe wie Albinismus, der ein viel seltenerer Phänotyp ist, der durch Mutationen in anderen Genen verursacht wird. Albinokatzen können durch rote Augen unterschieden werden, während W_ Katzen haben nicht rote Augen.

Scheckenflecken ist das Auftreten von Flecken von weißem Fell. Diese Patches variieren in der Größe aus vielen Gründen, einschließlich des Genotyps. Homozygote Katzen mit Genotyp ss haben keine weißen Flecken, während Katzen vom Genotyp Ss und SS haben weiße Flecken, und die Homozygoten neigen dazu, einen größeren Anteil an weißem Fell zu haben als heterozygote (Teil F). Die Kombination aus gescheckten Flecken und Schildpattmustern ergibt ein Kaliko katze, das separate Flecken von orangefarbenem, schwarzem und weißem Fell hat.

Tabelle (PageIndex{2}): Zusammenfassung der vereinfachten Phänotypen und Genotypen von Katzenfellen.
MerkmalPhänotypGenotypKommentare
FelllängekurzNS oder NSL ist total dominant
langNS
ganz weißes Fell (kein Albino)100% weißes FellWW oder WwWenn die Katze rote Augen hat, ist es Albino, nicht W_. W ist epistatisch für alle anderen Fellfarbengene; wenn katze ist W_, kann keine Genotypen für andere Fellfarbengene ableiten.
ww
gescheckte Flecken> 50% weiße Flecken (aber nicht 100%)SSS ist unvollständig dominant und zeigt eine variable Expressivität
< 50% weiße FleckenSs
keine weißen fleckenss
orangefarbenes Fellalles orange FellxÖxÖ oder XÖJaÖ ist X-chromosomal
SchildpattvariegationxÖxB
kein orangefarbenes Fell (oft schwarz)xBxB oder XBJa
Pigmentierung verdünnenPigmentierung ist intensivDd oder ddD ist total dominant
Pigmentierung ist verdünnt (z.B. grau statt schwarz; creme statt orange; hellbraun statt braun)dd
tabbyTabbymusterAA oder AaDies ist eine Vereinfachung des Tabby-Phänotyps, an dem mehrere Gene beteiligt sind
feste Färbungaa
SexweiblichXX
männlichXY

Verweise

  1. Angepasst from Christensen (2000) Genetik 155:999-1004)

Mendel konnte seine Arbeit interpretierbar ausführen, weil er sorgfältige Notizen machte, genaue Zählungen machte und Züge wählte, die ein deutliches dominantes oder rezessives Ausdrucksmuster aufwiesen. Tatsächlich werden Allele, die einfache dominante oder rezessive Expressionsmuster zeigen, manchmal als "Mendelsche Merkmale" bezeichnet. Nur wenige Allele verhalten sich jedoch auf eine so einfache Mendelsche Weise. In diesem Tutorial werden komplexere Ausdrucksmuster untersucht. Am Ende dieses Tutorials sollten Sie ein grundlegendes Verständnis von Folgendem haben:

  • Gene mit mehreren Allelen
  • Der Unterschied zwischen den drei Arten von Dominanz
  • Wie Gene mehrere Wirkungen haben können
  • Wie Gene die Expression anderer Gene beeinflussen können
  • Warum manche Charaktere von mehr als einem Gen kontrolliert werden

Unvollständige Dominanz

In Mendels Experimenten sahen die Nachkommen aufgrund der komplette Dominanz eines Allels über das andere für Charaktere mit zwei Merkmalen. Dies ist nicht immer der Fall, da einige Gene angezeigt werden unvollständige Dominanz. Bei dieser Art von Dominanzbeziehung zwischen zwei Allelen weisen heterozygote Individuen einen Phänotyp auf, der zwischen homozygoten Individuen liegt. . Abbildung 1 zeigt zum Beispiel das Ergebnis einer Kreuzung zwischen einem Löwenmäulchen mit roten Blüten und einem mit weißen Blüten, die Nachkommen in der F1 haben rosa Blüten. In diesem Fall ist keines der Allele für die Blütenfarbe vollständig dominant gegenüber dem anderen. Daher haben Individuen, die heterozygot sind, einen Phänotyp, der sich von denen mit beiden Sätzen von homozygoten Allelen unterscheidet.


Abbildung 1. Unvollständige Dominanz in der Löwenmäulchenfarbe. (Zum Vergrößern Bild anklicken).

Wie in Abbildung 1 gezeigt, ist das Punnett-Quadrat für dieses Kreuz wie für jedes andere Monohybrid-Kreuz. Das Verhältnis der Phänotypen in der F2 Generation ist nicht 3:1 (dominant:rezessiv), wie man es bei vollständig dominanten Allelen sieht, sondern eher ein 1:2:1 Verhältnis von roten:rosa:weißen Blüten. In diesem Beispiel werden die Allele anders dargestellt als in den vorherigen Beispielen. Da kein Allel gegenüber dem anderen dominant ist, ist die Verwendung einer Groß- und Kleinschreibung desselben Buchstabens nicht angemessen. In diesem Beispiel wird das Zeichen (Blumenfarbe) durch einen Buchstaben (C), und die Allele, die das Merkmal kodieren (weiß oder rot), werden als tiefgestellte Großbuchstaben aufgelistet (beide sind groß, weil keines der anderen dominant ist). Möglicherweise sehen Sie andere symbolische Darstellungen für unvollständige Dominanz, aber lassen Sie sich dadurch nicht verwirren. Wichtig zu wissen ist, dass einige Gene unvollständig dominant exprimiert werden.

Auf der folgenden Website finden Sie die richtige Antwort auf die Multiple-Choice-Monohybrid- oder Dihybrid-Kreuzfragen. Erarbeiten Sie jedes Problem für sich. Um eine Erklärung des Problems anzuzeigen, wählen Sie die Schaltfläche "TUTORIAL". Nachdem Sie die richtige Antwort angezeigt haben, schließen Sie das Fenster Monohybrid Cross Problem Set oder Dihybrid Cross, um zu dieser Seite zurückzukehren. (Hinweis: Diese Seiten sind Teil der Monohybrid- und Dihybrid-Problemsets, die vom Biology Project der University of Arizona bereitgestellt werden.)

Problem 9: Unvollständige Dominanz - Dieses Problem ist Teil des Monohybrid Cross Problem Set.

Problem 10: Verschwinden elterlicher Phänotypen in der F1-Generation - Dieses Problem ist auch Teil des Monohybrid Cross Problem Set.

Problem 11: Unvollständige Dominanz in einem Dihybrid-Kreuz - Dieses Problem ist Teil des Dihybrid-Kreuz-Problem-Sets.


Einfache Vererbung

Einfache Vererbung beschreibt phänotypische Merkmale, die in einer von zwei Formen auftreten. Sie können durch nur ein Gen oder mehr als ein Gen bestimmt werden, aber das vererbte Merkmal ist entweder vorhanden oder nicht. Beispiele für die einfache Vererbung dominanter Phänotypen sind das Achoo-Syndrom (was bedeutet, dass der Blitz einer Kamera Sie zum Niesen bringt), eine Kinnspalte, eine früh einsetzende Myopie (Kurzsichtigkeit in der Kindheit), ein gebogener kleiner Finger, Gesichtsgrübchen, Handfalten (linker Daumen oben) ), Haare am Mittelgelenk deiner Finger und die Fähigkeit, deine Zunge in eine „O“-Form zu rollen.


Inhalt

Ein allgemeiner Ansatz bei der Berechnung mehrerer Sequenz-Alignments besteht darin, Graphen zu verwenden, um alle der verschiedenen Alignments zu identifizieren. Beim Finden von Ausrichtungen über einen Graphen, a komplette Ausrichtung wird in einem gewichteten Graphen erstellt, der eine Menge von Scheitelpunkten und eine Menge von Kanten enthält. Jede der Kanten des Graphen hat eine Gewichtung, die auf einer bestimmten Heuristik basiert, die hilft, jede zu bewerten Ausrichtung oder Teilmenge des ursprünglichen Graphen.

Verfolgen von Ausrichtungen Bearbeiten

Bei der Bestimmung der am besten geeigneten Ausrichtungen für jede MSA, a verfolgen wird in der Regel erzeugt. Eine Spur ist eine Menge von erkannte, oder entsprechende und ausgerichtete Scheitelpunkte, die ein spezifisches Gewicht haben, basierend auf den Kanten, die zwischen entsprechenden Scheitelpunkten ausgewählt werden. Bei der Auswahl von Spuren für einen Satz von Sequenzen ist es notwendig, eine Spur mit einem maximalen Gewicht zu wählen, um die beste Ausrichtung der Sequenzen zu erhalten.

Es gibt verschiedene Alignment-Verfahren, die innerhalb mehrerer Sequenzen verwendet werden, um die Scores und die Korrektheit der Alignments zu maximieren. Jede basiert normalerweise auf einer bestimmten Heuristik mit einem Einblick in den evolutionären Prozess. Die meisten versuchen, die Evolution zu replizieren, um ein möglichst realistisches Alignment zu erhalten, um die Beziehungen zwischen Sequenzen am besten vorherzusagen.

Dynamische Programmierung Bearbeiten

Ein direktes Verfahren zum Herstellen eines MSA verwendet die dynamische Programmiertechnik, um die global optimale Ausrichtungslösung zu identifizieren. Bei Proteinen umfasst diese Methode normalerweise zwei Parametersätze: eine Lückenstrafe und eine Substitutionsmatrix, die dem Alignment jedes möglichen Aminosäurepaares basierend auf der Ähnlichkeit der chemischen Eigenschaften der Aminosäuren und der evolutionären Wahrscheinlichkeit der Mutation. Für Nukleotidsequenzen wird eine ähnliche Lückenstrafe verwendet, aber eine viel einfachere Substitutionsmatrix, bei der nur identische Übereinstimmungen und Fehlpaarungen berücksichtigt werden, ist typisch. Die Scores in der Substitutionsmatrix können bei einem globalen Alignment entweder alle positiv oder eine Mischung aus positiv und negativ sein, müssen jedoch bei einem lokalen Alignment sowohl positiv als auch negativ sein. [4]

Zum n einzelnen Sequenzen erfordert die naive Methode die Konstruktion der n-dimensionales Äquivalent der Matrix, die im standardmäßigen paarweisen Sequenz-Alignment gebildet wurde. Der Suchraum wächst also exponentiell mit zunehmendem n und ist auch stark von der Sequenzlänge abhängig. Ausgedrückt mit der großen O-Notation, die üblicherweise zur Messung der Rechenkomplexität verwendet wird, nimmt ein naives MSA O(Länge Nseqs ) Zeit zu produzieren. Um das globale Optimum für zu finden n Es hat sich gezeigt, dass Sequenzen auf diese Weise ein NP-vollständiges Problem sind. [5] [6] [7] 1989 führte Altschul auf der Grundlage des Carrillo-Lipman-Algorithmus [8] eine praktische Methode ein, die paarweise Ausrichtungen verwendet, um den n-dimensionalen Suchraum einzuschränken. [9] Bei diesem Ansatz werden paarweise dynamische Programmierungsausrichtungen an jedem Paar von Sequenzen in der Abfragemenge durchgeführt, und nur der Raum in der Nähe des n-dimensionalen Schnittpunkts dieser Ausrichtungen wird nach der n-Wege-Ausrichtung durchsucht. Das MSA-Programm optimiert die Summe aller Zeichenpaare an jeder Position im Alignment (die sog. Summe des Paares Score) und wurde in ein Softwareprogramm zum Konstruieren mehrerer Sequenz-Alignments implementiert. [10] Im Jahr 2019 zeigten Hosseininasab und van Hoeve, dass MSA mithilfe von Entscheidungsdiagrammen in polynomialer Raumkomplexität modelliert werden kann. [3]

Progressive Achskonstruktion Bearbeiten

Der am weitesten verbreitete Ansatz für multiple Sequenz-Alignments verwendet eine heuristische Suche, bekannt als progressive Technik (auch bekannt als die hierarchische oder Baum-Methode), die 1987 von Da-Fei Feng und Doolittle entwickelt wurde paarweise Ausrichtungen, beginnend mit dem ähnlichsten Paar und fortschreitend zum am weitesten entfernten verwandten. Alle progressiven Alignment-Methoden erfordern zwei Stufen: eine erste Stufe, in der die Beziehungen zwischen den Sequenzen als Baum dargestellt werden, genannt a Leitbaum, und einen zweiten Schritt, in dem der MSA aufgebaut wird, indem die Sequenzen sequentiell zu dem wachsenden MSA gemäß dem Leitbaum hinzugefügt werden. Die Initiale Leitbaum wird durch ein effizientes Clustering-Verfahren wie zum Beispiel Neighbor-Joining oder UPGMA bestimmt und kann Abstände basierend auf der Anzahl identischer Zwei-Buchstaben-Untersequenzen verwenden (wie in FASTA eher als eine dynamische Programmierungsausrichtung). [12]

Es kann nicht garantiert werden, dass progressive Ausrichtungen global optimal sind. Das Hauptproblem besteht darin, dass, wenn in irgendeiner Phase beim Wachsen des MSA Fehler gemacht werden, diese Fehler dann bis zum Endergebnis weitergegeben werden. Die Leistung ist auch besonders schlecht, wenn alle Sequenzen des Sets ziemlich entfernt miteinander verwandt sind. Die meisten modernen progressiven Verfahren modifizieren ihre Bewertungsfunktion mit einer sekundären Gewichtungsfunktion, die einzelnen Mitgliedern des Abfragesatzes auf nichtlineare Weise basierend auf ihrer phylogenetischen Entfernung von ihren nächsten Nachbarn Skalierungsfaktoren zuweist. Dies korrigiert eine nicht zufällige Auswahl der Sequenzen, die dem Ausrichtungsprogramm gegeben wurden. [12]

Progressive Alignment-Verfahren sind effizient genug, um in großem Maßstab für viele (100s bis 1000s) Sequenzen zu implementieren. Progressive Alignment-Dienste sind im Allgemeinen auf öffentlich zugänglichen Webservern verfügbar, sodass Benutzer die gewünschten Anwendungen nicht lokal installieren müssen. Die beliebteste progressive Alignment-Methode ist die Clustal-Familie [13], insbesondere die gewichtete Variante ClustalW [14], auf die eine Vielzahl von Webportalen wie GenomeNet, EBI und EMBNet zugreifen. Unterschiedliche Portale oder Implementierungen können sich in der Benutzeroberfläche unterscheiden und dem Benutzer unterschiedliche Parameter zugänglich machen. ClustalW wird in großem Umfang für die phylogenetische Baumkonstruktion verwendet, trotz der ausdrücklichen Warnungen des Autors, dass unbearbeitete Alignments in solchen Studien und als Input für die Vorhersage der Proteinstruktur durch Homologiemodellierung nicht verwendet werden sollten. Die aktuelle Version der Clustal-Familie ist ClustalW2. EMBL-EBI gab bekannt, dass CLustalW2 im August 2015 ausläuft. Sie empfehlen Clustal Omega, das auf der Grundlage von gesäten Leitbäumen und HMM-Profilprofiltechniken für Proteinausrichtungen funktioniert. Sie bieten verschiedene MSA-Tools für progressive DNA-Alignments. Eine davon ist MAFFT (Multiple Alignment using Fast Fourier Transform). [fünfzehn]

Eine andere gängige progressive Alignment-Methode namens T-Coffee [16] ist langsamer als Clustal und seine Derivate, erzeugt jedoch im Allgemeinen genauere Alignments für entfernt verwandte Sequenzsätze. T-Coffee berechnet paarweise Alignments durch Kombinieren des direkten Alignments des Paares mit indirekten Alignments, die jede Sequenz des Paares an einer dritten Sequenz angleichen. Es verwendet die Ausgabe von Clustal sowie ein weiteres lokales Alignment-Programm LALIGN, das mehrere Regionen mit lokalem Alignment zwischen zwei Sequenzen findet. Die resultierende Ausrichtung und der phylogenetische Baum werden als Leitfaden verwendet, um neue und genauere Gewichtungsfaktoren zu erstellen.

Da es sich bei progressiven Methoden um Heuristiken handelt, deren Konvergenz zu einem globalen Optimum nicht garantiert ist, kann die Ausrichtungsqualität schwer zu bewerten sein und ihre wahre biologische Bedeutung kann unklar sein. Im Programm PSAlign wurde ein semiprogressives Verfahren implementiert, das die Alignment-Qualität verbessert und keine verlustbehaftete Heuristik verwendet, während es noch in polynomieller Zeit läuft. [17]

Iterative Methoden Bearbeiten

Eine Reihe von Verfahren zur Herstellung von MSAs unter Reduzierung der Fehler, die progressiven Verfahren innewohnen, werden als "iterativ" klassifiziert, weil sie ähnlich wie progressive Verfahren funktionieren, aber die anfänglichen Sequenzen wiederholt neu ausrichten sowie neue Sequenzen zum wachsenden MSA hinzufügen. Ein Grund dafür, dass progressive Methoden so stark von einem qualitativ hochwertigen initialen Alignment abhängig sind, ist die Tatsache, dass diese Alignments immer in das Endergebnis einfließen – d. Diese Näherung verbessert die Effizienz auf Kosten der Genauigkeit. Im Gegensatz dazu können iterative Verfahren zu zuvor berechneten paarweisen Alignments oder Sub-MSAs zurückkehren, die Teilmengen der Abfragesequenz als Mittel zum Optimieren einer allgemeinen Zielfunktion, wie zum Beispiel das Finden eines Alignment-Scores hoher Qualität, beinhalten. [12]

Eine Vielzahl von subtil unterschiedlichen Iterationsmethoden wurden implementiert und in Softwarepaketen zur Verfügung gestellt. Überprüfungen und Vergleiche waren nützlich, aber im Allgemeinen wird davon abgesehen, eine "beste" Technik zu wählen. [18] Das Softwarepaket PRRN/PRRP verwendet einen Hill-Climbing-Algorithmus, um seinen MSA-Alignment-Score zu optimieren [19] und korrigiert iterativ sowohl Alignment-Gewichte als auch lokal divergente oder "lückende" Regionen des wachsenden MSA. [12] PRRP schneidet am besten ab, wenn eine zuvor mit einer schnelleren Methode erstellte Ausrichtung verfeinert wird. [12]

Ein weiteres iteratives Programm, DIALIGN, verfolgt einen ungewöhnlichen Ansatz, sich eng auf lokale Ausrichtungen zwischen Untersegmenten oder Sequenzmotiven zu konzentrieren, ohne einen Lückennachteil einzuführen. [20] Die Ausrichtung einzelner Motive erfolgt dann mit einer Matrixdarstellung ähnlich einem Punktmatrix-Plot in einer paarweisen Ausrichtung. Ein alternatives Verfahren, das schnelle lokale Ausrichtungen als Ankerpunkte oder "Seeds" für ein langsameres globales Ausrichtungsverfahren verwendet, ist in der CHAOS/DIALIGN-Suite implementiert. [20]

Ein drittes beliebtes, auf Iterationen basierendes Verfahren namens MUSCLE (Multiple Sequence Alignment by Log-Expectation) verbessert progressive Verfahren mit einem genaueren Abstandsmaß, um die Verwandtschaft zweier Sequenzen zu beurteilen. [21] Das Distanzmaß wird zwischen den Iterationsstufen aktualisiert (obwohl MUSCLE in seiner ursprünglichen Form nur 2-3 Iterationen enthielt, je nachdem, ob die Verfeinerung aktiviert war).

Konsensverfahren Bearbeiten

Konsensus-Verfahren versuchen, das optimale multiple Sequenz-Alignment bei gegebenen multiplen unterschiedlichen Alignments desselben Satzes von Sequenzen zu finden. Es gibt zwei häufig verwendete Konsensverfahren, M-COFFEE und MergeAlign. [22] M-COFFEE verwendet mehrere Sequenz-Alignments, die durch sieben verschiedene Methoden erzeugt wurden, um Konsensus-Alignments zu generieren. MergeAlign ist in der Lage, Konsensus-Alignments aus einer beliebigen Anzahl von Input-Alignments zu generieren, die unter Verwendung verschiedener Modelle der Sequenzevolution oder verschiedener Methoden des multiplen Sequenz-Alignments generiert wurden. Die Standardoption für MergeAlign ist die Ableitung eines Konsensus-Alignments unter Verwendung von Alignments, die unter Verwendung von 91 verschiedenen Modellen der Proteinsequenz-Evolution generiert wurden.

Versteckte Markov-Modelle Bearbeiten

Hidden-Markov-Modelle sind probabilistische Modelle, die allen möglichen Kombinationen von Lücken, Übereinstimmungen und Nichtübereinstimmungen Wahrscheinlichkeiten zuweisen können, um die wahrscheinlichste MSA oder Menge möglicher MSAs zu bestimmen. HMMs können eine einzelne Ausgabe mit der höchsten Punktzahl erzeugen, können aber auch eine Familie möglicher Ausrichtungen erzeugen, die dann auf biologische Signifikanz bewertet werden können. HMMs können sowohl globale als auch lokale Ausrichtungen erzeugen. Obwohl HMM-basierte Verfahren erst vor relativ kurzer Zeit entwickelt wurden, bieten sie erhebliche Verbesserungen der Rechengeschwindigkeit, insbesondere für Sequenzen, die überlappende Regionen enthalten. [12]

Typische HMM-basierte Methoden funktionieren, indem sie einen MSA als eine Form eines gerichteten azyklischen Graphen darstellen, der als Teilordnungsgraph bekannt ist und aus einer Reihe von Knoten besteht, die mögliche Einträge in den Spalten eines MSA darstellen. In dieser Darstellung wird eine absolut erhaltene Spalte (d. h. dass alle Sequenzen im MSA an einer bestimmten Position ein bestimmtes Zeichen teilen) als einzelner Knoten mit so vielen ausgehenden Verbindungen codiert, wie es in der nächsten Spalte von mögliche Zeichen gibt die Ausrichtung. Im Sinne eines typischen Hidden-Markov-Modells sind die beobachteten Zustände die einzelnen Alignment-Spalten und die "versteckten" Zustände repräsentieren die mutmaßliche Vorfahrensequenz, von der die Sequenzen im Abfragesatz hypothetisch abstammen. Eine effiziente Suchvariante des dynamischen Programmierverfahrens, bekannt als Viterbi-Algorithmus, wird im Allgemeinen verwendet, um den wachsenden MSA sukzessive an der nächsten Sequenz im Abfragesatz auszurichten, um einen neuen MSA zu erzeugen. [23] Dies unterscheidet sich von progressiven Alignment-Verfahren, da das Alignment früherer Sequenzen bei jeder neuen Sequenzaddition aktualisiert wird. Wie bei progressiven Methoden kann diese Technik jedoch durch die Reihenfolge beeinflusst werden, in der die Sequenzen im Abfragesatz in das Alignment integriert werden, insbesondere wenn die Sequenzen entfernt verwandt sind. [12]

Es sind mehrere Softwareprogramme verfügbar, in denen Varianten von HMM-basierten Verfahren implementiert wurden und die für ihre Skalierbarkeit und Effizienz bekannt sind, obwohl die richtige Verwendung eines HMM-Verfahrens komplexer ist als die Verwendung üblicher progressiver Verfahren. Die einfachste ist POA (Partial-Order Alignment) [24] eine ähnliche, aber verallgemeinerte Methode ist in den Paketen SAM (Sequence Alignment and Modeling System) implementiert. [25] und HMMER. [26] SAM wurde als Quelle für Alignments für die Vorhersage der Proteinstruktur verwendet, um am CASP-Strukturvorhersageexperiment teilzunehmen und eine Datenbank mit vorhergesagten Proteinen in Hefespezies zu entwickeln S. cerevisiae. HHsearch [27] ist ein Softwarepaket zum Nachweis entfernt verwandter Proteinsequenzen basierend auf dem paarweisen Vergleich von HMMs. Ein Server, auf dem HHsearch (HHpred) ausgeführt wurde, war mit Abstand der schnellste der 10 besten automatischen Strukturvorhersageserver in den CASP7- und CASP8-Strukturvorhersagewettbewerben. [28]

Phylogenie-bewusste Methoden Bearbeiten

Die meisten multiplen Sequenz-Alignment-Verfahren versuchen, die Anzahl von Insertionen/Deletionen (Lücken) zu minimieren und als Folge davon kompakte Alignments zu erzeugen. Dies verursacht mehrere Probleme, wenn die auszurichtenden Sequenzen nicht-homologe Bereiche enthalten, wenn Lücken in einer Phylogenie-Analyse aufschlussreich sind. Diese Probleme treten häufig bei neu produzierten Sequenzen auf, die schlecht annotiert sind und Frame-Shifts, falsche Domänen oder nicht-homologe gespleißte Exons enthalten können. Die erste derartige Methode wurde 2005 von Löytynoja und Goldman entwickelt. [29] Dieselben Autoren veröffentlichten ein Softwarepaket namens STREICH im Jahr 2008. [30] PRANK verbessert die Ausrichtung, wenn Insertionen vorhanden sind. Dennoch läuft es langsam im Vergleich zu progressiven und/oder iterativen Methoden, die seit mehreren Jahren entwickelt wurden.

Im Jahr 2012 erschienen zwei neue phylogenetische Werkzeuge. Einer heißt heidnisch das vom selben Team wie PRANK entwickelt wurde. [31] Das andere ist ProGraphMSA von Szalkowski entwickelt. [32] Beide Softwarepakete wurden unabhängig entwickelt, haben aber gemeinsame Merkmale, insbesondere die Verwendung von Graphalgorithmen, um die Erkennung nichthomologer Regionen zu verbessern, und eine Verbesserung des Codes, der diese Software schneller als PRANK macht.

Motivsuche Bearbeiten

Die Motivfindung, auch als Profilanalyse bekannt, ist ein Verfahren zum Auffinden von Sequenzmotiven in globalen MSAs, das sowohl ein Mittel zur Herstellung eines besseren MSA als auch ein Mittel zur Herstellung einer Bewertungsmatrix zur Verwendung beim Durchsuchen anderer Sequenzen nach ähnlichen Motiven ist. Es wurden verschiedene Methoden zur Isolierung der Motive entwickelt, aber alle basieren auf der Identifizierung kurzer, hochkonservierter Muster innerhalb des größeren Alignments und der Konstruktion einer Matrix ähnlich einer Substitutionsmatrix, die die Aminosäure- oder Nukleotidzusammensetzung jeder Position im mutmaßlichen Motiv widerspiegelt . Mit diesen Matrizen kann dann das Alignment verfeinert werden. In der Standardprofilanalyse enthält die Matrix Einträge für jedes mögliche Zeichen sowie Einträge für Lücken. [12] Alternativ können statistische Musterfindungsalgorithmen Motive als Vorläufer einer MSA und nicht als Ableitung identifizieren. In vielen Fällen, wenn der Abfragesatz nur eine kleine Anzahl von Sequenzen enthält oder nur stark verwandte Sequenzen enthält, werden Pseudozählungen hinzugefügt, um die in der Bewertungsmatrix widergespiegelte Verteilung zu normalisieren. Dies korrigiert insbesondere Null-Wahrscheinlichkeitseinträge in der Matrix auf Werte, die klein, aber nicht null sind.

Die Blockanalyse ist ein Verfahren zum Auffinden von Motiven, das Motive auf nicht aufgekappte Regionen im Alignment beschränkt. Blöcke können aus einem MSA erzeugt werden oder sie können aus nicht ausgerichteten Sequenzen unter Verwendung eines vorberechneten Satzes von gemeinsamen Motiven extrahiert werden, die zuvor aus bekannten Genfamilien erzeugt wurden. [33] Die Blockbewertung beruht im Allgemeinen eher auf dem Abstand hochfrequenter Zeichen als auf der Berechnung einer expliziten Substitutionsmatrix. Der BLOCKS-Server stellt eine interaktive Methode bereit, um solche Motive in nicht ausgerichteten Sequenzen zu lokalisieren.

Der statistische Mustervergleich wurde sowohl mit dem Erwartungsmaximierungsalgorithmus als auch mit dem Gibbs-Sampler implementiert. Eines der gebräuchlichsten Motivfindungswerkzeuge, bekannt als MEME, verwendet Erwartungsmaximierung und Hidden-Markov-Methoden, um Motive zu generieren, die dann von seinem Begleiter MAST in der kombinierten Suite MEME/MAST als Suchwerkzeuge verwendet werden. [34] [35]

Nicht-kodierendes Alignment mehrerer Sequenzen Bearbeiten

Nicht-kodierende DNA-Regionen, insbesondere TFBSs, sind eher konserviert und nicht unbedingt evolutionär verwandt und können von nicht-gemeinsamen Vorfahren konvergiert sein. Somit unterscheiden sich die Annahmen, die verwendet werden, um Proteinsequenzen und DNA-kodierende Regionen auszurichten, von Natur aus von denen, die für TFBS-Sequenzen gelten. Obwohl es sinnvoll ist, DNA-kodierende Regionen für homologe Sequenzen unter Verwendung von Mutationsoperatoren auszurichten, kann die Ausrichtung von Bindungsstellensequenzen für denselben Transkriptionsfaktor nicht auf evolutionär bedingten Mutationsoperationen beruhen. In ähnlicher Weise kann der evolutionäre Operator von Punktmutationen verwendet werden, um einen Editierabstand für kodierende Sequenzen zu definieren, aber dies hat für TFBS-Sequenzen wenig Bedeutung, da jede Sequenzvariation ein bestimmtes Maß an Spezifität aufrechterhalten muss, damit die Bindungsstelle funktioniert. Dies wird besonders wichtig, wenn versucht wird, bekannte TFBS-Sequenzen auszurichten, um überwachte Modelle zu erstellen, um unbekannte Orte derselben TFBS vorherzusagen. Daher müssen Multiple Sequence Alignment-Methoden die zugrunde liegende Evolutionshypothese und die Operatoren anpassen, die wie in der veröffentlichten Arbeit verwendet werden, die thermodynamische Informationen benachbarter Basen einbeziehen [36], um die Bindungsstellen auf der Suche nach der niedrigsten thermodynamischen Ausrichtung auszurichten, die die Spezifität der Bindungsstelle, EDNA, konserviert.

Genetische Algorithmen und simuliertes Annealing Bearbeiten

Standard-Optimierungstechniken in der Informatik – beide wurden von physikalischen Prozessen inspiriert, aber nicht direkt reproduziert – wurden ebenfalls verwendet, um qualitativ hochwertige MSAs effizienter herzustellen. Eine solche Technik, genetische Algorithmen, wurde für die MSA-Produktion verwendet, um den hypothetischen Evolutionsprozess, der zu der Divergenz in der Abfragemenge führte, weitgehend zu simulieren. Die Methode funktioniert, indem eine Reihe möglicher MSAs in Fragmente zerlegt und diese Fragmente wiederholt neu angeordnet werden, wobei Lücken an unterschiedlichen Positionen eingeführt werden. Eine allgemeine Zielfunktion wird während der Simulation optimiert, am allgemeinsten die Maximierungsfunktion "Summe von Paaren", die in MSA-Verfahren auf dynamischer Programmierungsbasis eingeführt wird. Eine Technik für Proteinsequenzen wurde im Softwareprogramm SAGA (Sequence Alignment by Genetic Algorithm) [37] implementiert und ihr Äquivalent in RNA heißt RAGA. [38]

Die Technik des simulierten Temperns, bei der ein existierender MSA, der durch ein anderes Verfahren hergestellt wurde, durch eine Reihe von Neuanordnungen verfeinert wird, um bessere Ausrichtungsraumbereiche zu finden, als die, die die Eingangsausrichtung bereits einnimmt. Wie das genetische Algorithmus-Verfahren maximiert simuliertes Annealing eine Zielfunktion wie die Summen-von-Paar-Funktion. Simuliertes Annealing verwendet einen metaphorischen "Temperaturfaktor", der die Geschwindigkeit bestimmt, mit der Umlagerungen ablaufen, und die Wahrscheinlichkeit jeder Umlagerung. Typische Verwendung wechselt Perioden hoher Umlagerungsraten mit relativ geringer Wahrscheinlichkeit (um entferntere Regionen des Ausrichtungsraums zu erkunden) mit Perioden niedrigerer Raten und eine höhere Wahrscheinlichkeit, lokale Minima in der Nähe der neu "kolonisierten" Regionen gründlicher zu erkunden. Dieser Ansatz wurde im Programm MSASA (Multiple Sequence Alignment by Simulated Annealing) implementiert. [39]

Mathematische Programmierung und exakte Lösungsalgorithmen Bearbeiten

Mathematische Programmierung und insbesondere Mixed-Integer-Programmiermodelle sind ein weiterer Ansatz zur Lösung von MSA-Problemen. Der Vorteil solcher Optimierungsmodelle besteht darin, dass mit ihnen die optimale MSA-Lösung im Vergleich zum traditionellen DP-Ansatz effizienter gefunden werden kann. Dies liegt zum Teil an der Anwendbarkeit von Dekompositionstechniken für mathematische Programme, bei denen das MSA-Modell in kleinere Teile zerlegt und iterativ gelöst wird, bis die optimale Lösung gefunden ist. Beispielalgorithmen, die verwendet werden, um gemischt-ganzzahlige Programmiermodelle von MSA zu lösen, umfassen Branch and Price [40] und Benders-Zerlegung. [3] Obwohl exakte Ansätze im Vergleich zu heuristischen Algorithmen für MSA rechenlangsam sind, erreichen sie garantiert die optimale Lösung, selbst für große Probleme.

Simuliertes Quantencomputing Bearbeiten

Im Januar 2017 gab D-Wave Systems bekannt, dass seine Open-Source-Quantencomputing-Software qbsolv erfolgreich eingesetzt wurde, um eine schnellere Lösung für das MSA-Problem zu finden. [41]

Der notwendige Einsatz von Heuristiken für multiples Alignment bedeutet, dass für einen beliebigen Satz von Proteinen immer eine gute Chance besteht, dass ein Alignment Fehler enthält. Beispielsweise ergab eine Auswertung mehrerer führender Alignment-Programme unter Verwendung des BAliBase-Benchmarks, dass mindestens 24 % aller Paare von Alignment-Aminosäuren falsch ausgerichtet waren. [2] Diese Fehler können aufgrund einzigartiger Insertionen in eine oder mehrere Sequenzregionen oder durch einen komplexeren evolutionären Prozess entstehen, der zu Proteinen führt, die sich nur durch die Sequenz nicht leicht anordnen lassen. Wenn die Anzahl der Folgen und ihre Divergenz zunimmt, werden einfach aufgrund der heuristischen Natur der MSA-Algorithmen viel mehr Fehler gemacht. Mehrere Sequenz-Alignment-Viewer ermöglichen die visuelle Überprüfung von Alignments, oft durch Untersuchen der Alignment-Qualität für annotierte funktionelle Stellen auf zwei oder mehr Sequenzen. Viele ermöglichen auch die Bearbeitung des Alignments, um diese (normalerweise geringfügigen) Fehler zu korrigieren, um ein optimales "kuratiertes" Alignment zu erhalten, das für die Verwendung in der phylogenetischen Analyse oder vergleichenden Modellierung geeignet ist. [42]

Mit zunehmender Anzahl von Sequenzen und insbesondere bei genomweiten Studien mit vielen MSAs ist es jedoch unmöglich, alle Alignments manuell zu kuratieren. Darüber hinaus ist die manuelle Kuration subjektiv. Und schließlich kann selbst der beste Experte die mehrdeutigen Fälle stark divergierender Sequenzen nicht sicher zuordnen. In solchen Fällen ist es üblich, durch automatische Verfahren unzuverlässig ausgerichtete Regionen aus der MSA auszuschließen. Zum Zwecke der Phylogenie-Rekonstruktion (siehe unten) wird das Gblocks-Programm weit verbreitet verwendet, um Alignment-Blöcke zu entfernen, die von geringer Qualität sind, gemäß verschiedenen Cutoffs für die Anzahl von Lückensequenzen in Alignment-Spalten. [43] Diese Kriterien können jedoch Regionen mit Einfügungs-/Löschereignissen, die noch zuverlässig ausgerichtet sein können, übermäßig herausfiltern, und diese Regionen könnten für andere Zwecke wünschenswert sein, wie zum Beispiel den Nachweis einer positiven Selektion. Einige Alignment-Algorithmen geben ortsspezifische Scores aus, die die Auswahl von Regionen mit hoher Vertrauenswürdigkeit ermöglichen. Ein solcher Dienst wurde zuerst vom SOAP-Programm angeboten, [44] das die Robustheit jeder Säule gegenüber Störungen in den Parametern des populären Ausrichtungsprogramms CLUSTALW testet. Das T-Coffee-Programm [45] verwendet eine Bibliothek von Alignments bei der Konstruktion des endgültigen MSA, und seine Ausgabe-MSA wird gemäß Konfidenzbewertungen gefärbt, die die Übereinstimmung zwischen verschiedenen Alignments in der Bibliothek bezüglich jedes ausgerichteten Rests widerspiegeln. Seine Erweiterung, TCS : (Transiv CBeständigkeit Score) verwendet T-Coffee-Bibliotheken mit paarweisen Ausrichtungen, um MSA von Drittanbietern zu bewerten. Paarweise Projektionen können mit schnellen oder langsamen Verfahren erstellt werden, wodurch ein Kompromiss zwischen Geschwindigkeit und Genauigkeit möglich ist. [46] [47] Ein weiteres Alignment-Programm, das eine MSA mit Konfidenzwerten ausgeben kann, ist FSA, [48] das ein statistisches Modell verwendet, das die Berechnung der Unsicherheit im Alignment ermöglicht. Der HoT-Score (Heads-Or-Tails) kann aufgrund der Existenz mehrerer kooptimaler Lösungen als Maß für die ortsspezifische Ausrichtungsunsicherheit verwendet werden. [49] The GUIDANCE program [50] calculates a similar site-specific confidence measure based on the robustness of the alignment to uncertainty in the guide tree that is used in progressive alignment programs. An alternative, more statistically justified approach to assess alignment uncertainty is the use of probabilistic evolutionary models for joint estimation of phylogeny and alignment. A Bayesian approach allows calculation of posterior probabilities of estimated phylogeny and alignment, which is a measure of the confidence in these estimates. In this case, a posterior probability can be calculated for each site in the alignment. Such an approach was implemented in the program BAli-Phy. [51]

There are free programs available for visualization of multiple sequence alignments, for example Jalview and UGENE.

Multiple sequence alignments can be used to create a phylogenetic tree. [52] This is made possible by two reasons. The first is because functional domains that are known in annotated sequences can be used for alignment in non-annotated sequences. The other is that conserved regions known to be functionally important can be found. This makes it possible for multiple sequence alignments to be used to analyze and find evolutionary relationships through homology between sequences. Point mutations and insertion or deletion events (called indels) can be detected.

Multiple sequence alignments can also be used to identify functionally important sites, such as binding sites, active sites, or sites corresponding to other key functions, by locating conserved domains. When looking at multiple sequence alignments, it is useful to consider different aspects of the sequences when comparing sequences. These aspects include identity, similarity, and homology. Identity means that the sequences have identical residues at their respective positions. On the other hand, similarity has to do with the sequences being compared having similar residues quantitatively. For example, in terms of nucleotide sequences, pyrimidines are considered similar to each other, as are purines. Similarity ultimately leads to homology, in that the more similar sequences are, the closer they are to being homologous. This similarity in sequences can then go on to help find common ancestry. [52]


Evolution of complexity: genic, genomic, and developmental

Studies in arthropods have led to major insights into the complexity of developmental mechanisms and evolutionary changes. Experiments on the fruit fly Drosophila melanogaster have uncovered the complexity of gene interaction networks during early development 25,26 . For example, the earliest set of genes that are activated in the embryo, termed the ‘maternal’ class of genes, help establish body axes. Subsequent to the formation of body plan, segments and polarities of segments require the function of genes belonging to zygotic, gap, pair-rule, and segment polarity classes 27 . The cooperative and antagonistic actions between these genes ensure a precise and robust sequence of developmental events in the embryo, leading to the formation of tissues and organs at later stages. While the entire developmental process encoded in the DNA sequence is a necessary component of evolution, the individual mutations involved are not uniquely necessary they can be replaced with others. Genomic and proteomic studies are providing insight into the old question of developmental constraints in evolution. Recent studies have shown that developmental constraint and selection work together: development can constrain evolution in the short term, but selection can alter and reshape those constraints in the long term 28,29 . While developmental constraint on genes affecting embryology is not unexpected, as shown by Artieri and Singh 30 using patterns of gene expression during Drosophila ontogeny, it is not development but Darwinian ‘selection opportunity’ that dictates post-embryological diversification 4,30,31 .

Technological advancements over the last decade have made efficient large-scale genome sequencing of organisms easily available. The analysis of sequence data has revealed the structure of genes, gene families, and their chromosomal organizations (e.g., see www.genecards.org, www.informatics.jax.org, www.flybase.org, and www.wormbase.org). Genomic data together with gene expression studies are providing insight not only into the history of evolution but also on the type and extent of standing variation in populations. Some of the highlights reported by these studies are summarized below.

Number of genes do not correlate with complexity

While higher organisms have more protein coding genes, variation in gene number does not strongly correlate with morphological complexity. For example, the nematode C. elegans has more genes than the fruit fly D. melanogaster, but the latter has appendages and is morphologically more complex. Protein-coding genes in humans, excluding splicing variants, are converging toward 20,000, even though the entire genome is predicted to code over 200,000 transcripts 32 . In addition to mRNA and proteins, there are increasing numbers of non-coding RNA transcripts in metazoan genomes such as micro RNA (miRNA) and long non-coding RNA (lncRNA) 33 . In humans, there are more non-coding RNA genes than protein-coding genes 32 .

Evolution occurs by making alternate use of genes

Evolution occurs by making alternate uses of existing genes through structural 34,35,36 and regulatory changes 37,38 . This is reflected in the 99% sequence similarity shared by humans and chimpanzees, with only 6% of the genes in one species lacking a known homolog in the other 39 . Despite such a high level of sequence conservation, about 80% of proteins in humans and chimps differ in at least one amino acid 35 and 10% of genes between humans and chimpanzees differ in their expression in the brains of the two species 40,41 .

Number of genes affecting a trait appears large

The notion of candidate genes/loci persists and guides much of health genomics for practical reasons. Studies involving the mapping of quantitative trait loci (QTL) have shown that, directly and indirectly, traits are affected by a large number of genes 42,43 . As an example, early studies of variation in human height initially implicated half a dozen to a dozen genes. A recent genomic meta-analysis of human height variation involving over 700,000 individuals has detected over 3290 significant SNPs 44 . Yet together, these SNPs may account for only 24% of the variance in height. The same is largely true for all complex diseases. Genomics is driving home the lesson that there are protein-coding and non-coding genes that perform a variety of functions, but there are no genes specific for a trait. Genome-wide association studies (GWAS) have led to the identification of genes linked to specific traits and diseases 45 (https://www.genome.gov/about-genomics/fact-sheets/Genome-Wide-Association-Studies-Fact-Sheet). The data reveal that genes are shared between traits. A recent paper by Boyle et al. presents an ‘omnigenic’ model of complex traits 46 , proposing that all genes expressed in disease-relevant cells are involved in a functional network and hence contribute to the condition.

A significant part of non-coding DNA may be involved in regulation

The ENCODE project (Encyclopedia of DNA Elements the ENCODE Project Consortium 2012) initially reported a large proportion of the genome to be functional, but ultimately scaled it down to approximately10%. This added to the ‘junk DNA’ debate and questions regarding the proper biological function of a gene 47,48 . Although a large proportion of mammalian DNA may have no necessary or essential function, this should not be interpreted as lacking in function or being inert. Such apparently ‘non-functional’ DNA may be part of the unnecessary complexity of the uncommitted ‘gene pool’—part of current phenotypic plasticity devoid of teleological explanation for future use.

Phylogenetic gene complexity shows the same function can be shaped by different genes

Recent genomic studies of protein evolution in anatomical traits of D. melanogaster embryos showed that younger genes, i.e., genes that are comparatively newer based on phylogenetic analysis, had lesser tissue distribution, fewer interactions, high expression levels, and less evolutionary constraint 49,50 . Given that the function of a gene is not fixed and functions evolve between genes as well as within genes over time, we can expect the complexity of interaction networks of newer genes to increase with time. In a study of adaptation in protein-coding gene trees in the primate clade, Daub et al. 51 remarked: ‘several gene sets are found significant at multiple levels in the phylogeny, but different genes are responsible for the selection signal in the different branches. This suggests that the same function has been optimized in different ways at different times in primate evolution.’

Evolution by gene regulation is not ‘break free’

In the post genomic world, the old ‘major vs. minor’ or ‘regulatory vs. structural’ mutation debate has been restructured and refined in terms of the role of cis-regulation vs. structural mutation in evolution 52,53,54 . Mutations in ‘cis’ elements generally affect the expression of individual genes, possibly contributing to regulatory evolution 54 . However, there are also examples of stabilizing selection operating on gene expression that tends to compensate for ‘cis’ changes (e.g., see ref. 55 ), leading to the evolution of biological complexity. While new cases of evolution by cis-regulatory mutations are being discovered, they are still far fewer than those by coding mutations 52,53 . Although the importance of cis-regulatory mutations in evolution is well documented, the real question involves neither their crucial role nor their unique contribution to the evolution of morphology. Instead, it is whether cis-regulatory mutations provide a source of variation that, unlike protein-coding mutations, is potentially large and pleiotropy-free, i.e., have no deleterious side effects and provide possibilities for ‘break-free’ evolutionary change. It is erroneous to argue that, unlike protein-coding variation, cis-regulation variation is free of pleiotropic effects or free of constraints 56,57 . Molecular population genetic studies inform us that genetic variation is not the limiting factor in evolution the limiting factor is ‘selection opportunity’ 58 . Evolution does not work toward producing perfect proteins. The protein-protein interactions and any negative effects arising therefrom are part of the genetic machinery involved in evolutionary change. Negative pleiotropy in structural mutations may not be any worse than the negative effect of gene expression in an unwanted place and time 53 . Negative pleiotropic effects of structural mutations are factored into the rate of evolution through compensatory mutations and gene-gene interactions. Ähnlich, cis-acting regulations are obviously important in controlling gene expression and may appear to provide a limitless rate of evolutionary change however, we do not need to argue that evolution in nature is slow and incremental.

Molecular redundancy is a universal feature of organisms

Organisms are both the subject and the object of evolutionary change. Since the organisms’ environment is not constant, we can expect some degree of molecular flexibility in the ability of the organisms to adapt to environmental fluctuations experienced over their lifetime. Such a flexibility could come from at least three distinct but interrelated sources. One of these is what we have termed as unnecessary complexity, i.e., multiple redundant gene interactions and pathways. The second source of flexibility is over-expression of genes or up-regulation of pathways. It is expected that the functional integrity of any pathway/network would be limited by the least-expressed genes and such genes may be under pressure to be upregulated. Any increase in gene expression will contribute to higher probability of random molecular interactions thereby forming the basis of new functions and, therefore, new evolutionary adaptations. The third source is gene-environment interactions, termed ‘norm of reaction’ 17 . The unnecessary complexity together with molecular flexibility is what we have termed as molecular redundancy (Fig. 1).

G and P are the spaces of the genotypic and phenotypic description. g1, G′1, G2, and G′2 are genotypic descriptions at various points in time within successive generations. P1, P′1, P2, and P′2 are phenotypic descriptions. T1, and T3 are laws of transformation from genotype to phenotype and back, respectively, during development. T2 are laws of population biology, and T4 are laws of Mendel and Morgan about gamete formation. Necessary and unnecessary complexities and molecular redundancy are defined in the text. (After Lewontin 19 ). The graph lines are not intended to mean monotonic increase.


Pleiotropy Definition

In pleiotropy, one gene controls the expression of several phenotypic traits. Phenotypes are traits that are physically expressed such as color, body shape, and height. It is often difficult to detect which traits may be the result of pleitoropy unless a mutation occurs in a gene. Because pleiotropic genes control multiple traits, a mutation in a pleiotropic gene will impact more than one trait.

Typically, traits are determined by two alleles (variant form of a gene). Specific allele combinations determine the production of proteins which drive the processes for the development of phenotypic traits. A mutation occurring in a gene alters the DNA sequence of the gene. Changing gene segment sequences most often results in non-functioning proteins. In a pleiotropic gene, all of the traits associated with the gene will be altered by the mutation.

Gene pleiotropy, also referred to as molecular-gene pleiotropy, focuses on the number of functions of a particular gene. The functions are determined by the number of traits and biochemical factors impacted by a gene. Biochemical factors include the number of enzyme reactions catalyzed by the protein products of the gene.

Developmental pleiotropy focuses on mutations and their influence on multiple traits. The mutation of a single gene manifests in the alteration of several different traits. Diseases involving mutational pleiotropy are characterized by deficiencies in multiple organs that impact several body systems.

Selectional pleiotropy focuses on the number of separate fitness components affected by a gene mutation. The term fitness relates to how successful a particular organism is at transferring its genes to the next generation through sexual reproduction. This type of pleiotropy is concerned only with the impact of natural selection on traits.


What Behaviors Do We Inherit Via Genes?

A pervasive assumption in evolutionary psychology is that how we act is affected by the genes we carry. Is there good concrete evidence of this? Are our outcomes predetermined by our biology? The most intriguing findings on this issue came from twin studies.

Evidence that Genes Affect Human Behavior

The study of identical twins reared apart is a natural experiment where two individuals with exactly the same genes grow up in different environments. If they turn out to be similar, then the similarity can be attributed to genotype.

Behavior geneticists concluded that genetics plays a big role in personality, accounting for about half of the differences in personality test results and even more of the differences in IQ scores.

Apart from these scientific findings, researchers were impressed by many obvious similarities between twins when they were reunited for the first time after being separated from birth. Many of the pairs dressed similarly or had the same haircut, or glasses. They described remarkable similarities in hobbies and interests. One pair reported that they were the only ones in their neighborhood to construct a circular bench around a tree in their backyard.

Striking as such stories are, they remain mere anecdotes and have no scientific value. The main problem is that there is confirmation bias. If a pair of twins is wearing the same baseball hat, we tend to interpret this as a wonderful example of genetic control over the minutiae of behavior. If a pair shows up wearing different hats, however, we ignore that difference but instead register some similarities such as both twins wearing a black shirt.

Identical twins separated at birth have some striking differences. If one twin is schizophrenic, there is no more than a coin-toss chance that the other is diagnosed with the same mental disorder. This is striking given that schizophrenia is believed to have a basis in brain biology. (The same is true of political affiliation).

We must also recognize that identical twins are a special case whose relevance to the behavior of ordinary people is disputable. The problem is that many characteristics are affected by multiple genes. If there are six genes involved, identical twins will be the same because they have all six genes. Yet, taken separately, each of those genes might not have a detectable effect on the trait of interest if studied in the general population.

This wrinkle (known as epistasis) may help explain why it is so difficult to establish a biochemical chain of causation between specific genes and complex human behaviors, although researchers have made heroic efforts to account for various traits, such as sensation seeking as a function of dopamine receptors, and have investigated various candidate genes to account for criminal violence.

Biochemistry and Behavior

Establishing that some behavioral traits are heritable is not the end of the scientific mission but really just the beginning. We need to know not just that genes affect behavior but also have to establish which genes are involved and how they affect the biochemistry of brain cells in ways that influence behavior.

One of the first of such projects involved work on receptors for dopamine that are implicated in sensation seeking.

This research proved successful. Yet, the success was qualified because variation in the dopamine receptor explained only a tiny fraction of individual differences in the sensation-seeking trait.

Another study looked at the so-called “warrior genes” that were over-represented among violent criminals. Criminal defense attorneys were excited by this finding because it offered a new defense strategy for violent offenders, namely that they were not fully responsible for their actions because their genes made them do it.

That genetic defense has been a flop, however. Warrior genes affect violent behavior only in the small category of individuals who grow up in extremely abusive homes. Children who are raised by loving parents are very unlikely to engage in orgies of uncontrolled aggression.

So there is a striking contradiction between the seeming clarity of the early research via twin and adoption studies, that established clear and substantial effects of genetic inheritance on personality and behavior, and subsequent efforts to work out how these influences play out.

Adaptation Without Genes

Although it is hard to deny genetic influences on human behavior, anyone who tries to explain what a person does in terms of simple biochemical differences is likely to be disappointed. Personality psychologists recognize that gene effects are difficult to separate from environmental influences. Children growing up in the same home experience that environment very differently because they have distinct temperaments, are treated differently by parents and siblings, and pursue different interests with different companions.

For example, a child with a greater sense of curiosity is going to cultivate varied interests and activities that feed the thirst for knowledge, whereas less curious siblings extract far less intellectual stimulation from their home environment. Such differences between siblings in what they get out of the environment are about as important as genes in determining personality and intelligence (1).

So there is little doubt that how we act is affected by genes in fairly generalized ways. Some individuals are born with a propensity to be outgoing, to be happy, emotionally reactive, sociable, creative, or intelligent. Yet, we do not have a good understanding of any of the relevant biochemical mechanisms.

Moreover, there is no satisfactory explanation of the underlying biochemical mechanisms in most cases. There is an important distinction between personality predispositions and actual behavior. Personality may be genetically heritable to some degree but human behavior never is.

Honeybees have a complex sequence of hygienic behavior that consists of digging out infected larvae and chucking them out of the hive — a sequence that is understood in terms of Mendelian genetics with one gene for uncapping and another for removing the dead larvae (2). As far as humans are concerned, we may or may not have strong hygienic tendencies, but there is no gene for cleaning out the refrigerator.

1 Plomin, R. (1990). Nature and nurture. Pacific Grove, CA: Brooks/Cole.

2 Grier, J. W. (1984). Biology of animal behavior. St. Louis, MO: Times Mirror/Mosby.


Recombination of Linked Genes

It is essential to understand homologous recombination to comprehend linked genes. Now that we know that the chromosomes are cut at random places during homologous recombination, we can see how linked genes are inherited together. Let’s take a real example to better understand it: freckles and red hair.

It is very common to find people with freckles and red hair. In fact, this occurs way more often than it would by chance otherwise, many blonde or brunette people would have freckles more often, and fewer red-haired people would have freckles. This happens because the genes that code for freckles and the genes that code for red hair sit close together on the same chromosome. When homologous recombination occurs, it is very unlikely that the DNA will be cut in between the two genes. Although homologous recombination happens numerous times, these two features are inherited together most of the time because the chances that the DNA coding for these two genes is split up are very low, consequently leading to the genes being inherited together most of the time.


Zusätzliche Informationen

Dataset S1.

The sorghum gene list. Sorghum genes from 37 regions were from Sbi1.4 to which we added many genes on the basis of orthology to rice Niponbarre, TIGR 5 the added genes included many with corresponding RNAs since these are absent in Sbi1.4. SI1 uses the format Sbxgxxxxxx for Sbi1.4 genes and sorghum_chrmosomex_startx_stopx for genes we added based on Sb-Os orthology. Genes in local arrays were marked as parent, duplicate (D or DUP), or interrupter (a gene located within a tandem repeat) using published methods [7], and duplicates were marked and ignored subsequently up to three interrupter genes were permitted. If a remaining gene occurred syntenically (blastn bitscore >50) on a maize homeolog, then it was coded “1” or “2” if it occurred on only one of the homeologs or “B” if it occurred on both. A few genes were invalidated for technical reasons (“N”), and some genes were not found in the syntenic position in either maize homeolog (encoded as “0”).

Dataset S2.

The sorghum-maize dot-plot. Sorghum (x-axis) and maize (ja-axis) with alpha-tetraploidy lines colored purple by lower Ks from SynMap in CoGe. Numerals are chromosome numbers. Lower Ks is more recent. Although hundreds of breakpoints are evident, each segment of maize is orthologous to one sorghum region, and each sorghum segment is orthologous to two maize regions.

Dataset S3.

Fractionation runs used to determine bias for all 37 orthologous sorghum/maize regions. Here, bias is measured in units “genes lost completely.” The code we used, taken from the Dataset S1 datasheet (e.g. 11BBB1121B2121BBBB2222BB…), is given at the top of each diagram. Assuming that genes are lost in units of one gene, the null hypothesis is that the same number of genes are lost on each of the homeologs: using the symbols of the alignment diagrams, 0 = 1. The P value predicts the chance that this 1∶1 ratio is possible. Many genes coded “B” (retained) were actually a complete gene paired with a gene fragment, as expected if fractionation is not complete. All of our 37 diagrams had runs of over nine genes removed because they are known to be segmental translocations.

Dataset S4.

Maize-maize self-blastn dot-plot. Sequences present 40×X in the genome were masked. Axes are in genes from annotated psudomolecules from 10-09. Tangent angles = bias. Green lines are higher Ks and are from the alpha-tetraploidy.

Dataset S5.

Whole-gene deletion in soybean (Glycin max). (A) A GEvo output of soybean homeologous regions from the alpha tetraploidy (panels 1 and 2), Medicago trunculata (panel 3), and the soybean homeologous regions from the beta tetraploidy event (panels 4 and 5). Circled is a gene in Medicago that has orthologs in all soybean homeologs except for soybean chromosome 1 (panel 1). (B) Diagram showing the homeologous sequences of soybean chromosome 1 (Glma01) and chromosome 2 (Glma02, panel 2). In chromosome 2 the circled gene from (A) (colored green in this diagram) is present, but absent in chromosome 1. Direct repeats (purple) and inverted repeats (blue) flank the sequence surrounding the gene in chromosome 2. Yellow denotes the syntenous sequence highlighted in pink from (A).

Dataset S6.

Generating the augmented sorghum gene list by comparison of sorghum to rice. We used a pipeline to generate the sorghum gene list of SI1. Given the input of the same genomes and annotation, this pipeline generates this list repeatedly. This sorghum gene list includes the JGI official annotated sorghum genes plus the output of this pipeline: sorghum-rice ortholgous blastn hits that, when further analyzed, turned out to be homologous to RNA or protein-encoding genes or pseudogenes.

Dataset S7.

The script used to run the genetic algorithm for Abbildung 5. The fitness of solutions in the evolutionary algorithm were scored using the Monte Carlo method as described in Methods (with the modification that rather than fixing the deletion length at 1 gene, deletion lengths were selected using the weighted averages generated by the evolutionary algorithm) with the most fit solutions being those where the median simulated number of deletion runs was least different from the observed number of runs. The genetic algorithm was allowed to run for 100,000 generations.


Schau das Video: Mendelsche Regeln Biologie GeroMovie (November 2022).