Information

Wie erstellt man einen phylogenetischen Baum ohne eine Fremdgruppe?

Wie erstellt man einen phylogenetischen Baum ohne eine Fremdgruppe?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich habe Sequenzen von vier Käferpopulationen derselben Art, die auf das gesamte Genom ausgerichtet sind. Ich möchte einen phylogenetischen Baum mit den vier konstruieren. Ich kann jedoch keine geeignete Fremdgruppe der Art finden, daher kann ich keine Fremdgruppe verwenden, um den Baum zu verwurzeln. Gibt es eine bestimmte Methode, mit der man einen Baum ohne Outgroup erstellen kann? Ich fand, dass die MEGA-Software dies gut macht. Was ist die Theorie und das Verständnis der Konstruktion eines Baumes ohne eine Fremdgruppe? Was sind die Auswirkungen der Konstruktion eines Baums ohne eine Fremdgruppe? Sind die Abstände zwischen den Bäumen relativ zueinander gemessen?


Die meisten klassischen Rekonstruktionsalgorithmen der Phylogenie wurzeln den Baum a posteriori, basierend auf der vom Benutzer gewählten Fremdgruppe. Der Baum wird tatsächlich abgeleitet und intern ohne Wurzel dargestellt.

Wenn Sie daher ein Programm verwenden, das Sie nach einer Outgroup fragt, ist es wahrscheinlich, dass Sie einfach eine beliebige auswählen und den erhaltenen Baum später "entwurzeln" können.


Studentische Konstruktion phylogenetischer Bäume in einem Biologie-Einführungskurs

Phylogenetische Bäume sind in allen Biologiedisziplinen immer wichtiger geworden. Folglich ist das Lernen über phylogenetische Bäume zu einem wichtigen Bestandteil des Biologieunterrichts und zu einem Interessengebiet für die Biologiedidaktik geworden. Konstruktionsaufgaben, bei denen Schüler aus einer Art von Daten phylogenetische Bäume generieren, werden oft für den Unterricht verwendet. Der Einfluss dieser Übungen auf das Lernen der Schüler ist jedoch ungewiss, zum Teil aufgrund unseres fragmentierten Wissens darüber, was die Schüler während der Aufgaben konstruieren. Das Ziel dieses Projekts war die Entwicklung einer robusteren Methode zur Beschreibung von Schüler-generierten phylogenetischen Bäumen, die zukünftige Untersuchungen unterstützen wird, die versuchen, Konstruktionsaufgaben mit Schüler-Lernen zu verknüpfen.

Ergebnisse

Durch iterative Untersuchung von Daten aus einem Biologie-Einführungskurs haben wir eine Methode entwickelt, um von Studenten generierte phylogenetische Bäume in Bezug auf Stil, Konventionalität und Genauigkeit zu beschreiben. Die Schüler verwendeten den diagonalen Stil häufiger als den Klammerstil für Konstruktionsaufgaben. Die Mehrheit der phylogenetischen Bäume wurde konventionell konstruiert, und die variable Ausrichtung der Äste war das häufigste unkonventionelle Merkmal. Darüber hinaus wurden die meisten phylogenetischen Bäume in Bezug auf die Genauigkeit korrekt (keine Fehler) oder angemessen (nur geringfügige Fehler) erstellt. Die Annahme, dass existierende Taxa von anderen existierenden Taxa abstammen, war der häufigste größere Fehler, während leere Zweige und zusätzliche Knoten sehr häufige kleinere Fehler waren.

Schlussfolgerungen

Die von uns entwickelte Methode zur Beschreibung von von Schülern erstellten phylogenetischen Bäumen hat mehrere Trends aufgedeckt, die weitere Untersuchungen erfordern. Während beispielsweise diagonale und phylogenetische Bäume in Klammern gleichwertige Informationen enthalten, könnte die Präferenz der Schüler für die Verwendung des diagonalen Stils das Verständnis beeinträchtigen. Darüber hinaus erstellten die Schüler trotz fehlender expliziter Anweisungen phylogenetische Bäume, die weitgehend konventionell und genau waren. Überraschenderweise waren Genauigkeit und Konventionalität auch voneinander abhängig. Unsere Methode zur Beschreibung von phylogenetischen Bäumen, die von Studenten konstruiert wurden, basiert auf Daten aus einem einführenden Biologiekurs an einer Institution, und die Ergebnisse sind wahrscheinlich begrenzt. Wir ermutigen Forscher, unsere Methode als Grundlage für die Entwicklung eines generalisierbareren Werkzeugs zu verwenden, das zukünftige Untersuchungen unterstützen wird, die versuchen, Konstruktionsaufgaben mit dem Lernen der Schüler zu verknüpfen.


Materialen und Methoden

Taxon- und Charakter-Sampling

Um die Beziehungen der Thalattosuchian-Krokodylomorphen zu testen, führte ich eine phylogenetische Analyse von 394 morphologischen Merkmalen durch, die für acht Fremdgruppen- und 78 Eigengruppen-Taxa bewertet wurden, darunter 24 Thalattosuchian-Arten (Online-Anhang 1 verfügbar als ergänzendes Material auf Dryad unter http://dx.doi. org/10.5061/dryad.00ss6). Dieser neue Datensatz ist eine modifizierte Version des in Wilberg (2015) präsentierten Datensatzes mit dem Hinzufügen von 10 neuen Zeichen und der Modifikation vieler anderer (online Appendix 2 verfügbar als Supplementary Material on Dryad unter http://dx.doi.org/ 10.5061/dryad.00ss6). Um Fehler bei der Zeichencodierung zu minimieren, konzentrierte ich mich auf Proben, die ich aus erster Hand beobachten konnte, oder auf solche mit detaillierten veröffentlichten Beschreibungen. Ich habe mich bemüht, alle wichtigen Crocodylomorph-Gruppen umfassend zu proben. Taxon-Sampling innerhalb von Thalattosuchia konzentrierte sich auf die Erfassung des breiten Spektrums an Morphologien, die in der Gruppe über ihre gesamte zeitliche Dauer vorhanden sind. Die Fremdgruppen-Stichprobennahme wurde gegenüber früheren Analysen mit der Absicht erhöht, die Verteilung der Charakterzustände bei Nichtkrokodilformen besser zu charakterisieren. Der basale Suchianer Gracilisuchus wurde verwendet, um den Baum basierend auf seiner Position in der breit angelegten Analyse von Archosauria von Nesbitt (2011) zu verwurzeln. Der Rauisuchid (sensu Nesbitt 2011) Postosuchus kirkpatricki wurde aus zwei Hauptgründen aufgenommen. Erstens wurde Rauisuchidae häufig als Schwestergruppe von Crocodylomorpha gefunden, etwas außerhalb der phylogenetisch instabilen „Sphenosuchia“ (z. B. Benton und Clark 1988 Parrish 1993 Juli 1994 Nesbitt 2011). Sekunde, Postosuchus kirkpatricki ist von mehreren Exemplaren bekannt, die fast das komplette Skelett darstellen, was die Bewertung der meisten Charaktere ermöglicht. Sechs „sphenosuchianische“ Taxa wurden ebenfalls beprobt. Drei davon wurden in früheren Analysen als Schwestertaxon von Crocodyliformes gefunden (Junggarsuchus sloani, Clarket al. 2004 Kayentasuchus walkeri, Nesbitt 2011 Almadasuchus Figarii, Polet al. 2013). Die Aufnahme dieser Taxa wird einen strengeren Test der möglichen Platzierung von Thalattosuchia als Schwestergruppe von Crocodyliformes ermöglichen. Um die Sensitivität der Topologie gegenüber Fremdgruppenstichproben zu beurteilen, wurde die Analyse auch in drei Permutationen durchgeführt: Ohne den basalen Suchian Gracilisuchus (Wurzeln auf Postosuchus) ohne die nicht-crocodylomorphen Taxa Gracilisuchus und Postosuchus (Wurzeln auf Hesperosuchus agilis) und Ausschluss aller Nichtkrokodilformen und Wurzeln auf dem Protosuchian Orthosuchus Stormbergi wie in einigen veröffentlichten Analysen (z. B. Sereno und Larsson 2009).

Wie bei jeder paläontologischen phylogenetischen Analyse enthält der Studiendatensatz relativ viele fehlende Daten (40,75 % fehlen oder nicht zutreffend). Viele der fehlenden Daten konzentrieren sich auf die postkraniellen Merkmale, da zahlreiche crocodylomorphe Taxa hauptsächlich aus kranialem Material bekannt sind. Drei Taxa (Zaraasuchus shepardi, Eoneustes gaudryi, und Steneosaurus brevidens) sind hochgradig unvollständig (80–82%), während die mediane Unvollständigkeit pro Taxon ∼36 % beträgt. Obwohl sich jedoch gezeigt hat, dass fehlende Daten die phylogenetische Genauigkeit verringern (z. B. Wiens 2003 Prevosti und Chemisquy 2010 und Verweise darin), korreliert die Menge der fehlenden Daten nicht direkt mit dem Informationsgehalt eines Taxons. Ein sehr unvollständiges Taxon kann die Auflösung noch erhöhen, wenn es informative synapomorphe Informationen enthält (Kearney und Clark 2003 Wiens 2003).

Sparsamkeitsanalyse

Der phylogenetische Datensatz wurde in TNT v1.1 ( Goloboff et al. 2008) mit gleichgewichteter Sparsamkeit analysiert. Bäume minimaler Länge wurden unter Verwendung einer heuristischen Suche mit 1000 Replikaten von Wagner-Bäumen unter Verwendung zufälliger Additionssequenzen, gefolgt von Baumbisektion und Wiederverbindungs-(TBR)-Zweigvertauschung gefunden. Die kürzesten Bäume, die aus diesen Replikaten gewonnen wurden, wurden einer letzten Runde des TBR-Zweigtauschs unterzogen, um sicherzustellen, dass alle Bäume mit minimaler Länge entdeckt wurden. Äste der Länge Null wurden zusammengebrochen, wenn sie keine Unterstützung unter einem der Bäume mit minimaler Länge hatten (Regel 1 von Coddington und Scharff 1994). Es wurden zwei getrennte Analysen durchgeführt. Um die Wirkung potenziell verschachtelter Sätze von Homologien zu testen, die in einigen Zeichen mit mehreren Zuständen vorhanden sind, wurden im ersten Fall 36 Zeichen wie bestellt behandelt (Online-Anhang 2 verfügbar als ergänzendes Material auf Dryad unter http://dx.doi.org/10.5061/dryad .00ss6). In der zweiten wurden Multistate-Zeichen als ungeordnet behandelt, um zu vermeiden, dass a priori Annahmen über den Evolutionsprozess (obwohl die Behandlung solcher Zeichen als ungeordnet mit besser begründeten Annahmen verbunden ist, wurde in Frage gestellt, z. B. Lipscomb 1992 Slowinski 1993).

Knotenunterstützung

Die Knotenunterstützung wurde mittels Jackknife-Resampling bewertet, wie es auf Zeichendaten angewendet wurde (Farris et al. 1996). Die Jackknife-Unterstützung wurde in TNT unter Verwendung von 1000 Replikaten berechnet, wobei die Wahrscheinlichkeit der unabhängigen Zeichenentfernung auf 0,37 festgelegt wurde (∼e –1 wie in Farris et al. 1996 empfohlen). Eine heuristische Suche wurde mit jedem Replikat verwendet, das aus 10 zufälligen Additionssequenzen bestand, wodurch 10 Bäume pro Replikat eingespart wurden. Die resultierenden Topologien wurden unter Verwendung von GC-Frequenzen (Differenz zwischen der Häufigkeit der Wiederherstellung einer bestimmten Gruppe und der häufigsten widersprüchlichen Gruppe Goloboff et al. 2003) zusammengefasst. GC-Häufigkeiten werden absoluten Häufigkeiten (der Standardmethode zum Zählen von Häufigkeiten bei Bootstrap- und Jackknife-Analysen) vorgezogen, da sie sowohl die Beweise für eine Klade als auch die Menge an Beweisen berücksichtigen, die diese Klade fälschen.

Vergleichsmatrizen

Um den Effekt von Fremdgruppenproben auf die Baumtopologie zu bewerten, wurden zwei zuvor veröffentlichte crocodylomorphe Taxon-Charakter-Matrizen (Turner und Buckley 2008, Sereno und Larsson 2009) untersucht. Die Analyse von Turner und Buckley (2008) besteht aus 75 Taxa und 290 Zeichen und beinhaltet Gracilisuchus stipanicicorum, Terrestrisuchus gracilis, und Dibothrosuchus elaphros als Fremdgruppentaxa (verwurzelt auf Gracilisuchus). Die Analyse von Sereno und Larsson (2009) umfasst 43 Taxa und 252 Zeichen (basierend auf dem Protosuchian Orthosuchus Stormbergi). Beide Matrizen blieben mit Ausnahme der Hinzufügung neuer Fremdgruppentaxa unverändert. Im Fall von Turner und Buckley (2008) ist das einzige terminale Taxon Postosuchus kirkpatricki wurde hinzugefügt. Zu Vergleichszwecken beide Postosuchus und Gracilisuchus wurden dem Datensatz von Sereno und Larsson (2009) hinzugefügt. Diese Datensätze wurden unter Verwendung von ungewichteter Sparsamkeit in TNT v. 1.1 und den gleichen oben beschriebenen Suchparametern analysiert. Beide Analysen enthielten additive Charaktere, und diese wurden als solche beibehalten. Gracilisuchus wurde als Wurzel für beide Matrizen gesetzt. Alle phylogenetischen Datensätze sind als Supplementary Material on Dryad unter http://dx.doi.org/10.5061/dryad.00ss6 verfügbar.


So erstellen Sie einen phylogenetischen Baum in Geneious Prime

Phylogenetische Bäume werden verwendet, um evolutionäre Beziehungen zwischen Sequenzen abzuleiten. Geneious kann phylogenetische Bäume mit Distanz-, Maximum-Likelihood- oder Bayes-Methoden erstellen. Dieses Handbuch beschreibt die grundlegenden Schritte zum Erstellen eines Baums und zum Bearbeiten des Baumbetrachters in Geneious.

Bevor Sie mit dem Bau Ihres Baumes beginnen, sollten Sie sich mit den Prinzipien des Baumbaus und den Stärken und Schwächen jeder Methode vertraut machen. Die folgende Rezension ist ein guter Anfang.

1. Richten Sie Ihre Sequenzen aus

Bevor Sie einen phylogenetischen Baum erstellen können, müssen Sie Ihre Sequenzen ausrichten. Wählen Sie dazu alle Ihre Sequenzen aus und wählen Sie Ausrichten/Zusammenbauen – Mehrfachausrichtung. Dieser Link bietet eine Anleitung zu den verfügbaren Algorithmen.

Wenn Sie mit Ihrer Ausrichtung zufrieden sind, wählen Sie sie aus und klicken Sie auf Baum um die Baumbildungsoptionen zu öffnen.

2. Wählen Sie Ihren Tree Builder und Ihre Parameter

Oben in den Baumbildungsoptionen sehen Sie die verfügbaren Baumbildungsalgorithmen. Dazu gehören der integrierte Geneious Tree Builder (und Consensus Tree Builder) sowie alle von Ihnen installierten Plugins.

Der Geneious Tree Builder erstellt Entfernungsbäume entweder mit Neighbor-Joining- oder UPGMA-Methoden. Darüber hinaus stehen die folgenden Plugins zur Erzeugung von Maximum-Likelihood-, Parsimony- oder Bayes-Bäumen zur Verfügung:

RAxML - Maximale Wahrscheinlichkeit, optimiert für große Datensätze

FastTree - Ungefähre maximale Wahrscheinlichkeit für extrem große Datensätze

PAUP* - Sparsamkeit oder maximale Wahrscheinlichkeit (erfordert Ihre eigene Kopie von PAUP*, entweder Version 4.0b10 oder 4.0a149 und höher von hier)

Weitere Informationen zu den Baumbauern mit maximaler Wahrscheinlichkeit finden Sie unter diesem Link .

Jeder Treebuilder hat eine andere Schnittstelle zum Spezifizieren des evolutionären Modells und anderer Parameter. Wir empfehlen Ihnen, das Benutzerhandbuch für jeden Baumbauer zu konsultieren, um sich mit den verfügbaren Optionen vertraut zu machen. Sie können auch ein Programm wie Modeltest außerhalb von Geneious verwenden, um das beste Modell für Ihre Daten zu ermitteln, bevor Sie den Baum erstellen.

3. Betreibe deinen Baum

Klicken Sie auf OK, um mit der Baumerstellung zu beginnen. Die Zeit, die zum Erstellen des Baums benötigt wird, hängt von dem von Ihnen gewählten Algorithmus, der Größe Ihres Alignments und den von Ihnen gewählten Parametern (z. B. Anzahl der Bootstrap-Replikate) ab. Distanzbäume werden normalerweise ziemlich schnell (innerhalb von Minuten) abgeschlossen, aber die maximale Wahrscheinlichkeit und Bayes'sche Bäume können Stunden oder sogar Tage dauern.

4. Sehen Sie sich Ihren Baum an

Wenn die Ausführung Ihres Baums beendet ist, wird ein neues Baumdokument erstellt und automatisch im Viewer geöffnet. Geneious zeigt Bäume standardmäßig im rechteckigen (verwurzelten) Layout an, auch wenn der Baum nicht verwurzelt ist. Optionen für kreisförmige oder radiale Formate finden Sie unter der Allgemein Registerkarte, zusammen mit den Zoom-Steuerelementen.

Wenn Sie Ihren Baum verwurzeln möchten, klicken Sie auf den Knoten des Taxons, das Sie als Fremdgruppe angeben möchten, und klicken Sie auf Wurzel. Um die Position von Taxa vertikal zu spiegeln, ohne die Topologie zu ändern, verwenden Sie die Geschwister tauschen Möglichkeit.

Die Steuerelemente oben im Viewer enthalten auch Optionen zum Färben und Einstellen der Schriftgrößen in Ihrem Baum. Um eine ganze Klade einzufärben, wählen Sie den Knoten an der Basis der Klade aus und wählen Sie Farbknoten.


1 Antwort 1

Sie benötigen Bootstrap-Unterstützung mit einem modellbasierten Baumbildungsalgorithmus über maximale Wahrscheinlichkeit (einige Leute verwenden Bayes). Das Dateiformat ist das entspannte phylip-Format (bitte stellen Sie eine separate Frage, wenn Sie hier Schwierigkeiten haben - es ist etwas knifflig).

Ich verwende hier Standard-RAxML, insbesondere raxmlHPC (einfach herunterladbar und kompilierbar unter Linux und OSX). Die Codes sind ziemlich kompliziert und ich habe sie unten angegeben.

Ein robuster Maximum-Likelihood-Baum ist

Dieser Baum wird für 500 Replikationen booten, aber um zu starten, würde ich 100 Replikationen verwenden.

Erstellen Sie einen Konsensbaum der Bootstraps,

Sie benötigen Bootstrap-Unterstützung >80% und wiederholen dies bitte mit und ohne 5-2/5-3 (es sieht noch lang aus)

Der Cluster, auf den Sie Zugriff haben, ist für die Berechnung in Ordnung. Es dauert ungefähr 24 Stunden, um eine Bootstrap-Berechnung für einen Datensatz abzuschließen, und natürlich müssen Sie Ihre Berechnung über die 22 Contigs hinweg parallelisieren.

Das Anzeigen des Baums ist FigTree (für Mac OSX) einfach.

Das Rooten kann kompliziert sein, weil ich deine Bakterien nicht wirklich kenne.

Die Rekombinationsfrage ist komplizierter, aber ich würde 22 Bäume aus Ihren Contigs konstruieren und sie auf Kongruenz untersuchen. Panmixia ist besorgt, was zu viel Rekombination bedeutet


Wie man einen phylogenetischen Baum liest

Über 50 Jahre ist es her, dass Willi Hennig eine neue Methode zur Bestimmung genealogischer Verwandtschaften zwischen Arten vorgeschlagen hat, die er phylogenetische Systematik nannte. Viele Menschen gehen jedoch noch immer vorsichtig mit der Methode um, weil sie befürchten, dass sie sich mit einer überwältigenden Anzahl neuer Begriffe und Konzepte auseinandersetzen müssen. Tatsächlich ist das Lesen und Verstehen phylogenetischer Bäume wirklich nicht schwierig. Sie müssen nur drei neue Wörter lernen, Autapomorphie, Synapomorphie und Plesiomorphie. Alle anderen Konzepte (z. B. Vorfahren, monophyletische Gruppen, paraphyletische Gruppen) sind vertraut und waren bereits Teil der darwinistischen Evolution, bevor Hennig auf den Plan trat.

Dan Brooks und ich unterrichten einen Biodiversitätskurs (EEB 265) für Studenten im zweiten Jahr an der University of Toronto. Der gesamte Kurs ist um einen phylogenetischen Rahmen strukturiert. Wir beginnen mit dem großen, wenn auch vereinfachten Baum der Metazoa, arbeiten uns dann von Schwämmen zu Schlangen vor und konzentrieren uns auf die Charaktere, die Gruppen zusammenhalten und die Charaktere, die jede Gruppe einzigartig machen. Wenn wir unsere Arbeit richtig machen, sollten unsere Schüler in der Lage sein, die folgenden Fragen zu beantworten: Was ist dieses Tier (Woher weißt du das)? Was tut es? Was macht es besonders? Welche Aspekte seiner Biologie machen es anfällig für anthropogene Eingriffe? Da alle Studierenden bereits im ersten Jahr Biologie ein Praktikum mit den Grundlagen der Phylogenetik absolviert hatten, gingen wir davon aus, dass wir in unserem Biodiversitätskurs keine phylogenetische Methodik wiederholen müssen. Es dauerte nicht lange, bis uns klar wurde, dass unsere Annahme naiv war, als viele der Studenten in EEB 265 ankamen, sie hatten bereits den Löschknopf neben „Stammbaum“ in ihrem Gehirn gedrückt. Es ist immer demütigend, (wieder) zu entdecken, dass nicht jeder deine Ansichten über die Dinge im Leben teilt, die interessant und wichtig sind!

Zurück zum Zeichenbrett. Eines der Hauptprobleme beim Unterrichten eines Kurses über die Diversität von Metazoen besteht darin, dass Sie einfach nicht genug Zeit haben, um alle Gruppen abzudecken. Das Letzte, was wir wollten, war, biologiebasierte Vorlesungen einer Diskussion über Theorie zu opfern. Die Herausforderung war also einfach: Entwerfen Sie eine Vorlesung, die den Studenten in 50 Minuten beibringt, zu verstehen, was ein phylogenetischer Baum ihnen sagt. Es war nicht unsere Absicht, den Schülern beizubringen, wie man Bäume macht, sondern nur, wie man sie liest. Dieser Beitrag basiert auf dieser Vorlesung.

Das Wort „Phylogenie“ ist eine Kombination aus zwei griechischen Wörtern, phyle (Stamm – insbesondere die größte politische Unterteilung im antiken Athener Staat [www.yourdictionary.com www.etymonline.com]: ein anderes Wort, das wir daraus erhalten, ist „Stamm“) und geneien (Herkunft [www.etymonline.com]: ein anderes Wort, das wir daraus erhalten, ist „Gen“). Es wurde 1866 von dem Entwicklungsbiologen Ernst Haeckel geprägt und dann von Darwin in seinem berühmten Werk verfochten. Zur Entstehung der Arten (ab der 5. Auflage 1869). Beide Biologen verbanden die Idee der „Phylogenie“ – des Ursprungs von Gruppen – mit der Evolution. Phylogenetische Bäume sind also einfache Diagramme, die den Ursprung und die Entwicklung von Organismengruppen darstellen.

Obwohl Sie es vielleicht nicht wissen, kennen wir alle die Idee der phylogenetischen Bäume. Solche Bäume werden seit Jahrzehnten von Menschen erstellt und das Wort „Familie“ durch „phylogenetisch“ ersetzt (Abb. 1). So wie einzelne Menschen in einer Familie über Generationen hinweg durch „Blutbande“ (der Fortpflanzungsprozess, der Nachkommen hervorbringt) verbunden sind, sind einzelne Arten durch evolutionäre Bindungen (biologische Prozesse wie natürliche Auslese und geologische Prozesse wie Kontinentalverschiebung oder ein Fluss) verbunden Kurswechsel, der Arten hervorbringt). In diesem Sinne ist Artbildung (die Produktion neuer Arten) = Reproduktion (die Produktion neuer Individuen). Mit anderen Worten, wir sind alle, von Mitgliedern derselben Familie bis hin zu Mitgliedern derselben Spezies, durch Gene verbunden.

Stammbaum für einen interessanten Personenkreis. Stammbäume (Genealogien von Menschen) = Stammbäume (Genealogien von Arten)

Stammbäume werden in der Regel so gezeichnet, als würden sie kopfüber hängen, wie eine Weintraube. Phylogenetische Bäume werden etwas anders dargestellt. Stellen Sie sich vor, Sie halten den Stammbaum der in Abb. 2a gezeigten Großkatzen. Drehen Sie es nun zur Seite (um 90° gegen den Uhrzeigersinn drehen) und Sie haben das in 2b gezeigte Bild. Drehen Sie dieses Bild noch einmal um 90° gegen den Uhrzeigersinn, glätten Sie es und Sie haben das in Abb. 2c gezeigte Bild (diese Baumform wurde von Darwin in Zur Entstehung der Arten). Es ist wichtig, sich daran zu erinnern, dass alle drei Darstellungen genau dasselbe über die Beziehungen zwischen den Arten von Großkatzen aussagen. Wie Sie Ihre phylogenetischen Bäume zeichnen, hängt zum Teil von Ihren persönlichen Vorlieben ab – manche Leute finden es einfacher, 2b zu lesen, andere bevorzugen 2c.

einC So viele Möglichkeiten, einen Stammbaum / Stammbaum für die Gattung zu zeichnen Panthera

Stammbäume werden mit einer Methode namens „phylogenetische Systematik“ rekonstruiert (Abb. 3). Diese Methode gruppiert Gruppen von Organismen basierend auf gemeinsamen, einzigartigen Merkmalen, die als bezeichnet werden Synapomorphien. Zum Beispiel teilen Sie das Vorhandensein eines Rückgrats mit Katzen, aber nicht mit Schmetterlingen. Das Vorhandensein eines Rückgrats erlaubt uns daher die Hypothese, dass der Mensch mit Katzen näher verwandt ist als mit Schmetterlingen (Abb. 4a) Katzen und Menschen haben beide ein Rückgrat, Schmetterlinge sind rückgratlos Fußnote 1 . Nicht alle Charaktere sind Synapomorphien. Einige Eigenschaften, genannt Plesiomorphien, werden von allen Mitgliedern einer Gruppe geteilt. Zurück zu unserem Baum sehen wir, dass Katzen, Menschen und Schmetterlinge alle DNA haben (Abb. 4b). Das Vorhandensein von DNA erlaubt uns die Hypothese, dass diese drei Arten alle Teil derselben Gruppe sind, aber es sagt uns nichts darüber aus, wie diese Arten miteinander verwandt sind. Stellen Sie sich das so vor: Mein Nachname sagt mir, dass ich Teil des McLennan-Clans bin. Wenn ich jemanden namens Jessie McLennan treffe, weiß ich, dass wir irgendwie verwandt sind, aber ich habe keine Ahnung, ob sie eine lange verschollene Cousine oder jemand aus einem entfernteren Zweig des Stammbaums ist. Der letzte Begriff, den Sie kennen müssen, ist Autapomorphie– Merkmale, die nur bei einem Mitglied der Gruppe zu finden sind. Schmetterlinge können beispielsweise von Katzen und Menschen unterschieden werden, weil sie ein Exoskelett aus Chitin (einem zähen, wasserfesten Derivat von Glukose) haben. Autapomorphien helfen uns, eine bestimmte Art in einer Gruppe zu identifizieren, aber wie Plesiomorphien sagen sie uns nichts über die Beziehungen innerhalb der Gruppe aus. Insgesamt können diese drei Charaktertypen mit der Geschichte von Goldlöckchen verglichen werden: Plesiomorphien sind zu heiß (zu weit verbreitet), Autapomorphien sind zu kalt (zu eingeschränkt) und Synapomorphien sind genau richtig (um phylogenetische Beziehungen zu bestimmen).

Die Grundlagen der phylogenetischen Systematik

Identifizierung von Charaktertypen in einem phylogenetischen Baum. ein eine Synapomorphie B eine Plesiomorphie C eine Autapomorphie

Genug der Zeichen für den Moment zurück zu den Bäumen selbst. Warum haben die Äste eines Baumes Namen (z. B. Löwe, Tiger usw.), während die Linien, die verschiedene Äste miteinander verbinden, keinen Namen haben (Abb. 5)? Dies liegt daran, dass diese Linien darstellen Vorfahren. Ein Vorfahr ist eine Art, die ein Artbildungsereignis durchgemacht hat, um Nachkommen zu produzieren. Der Vorfahre „verschwindet“ normalerweise im Prozess der Artbildung. Bedeutet dies, dass der Vorfahre ausgestorben ist?

Auffinden von Vorfahren in einem phylogenetischen Baum

Um dies zu beantworten, müssen wir eine Zeitreise mit einem digitalen Gerät unternehmen, das alles aufzeichnet, was wir sehen (Abb. 6). Stellen Sie sich vor, Sie reisen 10.000.000 Jahre zurück und halten dann an, fasziniert von einer interessanten Eidechsenart mit roten Flecken auf dem gesamten Rücken (Art A). Nach einer Weile beschließen Sie, in der Zeit fünf Millionen Jahre vorwärts zu gehen und dann wieder aufzuhören. Sie suchen sich um und entdecken zwei neue Eidechsenarten, eine mit blauen Flecken auf dem Rücken (Art B) und die andere mit roten Streifen (Art C), aber Art A ist nirgendwo zu sehen. Ist es ausgestorben? Sie blicken auf Ihre digitale Aufzeichnung dieser fünf Millionen Jahre zurück und entdecken, dass sich die Spezies A in zwei Gruppen aufteilte, die sich im Laufe der Zeit in gewisser Weise voneinander unterschieden. Evolutionär betrachtet ist die Art A ein Vorfahre (Vorfahr 1) und die Arten B und C sind ihre Nachkommen. Schneller Vorlauf bis heute (mit mehr digitalem Material zum Anschauen) und Sie finden drei Eidechsenarten: Ihren alten Freund die Blaupunkteidechse (Art B) und zwei neue Eidechsen (Nachkommen der Art C, die rot gestreifte Eidechse), eine mit Blau Streifen (Art D) und das andere mit einem durchgehenden schwarzen Rücken (Art E). Heute leben also nur noch drei Arten von Eidechsen. Sie sehen keinen der Vorfahren mehr (die rotgefleckten und rotgestreiften Eidechsen), aber wir zeigen sie immer noch auf dem phylogenetischen Stammbaum.

Reisen Sie in die Vergangenheit, um Vorfahren zu entdecken

Die Antwort auf unsere ursprüngliche Frage „ist der Vorfahre ausgestorben?“ ist also Nein! In vielen Fällen wird der Vorfahre unterteilt und die im Vorfahren enthaltenen biologischen (genetischen) Informationen werden an die Nachkommen weitergegeben. Im Laufe der Zeit ändern sich die Nachkommen und unterscheiden sich in gewisser Weise voneinander und vom Vorfahren, während sie einige Gemeinsamkeiten behalten (zum Beispiel haben alle unsere Echsenarten ein Rückgrat). Das ist Evolution.

Was gilt also wirklich als Aussterben? Aussterben ist der Verlust biologischer Informationen – der physische Verlust einer Spezies. Betrachten Sie zum Beispiel einen vereinfachten Stammbaum der Dinosaurier (Abb. 7). Alle Gruppen auf den gepunkteten Zweigen sind ausgestorben – keine der Arten in diesen Gruppen existiert mehr auf diesem Planeten (trotz Jurassic Park), was bedeutet, dass alle Informationen, die einzigartig zu jeder dieser Gruppen ist verloren gegangen. Die einzige Gruppe, die es geschafft hat, das Aussterben zu vermeiden, waren Aves (oder Vögel) – Vogelarten sind die letzten verbliebenen Dinosaurier.

Tatsächliche Aussterben. Mit gestrichelten Linien dargestellte Gruppen sind ausgestorben, sodass alle genetischen, morphologischen, physiologischen, ökologischen und Verhaltensmerkmale, die für jede Gruppe einzigartig sind, für die Biosphäre verloren gegangen sind

OK, nehmen wir das, was wir über Vorfahren und Clustering-Gruppen basierend auf gemeinsamen, einzigartigen Charakteren (Synapomorphien) gelernt haben, und verwenden wir dies, um die in einem phylogenetischen Baum enthaltenen Informationen zu entschlüsseln. Hier ist ein Baum, der die Beziehungen zwischen lebenden Mitgliedern der Amniota darstellt, einer großen Gruppe von Wirbeltieren, die die meisten Tiere umfasst, mit denen Sie vertraut sind (Abb. 8). Sie wissen bereits, dass die Namen von Arten oder Artengruppen über die Zweigspitzen des Baumes geschrieben werden. Das nächste, was Sie wissen müssen, ist, dass Charaktere an ihrem Ursprungsort in einem phylogenetischen Baum dargestellt werden. Auf diesem Baum können Sie also sehen, dass (1) das Fruchtwasser von Vorfahr 1 stammt und an alle seine Nachkommen weitergegeben wurde (Säugetiere, Vorfahr 2, Schildkröten, Vorfahr 3, Vorfahr 4, Krokodile, Vögel, Vorfahr 5, Tuataras und Eidechsen plus Schlangen). Evolutionär gesehen ist das Fruchtwasser ein einzigartiges Merkmal, das nur Vorfahr 1 und alle seine Nachkommen teilen (2) eine spezielle Art von Hautprotein (β-Keratin) stammt aus Vorfahre 2 und wurde an alle seine Nachkommen weitergegeben ( Schildkröten, Vorfahr 3, Vorfahr 4, Krokodile, Vögel, Vorfahr 5, Tuataras und Eidechsen plus Schlangen). β-Keratin ist ein einzigartiges Merkmal, das von der Gruppe namens „Reptilia“ geteilt wird und (3) ein zerbrechlicher Schwanz stammt aus dem Vorfahren 5 und wurde an alle seine Nachkommen (Tuataras, Eidechsen und Schlangen) weitergegeben. Ein zerbrechlicher Schwanz ist eine einzigartige Eigenschaft, die von Mitgliedern der Gruppe Tuataras + Eidechsen + Schlangen geteilt wird.

Wie man Zeichen in einem phylogenetischen Baum liest

Tatsächlich ist jeder Organismus ein komplexes Mosaik aus Tausenden von Merkmalen. Wenn Sie das nicht glauben, setzen Sie sich hin und listen Sie alle Eigenschaften auf, die Sie zu Ihnen machen. Zusätzlich zu den offensichtlichen Dingen wie Augenfarbe und Haarfarbe, vergessen Sie nicht die Tatsache, dass Sie RNA, DNA, einzelne Zellen, ein vorderes und hinteres Ende, einen Schädel, Kiefer, Knochen, Arme und Beine haben, die von einem Fruchtwasser stammen Ei, haben drei Knochen im Innenohr, wurden an Milch gesäugt, die in den Brustdrüsen produziert wird, haben einen opponierbaren Daumen und keinen Schwanz. Mit anderen Worten, wenn Sie sich einen phylogenetischen Baum ansehen, werden Sie feststellen, dass alle Zweige mindestens ein, wahrscheinlich viele Zeichen enthalten (die Schrägstriche in Abb. 9a). Aus diesem Grund ist es oft schwierig, alle Merkmale eines Baumes tatsächlich zu beschriften, da dies optisch ablenkt. Um dieses Problem zu lösen, wurde eine Kurzmethode entwickelt: Zeichnen Sie den Baum, der die Beziehungen zwischen den Gruppen zeigt (Abb. 9b) und listen Sie die Synapomorphien für jeden Zweig an anderer Stelle in einer Tabelle auf. Auf der anderen Seite können Sie, wenn Sie an einem oder mehreren bestimmten Merkmalen interessiert sind, diese im Stammbaum hervorheben, ohne alle anderen Merkmale anzuzeigen. Wenn Sie beispielsweise die Evolution von Säugetieren diskutieren möchten, könnten Sie den Amniotenbaum zeigen und nur die Synapomorphien für die Säugetiere hervorheben (z. B. drei Mittelohrknochen: Abb. 9c). Denken Sie daran, dies ist nur eine Abkürzung!

einC Darstellung von Charakteren in einem phylogenetischen Baum

Es gibt noch eine letzte Sache, die es bei Charakteren zu verstehen gilt: Charaktere sind keine statischen Dinge. Sie entwickeln sich im Laufe der Zeit. Mit anderen Worten, eine „Synapomorphie“ kann nicht bei allen Arten, die sie haben, „gleich aussehen“. Betrachten Sie zum Beispiel den Steigbügel, einen der drei Knochen in Ihrem Mittelohr, die dafür verantwortlich sind, Schallwellen vom Trommelfell auf die Membran des Innenohrs zu übertragen. Dieser kleine Knochen hat eine lange, komplizierte und faszinierende Evolutionsgeschichte. Um diese Geschichte zu verstehen, müssen wir viele Hundert Millionen Jahre zurück zum Ursprung der Deuterostome reisen, einer großen Gruppe, zu der die Echinodermata (Seesterne und ihre Verwandten), Hemichordata (wurmähnliche Meeresbewohner) und Chordata ( amphioxus + Manteltiere + Craniata [Organismen mit Schädeln]). Der Vorfahre dieser großen Gruppe hatte zahlreiche Schlitze im Rachen (sogenannte Eingeweidebögen), die mit der Filterfütterung befasst waren. Die Zeit verging und Knorpelstäbe, die die Bögen stützen, erschienen, wurden unterteilt und modifiziert. Der obere Abschnitt des zweiten Viszeralbogenstabes steht im Mittelpunkt unserer Erzählung (Abb. 10). Im Laufe der Zeit erfährt dieser Charakter im Wesentlichen verschiedene strukturelle und Positionsänderungen, er wird größer, robuster und beteiligt sich an der Unterstützung des Kiefers (an diesem Punkt wird er Hyomandibula genannt), ändert sich von Knorpel zu Knochen, beginnt dann eine allmähliche Verkleinerung, löst sich vom Kiefer- / Wangenbereich und bewegt sich in das Mittelohr (an diesem Punkt wird es Steigbügel genannt). Insgesamt ist der obere Teil des 2. Eingeweidebogens – Hyomandibula – Steigbügel die gleiche Struktur, die sowohl in ihrer Form als auch in ihrer Funktion über Hunderte von Millionen Jahren verändert wurde. Obwohl das Vorhandensein eines „Knorpelstabs im 2. Eingeweidebogen in der Halsregion“ eine Synapomorphie für die Craniata sein kann, werden Sie diese genaue Struktur bei keinem vierfüßigen Tier finden. Was Sie stattdessen finden werden, ist die Modifikation dieses knorpeligen Stabes, des Steigbügels. Die fortgesetzte Entwicklung eines bestimmten Charakters über seinen Ursprung hinaus wird als an . bezeichnet Evolutionäre Transformationsserie.

Synapomorphien sind nicht statisch, sie können sich weiterentwickeln. Veränderungen im Charakter „oberer Teil des zweiten Eingeweidebogens“ [Hyomandibula, Steigbügel] sind im Stammbaum der Chordata (Tiere mit Chorda) nachgezeichnet. Sowohl die Geschichte als auch der phylogenetische Baum wurden wesentlich vereinfacht, um die Idee der Charakterentstehung und -modifikation statt der feineren Details der Charakterentwicklung hervorzuheben. Namen in Kursivschrift beziehen sich auf ausgestorbene Arten, die aus Fossilien bekannt sind. Strichzeichnungen und Fotografien verschiedener Strukturen und Arten sind leicht im Internet zu finden

Als nächstes müssen Studenten der Phylogenetik wissen, wie man verschiedene Arten von Organismengruppen erkennt. Es gibt zwei allgemeine Arten von Gruppen, eine „gut“ und die andere „schlecht“.

Beginnen wir mit „dem Guten“, einer monophyletischen Gruppe (Abb. 11). Das Wort „monophyletisch“ ist eine Kombination aus zwei griechischen Wörtern, monos (Einzel) und phyle (Stamm). Es wurde von unserem alten Freund Ernest Haekel geprägt, der, wie Sie sich erinnern, auch das Wort Phylogenie erfunden hat. A monophyletic group includes an ancestor and alle seiner Nachkommen. It is identified by the presence of shared, unique characters (synapomorphies). Each phylogenetic tree contains as many monophyletic groups as there are ancestors. For example, looking at the tree in Fig. 11, we can identify five monophyletic groups, only two of which are shown on Fig. 12 (I’ll leave it up to you to discover the other three).

Identifying monophyletic groups

Two of the five monophyletic groups on the hypothetical tree

Now onto “the bad.” The word “paraphyletic” is, once again, a combination of two Geek words, para (near) and phyle (tribe), so the implication is that the whole tribe is not present (Fig. 13). Paraphyletic groups include an ancestor but nicht alle seiner Nachkommen. On this hypothetical tree, species C has been eliminated from the group, even though it is a descendant of ancestor 1 just like the rest of the species. Paraphyletic groups are problematic because they mislead us about how characters evolve and how species are related to one another. For example, let’s consider the big tree for the Amniota and highlight the “old” Reptilia, one of the most famous paraphyletic groups (Fig. 14). Even today people still speak about three distinct classes, the reptiles, the birds, and the mammals. When you look at this figure, what is wrong about the class Reptilia, the way it is drawn?

Identifying paraphyletic groups

The most famous paraphyletic group, the reptiles

Right! In (Fig. 15) Ancestor 2 is the ancestor of all the reptiles but, as highlighted on this figure, the Reptilia does not include all of ancestor 2’s descendants ancestor 4 and the birds have been removed from the group. The only way to make the Reptilia a monophyletic group is to redefine the term to include crocodiles, turtles, tuataras, lizards, snakes, und Vögel. In the past, birds were not considered to be reptiles because they are warm-blooded (in fact, they were often grouped with mammals because of that trait). But phylogenetic studies have demonstrated that birds are indeed reptiles because they share many morphological, behavioral, and molecular characters with other reptilian species in general (synapomorphies originating in ancestor 2 e.g., β keratin), und they share many characters with crocodiles in particular (synapomorphies originating in ancestor 4 e.g., holes in the skull just in front of the eyes).

How to make the Reptilia monophyletic

Why is it important to have monophyletic groups? Say you wanted to figure out how red hair appeared in your family. What would be your chances of tracking down your original red-haired ancestor if no records were kept about the union between your great-great-great-great grandfather Sven and his Irish bride Maggie? Missing information creates problems for any research, be it genealogical or evolutionary, and paraphyletic groups are missing information. In evolutionary terms, monophyletic groups are “real” biological units that is, they are the product of descent with modification (an ancestor and all of its descendants) and as such can be used to study the evolutionary processes that produced them. Paraphyletic groups, on the other hand, are the product of “human error” arising from incomplete or flawed information (e.g., poor descriptions of characters). Using such groups to study evolutionary processes will direct us along misleading and confusing pathways.

Why do we use phylogenetic trees? There are many ways to answer this question (and many papers/books written about it), but the most general answer is that trees summarize valuable information about the evolution of organisms that allows us to understand them better. For example, here’s the family tree for the Hominoidea, the group that includes us and all of our closest relatives (Fig. 16). When you look at the distribution of characters on this tree you can see that a number of traits we associate only with human beings, such as hunting, infanticide, tool making, self-awareness, and language, originated long before Homo sapiens. In other words, human beings are not as unique as you might think. If we want to understand how and why those traits evolved, we must study their expression and function in ourselves and in our relatives. So much information from just one phylogenetic tree!


Phylogenetic Trees Tutorial

Investigate the evolutionary origins of HIV

Notiz: To complete the tutorial with the referenced data please download the tutorial above and install in Geneious Prime.

In this tutorial, you will use Geneious Prime to investigate the evolutionary origins of human immunodeficiency viruses (HIVs) using molecular phylogenetic tools. You will learn how to align sequences and build a phylogenetic tree, as well as how to view and manipulate the tree to answer questions on the origins of HIV-1.

Introduction: Human and Simian Immunodeficiency Viruses

HIVs, the causes of acquired immune deficiency syndrome (AIDS), are closely related to simian (monkey and ape) immunodeficiency viruses (SIVs). These and other similar viruses are retroviruses. Retroviruses are characterised by their RNA genomes, which once inside a host cell, are reverse transcribed into DNA and then integrated into the host cell’s genome. The integrated viral genome is known as a provirus. You will be working with proviral DNA sequences.

The origins of HIVs were mysterious when these viruses were first discovered in the early 1980s. There are two types of HIVs. HIV type 1 (HIV-1) is more widespread and causes more severe disease than HIV type 2 (HIV-2). HIV-1 is also far more diverse than HIV-2. HIV-1 is classified into three major groups: M, N, and O. The viruses causing the AIDS pandemic (widespread epidemic) belong to Group M. Group M is subdivided into several subtypes. You will be analysing sequences from HIV-1 Group M Subtypes A, B, C, D, F, G, H, J, K. The HIV-1 viruses infecting people in North America, Europe and Australia are mostly from Group M Subtype B. All groups and subtypes of HIV-1 and HIV-2 are found in Africa.

Both HIV-1 and HIV-2 are closely related to SIVs found in a variety of African primate species. This lead early on to researchers hypothesising that HIVs had jumped to humans from one or more African primate species. It was suggested that close contact between humans and monkeys that were kept as pets or hunted for food had allowed the SIVs to jump hosts.

More information on HIV can be found on this Wikipedia page.

In this tutorial you will use molecular phylogenetics to determine the evolutionary relationships of HIVs and SIVs, and so determine from which African primates HIVs originated. In Übung 1 you will build an alignment of the HIV and SIV sequences, then in Übung 2 you will learn to build a basic phylogenetic tree. Exercises 3 and 4 provide questions and answers to further your understanding on interpreting phylogenetic trees.

SIV sequences and primate taxa

The sequences in this tutorial come from various African primate species known to be infected with different SIVs. There are also three non-African species, all from Asia, that have been infected with SIVs in captivity: the pig-tailed macaque, the rhesus macaque and the stump-tailed macaque. The SIVs from all of these primate species are referred to by the three-letter code given with each picture. For example, the SIV from the sooty mangabey is called SIVSMM and the sequence in the alignment or tree is labelled SIV-SMM.

Mona monkey
Cercopithecus mona mona [denti]
MON [DEN]

de Brazza’s monkey
Cercopithecus neglectus
DEB

Tantalus monkey
Chlorocebus tantalus
TAN

Syke’s monkey
Cercopithecus albogularis
SYK

Greater spot-nosed monkey
Cercopithecus nictitans
GSN

Green monkey
Chlorocebus sabaeus
SAB

Mustached guenon
Cercopithecus cephus
MUS

Vervet monkey
Chlorocebus pygerythrus
VER

Grivet
Chlorocebus aethiops
GRV

L’Hoest’s monkey
Cercopithecus lhoest
LST

Sooty mangabey
Cercocebus atys
SMM

Red-capped mangabey
Cercocebus torquatus
RCM

Sun-tailed monkey
Cercopithecus solatus
SONNE

Mandrill
Mandrillu sphinx
MND

Bohren
Mandrillus leucophaeus
DRL

Pig-tailed macaque
Macaca nemestrina
MNE

Stump-tailed macaque
Macaca arctoides
STM

Rhesus macaque
Macaca mulatta
MAC

Common chimpanzee
Pan troglodytes
CPZ

Exercise 1: Multiple alignment of HIV and SIV sequences

Before a phylogeny can be constructed, the sequences must be aligned. The objective of sequence alignment is to maximize the similarity between sequences, inserting gaps in sequences where necessary to improve the overall alignment.

Multiple alignment algorithms use a scoring system where sequence matches and mismatches for each site are assigned a value, and gaps are penalized. The insertion of gaps in an alignment can increase the similarity of the surrounding bases, so the overall alignment score is a trade-off between the increased match/mismatches scores and the cost of opening and extending a gap.

In this exercise you will construct an alignment of 62 env sequences of HIV-1, HIV-2, and various SIVs. The SIV sequences come from various African and non-African primate species.

Die env gene is found in all retroviruses. It codes for two viral envelope glycoproteins that are positioned on the virion surface and interact with host cell-surface receptors.

Click on ‘HIV_sequences’ to view the sequences.

The sequences are labelled in the format: virus type followed by the common name of the primate species for the SIV sequences, or the group or subtype for HIV-1 and HIV-2 sequences finally followed by the accession number.

To align these sequences, go to Align/Assemble -> Multiple Align. Geneious has 3 different alignment programs built in (Geneious aligner, MUSCLE, and Clustal Omega), plus a plugin for the MAFFT aligner is available. For further information on these aligners please see this article. We will use the MUSCLE aligner for this example, as it is suitable for a medium sized dataset.

Auswählen MUSCLE alignment from the alignment options. We will use the default parameters, so click on the settings cog in the bottom left of the window and choose Reset to defaults (if it is greyed out, the default parameters are already set). Drücke den More Options button to view the parameters if you wish. Klicken OK to start the alignment – it may take several minutes to complete.

Once the alignment has completed, click on it to view it and zoom in to see the bases. Note that there are many large gaps, which is characteristic of an alignment of a rapidly evolving gene in divergent species.

Exercise 2: Build a Phylogeny of HIVs and SIVs

In this exercise you will construct a phylogeny using the Neighbour-Joining tree building method and the Tamura-Nei Modell. Models of evolution describe expected frequencies of each nucleotide and the rate of change between nucleotides. The Tamura-Nei model assumes each base has a different equilibrium frequency and allows transitions and transversions to occur at different rates. It allows the two types of transitions (A ↔ G and C ↔ T) to have different rates. This is useful when analysing HIV sequences because HIV exhibits hyper G-to-A mutation caused by a host enzyme (APOBEC3G). You will use the Neighbour-Joining method because these sequences do not, in general, evolve in a clock-like manner.

Select the alignment you created in Exercise 1.

To construct a Neighbour-Joining tree using the Tamura-Nei model, with bootstrapping, click the Baum button and select the Geneious Tree Builder. Check that the default parameters are initially set by clicking Reset to Defaults.

For the genetic distance model select Tamura-Nei and for the tree build method select Neighbor-Joining. Set the outgroup to “SIV-MON Mona monkey AY340701”. This sequence will be used to root the tree.

To calculate support values for the tree use bootstrapping. To do this, tick the box next to Resample tree und wählen Sie Bootstrap in the dropdown box next to resampling method. Set number of replicates to 100 and the support threshold to 0.

The tree building options should now look similar to this:

Klicken OK to build the tree.

Once the tree builder completes, the tree document will appear in the document table in Geneious and should open automatically.

Viewing and Manipulating Phylogenetic Trees

A phylogenetic tree is a branching diagram of evolutionary relationships. It contains information about the order of evolutionary divergences within, and hence about the relationships among, a group of organisms. It can also contain information about the amount of evolutionary change which occurred between any two branching events. The lines on the the tree are called branches and the intersections of these lines are called nodes. A node represents a branching event in the tree. The branching pattern of a tree is called its topology. The topology shows how organisms are related to one another.

Depending on the size of your screen and the size of the tree, it may not be physically possible to display all of the sequence names on the tree, so Geneious will only display some of the sequence names. To zoom in on the tree, use the Zoomen slider under “General” in the panel on the right hand side of the tree view. To expand the distance between the branches of the tree, use the Erweiterung slider. As the amount of space between the branches increases, more sequence names will be displayed on the tree.

As this tree was created using an alignment in Geneious, the alignment is attached to the tree. Click on the “Alignment View” tab to view the alignment.

The sequences in the alignment are sorted according to the topology of the tree. On the left hand side of the sequence names, you can see the tree topology (this may not be visible if you are working with large trees). Select the “SIV-MON Mona monkey AY340701” sequence in the alignment then return to the “Tree View”. This sequence is now selected in the tree as well.

The sequences used to build this alignment and tree have additional meta-data associated with them (this is the data found in the “Properties” field in the “Info” tab in the individual sequence documents). This information can be displayed on the tips of the trees. To display the organism on the tips of the tree, select “Organism” from the box next to “Display” under “Show Tip Labels”.

To display the organism and host organism, hold Ctrl (on Windows) or Cmd (on Macs) and select “Organism” and “Host Organism”. Now the host organism and organism are displayed on the tips of the tree, separated by a comma. To display the sequence names on the tree, select “Names”.

Just as a sentence can be printed using different fonts, or colors of ink, without any change in meaning, so too can trees be represented in different shapes and orientations. The information encoded in the tree remains unchanged, even as the appearance changes. For example, the appearance of the tree can be changed by rotating groups of branches. To rotate the branches, select an internal node in the tree and click the Swap Siblings button at the top of the window. This will rotate the branches in that subtree however, the degree of relatedness is not altered by rotating branches in a tree. Simply having two names close together in a tree does not imply any close relationship.

Try this with the tree you have created. Select the node in the tree containing the Grivet monkey and the four Vervet monkeys and click the Swap Siblings Taste.

The order of these samples will change in the tree, but the relationship between the sample from the Grivet monkey and those from the four Vervet monkeys has not changed.

Rooted Trees

Trees may be unrooted or rooted. To view the HIV tree as an unrooted tree, click one of the unrooted views under the “General” options in the panel on the right hand side of the tree view.

Unrooted trees do not tell us much about evolutionary relationships. We cannot tell which node is the ancestor and which are the descendent nodes on the tree. To establish ancestor-descendent relationships we need to identify a suitable outgroup and then root the tree on the branch separating the outgroup from the remainder of the tree (the ingroup). We can specify the root before the building the tree to produce a rooted tree, or we can specify the root after the tree is built to change an unrooted tree to a rooted tree.

When you built the tree of HIV and SIV sequences you specified an outgroup (“SIV-MON Mona monkey AY340701”) so Geneious has produced a rooted tree. To view the tree as a rooted tree, click the rooted view under the “General” options in the panel on the right hand side of the tree view.

Rooted phylogenetic trees may be oriented horizontally, as above, or vertically. Here the time axis is implicit, running from left to right. The node at the left end of the tree is the root node, which represents the oldest point on the tree. As we move from the root node, we can identify nodes which are ancestral to their descendent clades. Working in from the tips of the tree enables us to identify close and distant relatives. The degree of relatedness of any two organisms is given by how far back on a rooted tree you must go to find their common ancestor. If, in tracing back to the common ancestor of A and B, you pass the common ancestor of A and C, then you can say that A and C are more closely related than A and B.

On a rooted tree, each node and all of its descendent nodes form a clade. This is what we would commonly refer to as a “branch” on a real tree – the physical branch and all the little branches and leaves attached to it. Because an unrooted tree lacks the time axis described above, it is inappropriate to discuss clades in that context.

Phylograms and cladograms

The lengths of the branches of a tree may be arbitrary (eg. cladogram) or can represent the amount of the evolutionary change (phylogram).

In a phylogram, the lengths of the branches are proportional to the amount of change which occurred between those branching events. As the tree you built was estimated using a distance (1 – similarity) measure (i.e. NJ), the proximity of nodes represents their overall degree of similarity.

To display the lengths of the branches of the tree, in the panel on the right hand side of the tree view, select “Substitutions per site” from the dropdown box next to “Display” under “Show Branch Labels”.

On your tree, find “SIV-MAC Rhesus macaque M33262” and “SIV-MNE Pig-tailed macaque U79412” and look at the length of the branches separating these two taxa. Now find “SIV-RCM Red-capped mangabey AF382829” and “SIV-RCM Red-capped mangabey AF349680” and look at the length of these branches. The length of the branches separating the SIV-MAC and SIV-MNE sequences is shorter than the length of the branches separating the two SIV-RCM sequences. From this you can conclude that SIV-MAC is more similar to SIV-MNE, than the two SIV-RCM sequences are to each other.

If an optimality method (e.g., MP or ML) was used to estimate the tree then the proximity of two nodes reflects the number of evolutionary changes in character states estimated to have occurred between them. If the total branch length from the root of a tree to organism A at one tip is much greater than from the root to organism B at another tip, then you can say that evolution has been faster in the A lineage than in the B lineage for the characters on which the tree was based.

To transform the tree to a cladogram, tick the Transform branches box in the “Formatting” options. In the dropdown box next to Verwandeln auswählen Cladogram

Notice how the branch lengths of the tree change and all of the tips of the tree are aligned on the right hand side of the tree view. With this transformation the lengths of the branches are meaningless. If you now look at “SIV-MAC Rhesus macaque M33262” and “SIV-MNE Pig-tailed macaque U79412” and then look at “SIV-RCM Red-capped mangabey AF349680” and “SIV-RCM Red-capped mangabey AF382829” you can see that the branch lengths separating SIV-MAC from SIV-MNE are the same lengths as the branches separating the two SIV-RCM sequences. With the transformed branches you can not draw any conclusions about how similar the sequences are to each other.

To convert the tree back to a phylogram, untick the option Transform branches. To hide the branch lengths, untick the box next to “Show Branch Labels”.

Displaying support values

In addition to the information conveyed by the topology of the tree and the branch lengths of the tree, further information can also be written on the nodes and/or branches of the tree. The information that is available to display will depend on the tree building method and the options used. Often, support values are displayed on the tree.

Tree building methods produce the tree which best explains the information in the alignment however, it is unlikely this tree will explain all of the variation in the alignment. Not all of the sites in the alignment will support this tree and not all of the clades in the tree will necessarily be strongly supported by the alignment. For example, with rapid speciation events, there may be insufficient information in the alignment to determine the branching pattern of a group of species, and some of the clades in the tree may have only marginally more support than alternative possible clades.

If you look at the tree you have built it is difficult to tell which clades are strongly supported and which are not. For example, does the clade containing “SIV-RCM Red-capped mangabey AF382829” and “SIV-RCM Red-capped mangabey AF349680” have the same support from the alignment as the clade containing “SIV-MND Mandrill AY159322” and “SIV-MND Mandrill AF367411”?

To find out how strongly the alignment supports each of the clades in the tree, we can calculate support values. In the tree building options you selected the “Bootstrap” resampling method. The bootstrap statistic for a clade in the tree is the percentage of times that clade appeared in the set of bootstrap replicate trees. This percentage ranges from 0% (the clade did not appear in any of the bootstrap trees) to 100% (the clade appeared in all of the bootstrap trees). A bootstrap replicate tree is generated by randomly sampling sites, with replacement, from the alignment, to create a new randomised alignment and then building a tree from this sampled alignment. This process is repeated for the specified number of bootstrap replicates (in your case, this was 100).

To show the bootstrap values on the tree, tick the box next to Show Branch Labels und wählen Sie Consensus Support (%) from the dropdown box next to “Display”.

The bootstrap value for a clade will appears to the left of the most recent common ancestral node for that clade.

Now the bootstrap values are displayed on the tree, you can see that there is strong support (100%) for the clade containing the SIV-RCM sequences. However the clade containing the two mandrill sequences has less support (55%). Note that due to the nature of the bootstrapping process, the support values on your tree may be slightly different.

Sometimes it is useful to collapse nodes that have little bootstrap support so that these do not contribute to the topology of the tree. This can be done in the bootstrapping options when the tree is built by changing the Support threshold Wert. If this is set on 50%, nodes with bootstrap support of less than 50% will be collapsed into polytomies. The screenshot below shows an example where the nodes with 38% and 36% bootstrap support in (A) are collapsed when the support threshold is set to 50% (B).


PHYLOGENETIC TREE CONSTRUCTION NOTES

A speculatively rooted tree for rRNA genes, showing the three life domains Bacteria, Archaea, and Eucaryota, and linking the three branches of living organisms to the LUCA (the black trunk at the bottom of the tree) cf. next graphic.

A rooted phylogenetic tree, illustrating how Eukaryota and Archaea are more closely related to each other than to Bacteria (based on Cavalier-Smith‘s theory of bacterial evolution). Neomura is a clade composed of two life domains, Archaea and Eukaryota. LUCA, a variant of LUA, stands for last universal common ancestor.

EIN Stammbaum oder evolutionary tree is a branching diagram or “tree” showing the inferred evolutionary relationships among various biological species or other entities—their Phylogenie—based upon similarities and differences in their physical or genetic characteristics. The taxa joined together in the tree are implied to have descended from a common ancestor. Phylogenetic trees are central to the field of phylogenetics.

In einem verwurzelt phylogenetic tree, each node with descendants represents the inferred most recent common ancestor of the descendants, and the edge lengths in some trees may be interpreted as time estimates. Each node is called a taxonomic unit. Internal nodes are generally called hypothetical taxonomic units, as they cannot be directly observed. Trees are useful in fields of biology such as bioinformatics, systematics, and phylogenetic comparative methods.

Unrooted trees illustrate only the relatedness of the leaf nodes and do not require the ancestral root to be known or inferred.

The idea of a “tree of life” arose from ancient notions of a ladder-like progression from lower to higher forms of life (such as in the Great Chain of Being). Early representations of “branching” phylogenetic trees include a “paleontological chart” showing the geological relationships among plants and animals in the book Elementary Geology, by Edward Hitchcock (first edition: 1840).

Charles Darwin (1859) also produced one of the first illustrations and crucially popularized the notion of an evolutionary “tree” in his seminal book Die Entstehung der Arten. Over a century later, evolutionary biologists still use tree diagrams to depict evolution because such diagrams effectively convey the concept that speciation occurs through the adaptive and semirandom splitting of lineages. Over time, species classification has become less static and more dynamic.

Rooted tree

A rooted phylogenetic tree (see two graphics at top) is a directed tree with a unique node corresponding to the (usually imputed) most recent common ancestor of all the entities at the leaves of the tree. The most common method for rooting trees is the use of an uncontroversial outgroup—close enough to allow inference from trait data or molecular sequencing, but far enough to be a clear outgroup.

Unrooted tree

An unrooted phylogenetic tree for myosin, a superfamily of proteins. [1]

Unrooted trees illustrate the relatedness of the leaf nodes without making assumptions about ancestry. They do not require the ancestral root to be known or inferred. [2] Unrooted trees can always be generated from rooted ones by simply omitting the root. By contrast, inferring the root of an unrooted tree requires some means of identifying ancestry. This is normally done by including an outgroup in the input data so that the root is necessarily between the outgroup and the rest of the taxa in the tree, or by introducing additional assumptions about the relative rates of evolution on each branch, such as an application of the molecular clock hypothesis. [3]

Bifurcating tree

Both rooted and unrooted phylogenetic trees can be either bifurcating or multifurcating, and either labeled or unlabeled. A rooted bifurcating tree has exactly two descendants arising from each interior node (that is, it forms a binary tree), and an unrooted bifurcating tree takes the form of an unrooted binary tree, a free tree with exactly three neighbors at each internal node. In contrast, a rooted multifurcating tree may have more than two children at some nodes and an unrooted multifurcating tree may have more than three neighbors at some nodes. A labeled tree has specific values assigned to its leaves, while an unlabeled tree, sometimes called a tree shape, defines a topology only. The number of possible trees for a given number of leaf nodes depends on the specific type of tree, but there are always more multifurcating than bifurcating trees, more labeled than unlabeled trees, and more rooted than unrooted trees. The last distinction is the most biologically relevant it arises because there are many places on an unrooted tree to put the root. For labeled bifurcating trees, there are:

total unrooted trees, where n represents the number of leaf nodes. Among labeled bifurcating trees, the number of unrooted trees with n leaves is equal to the number of rooted trees with n − 1 leaves. [4]

Special tree types

This section nicht zitieren irgendein Quellen. Please help improve this section by adding citations to reliable sources. Nicht bezogenes Material kann angefochten und entfernt werden. (October 2012) (Learn how and when to remove this template message)

A spindle diagram, showing the evolution of the vertebrates at class level, width of spindles indicating number of families. Spindle diagrams are often used in evolutionary taxonomy.

A highly resolved, automatically generated tree of life, based on completely sequenced genomes. [5] [6]

  • A dendrogram is a broad term for the diagrammatic representation of a phylogenetic tree.
  • A cladogram is a phylogenetic tree formed using cladistic methods. This type of tree only represents a branching pattern i.e., its branch spans do not represent time or relative amount of character change.
  • A phylogram is a phylogenetic tree that has branch spans proportional to the amount of character change.
  • A chronogram is a phylogenetic tree that explicitly represents evolutionary time through its branch spans.
  • A spindle diagram (often called a Romerogram after the American palaeontologist Alfred Romer) is the representation of the evolution and abundance of the various taxa through time.
  • A Dahlgrenogram is a diagram representing a cross section of a phylogenetic tree
  • A phylogenetic network is not strictly speaking a tree, but rather a more general graph, or a directed acyclic graph in the case of rooted networks. They are used to overcome some of the limitations inherent to trees.

Konstruktion

Phylogenetic trees composed with a nontrivial number of input sequences are constructed using computational phylogenetics methods. Distance-matrix methods such as neighbor-joining or UPGMA, which calculate genetic distance from multiple sequence alignments, are simplest to implement, but do not invoke an evolutionary model. Many sequence alignment methods such as ClustalW also create trees by using the simpler algorithms (i.e. those based on distance) of tree construction. Maximum parsimony is another simple method of estimating phylogenetic trees, but implies an implicit model of evolution (i.e. parsimony). More advanced methods use the optimality criterion of maximum likelihood, often within a Bayesian Framework, and apply an explicit model of evolution to phylogenetic tree estimation. [4] Identifying the optimal tree using many of these techniques is NP-hard, [4] so heuristic search and optimization methods are used in combination with tree-scoring functions to identify a reasonably good tree that fits the data.

Tree-building methods can be assessed on the basis of several criteria: [7]

  • efficiency (how long does it take to compute the answer, how much memory does it need?)
  • power (does it make good use of the data, or is information being wasted?)
  • consistency (will it converge on the same answer repeatedly, if each time given different data for the same model problem?)
  • robustness (does it cope well with violations of the assumptions of the underlying model?)
  • falsifiability (does it alert us when it is not good to use, i.e. when assumptions are violated?)

Tree-building techniques have also gained the attention of mathematicians. Trees can also be built using T-theory. [8]

Although phylogenetic trees produced on the basis of sequenced genes or genomic data in different species can provide evolutionary insight, they have important limitations. Most importantly, they do not necessarily accurately represent the evolutionary history of the included taxa. In fact, they are literally scientific hypotheses, subject to falsification by further study (e.g., gathering of additional data, analyzing the existing data with improved methods). The data on which they are based is noisy the analysis can be confounded by genetic recombination, [9] horizontal gene transfer, [10] hybridisation between species that were not nearest neighbors on the tree before hybridisation takes place, convergent evolution, and conserved sequences.

Also, there are problems in basing the analysis on a single type of character, such as a single gene or protein or only on morphological analysis, because such trees constructed from another unrelated data source often differ from the first, and therefore great care is needed in inferring phylogenetic relationships among species. This is most true of genetic material that is subject to lateral gene transfer and recombination, where different haplotype blocks can have different histories. In general, the output tree of a phylogenetic analysis is an estimate of the character’s phylogeny (i.e. a gene tree) and not the phylogeny of the taxa (i.e. species tree) from which these characters were sampled, though ideally, both should be very close. For this reason, serious phylogenetic studies generally use a combination of genes that come from different genomic sources (e.g., from mitochondrial or plastid vs. nuclear genomes), or genes that would be expected to evolve under different selective regimes, so that homoplasy (false homology) would be unlikely to result from natural selection.

When extinct species are included in a tree, they are terminal nodes, as it is unlikely that they are direct ancestors of any extant species. Skepticism might be applied when extinct species are included in trees that are wholly or partly based on DNA sequence data, because little useful “ancient DNA” is preserved for longer than 100,000 years, and except in the most unusual circumstances no DNA sequences long enough for use in phylogenetic analyses have yet been recovered from material over 1 million years old.

The range of useful DNA materials has expanded with advances in extraction and sequencing technologies. Development of technologies able to infer sequences from smaller fragments, or from spatial patterns of DNA degradation products, would further expand the range of DNA considered useful.

In some organisms, endosymbionts have an independent genetic history from the host.

Phylogenetic networks are used when bifurcating trees are not suitable, due to these complications which suggest a more reticulate evolutionary history of the organisms sampled.


Rooting

Evolutionary trees are (almost) always starting with an ancestor and then dividing, so you can always identify the root (if there is one) as the point where all the branches converge. Historically, it was drawn at the bottom like a real tree (as with the great Molluscan tree in OUMNH and the OneZoom Tree of Life Explorer). These days, it is usually drawn on the left as in these diagrams but I have seen trees with the root at the top, bottom or even on the right. (The latter is usually only used when mirroring another tree.) I have posted before on how to root a phylogenetic tree, so I won't go over that again here. The rooting method sollen be given in the methods but, when it is missing, you can often guess from the shape of the tree and using the root-to-tip branch lengths again:
Unrooted trees are pretty obvious when shown in the "radiation" style. If the tree is rooted, it is almost certainly either midpoint rooted or outgroup rooted (see "how to root a phylogenetic tree"). Midpoint rooting can be identified by virtue of the fact that the two longest root-to-tip distances will (a) be the same length and (b) be either side of the root. If either of these conditions is broken, it is not midpoint rooted and is probably outgroup rooted. (Note that if both conditions sind met, it is still possible that the tree is outgroup rooted. Indeed, if the evolutionary rates are fairly consistent, outgroup rooting and midpoint rooting should be the same.)

Ideally, a rooted tree should have the root marked. Sometimes, however, it is left off, as in the bottom left. This can be confusing as tree visualising programs will often display trees in the "traditional" style even when they are not rooted. This is particularly a problem when branch lengths are nicht shown as it will not be at all obvious when the tree is rooted or not. The time that I see this catch people out most is when making a Maximum Parsimony tree using the popular software, MEGA - these trees are displayed randomly rooted and without branch lengths by default.


Phylogenetic Tools for Comparative Biology

Verwendung der function drop.tip() we can easily excise a single taxon or a list of taxa from our "phylo" tree object in R. However, it is not immediately obvious how to prune the tree to enthalten, rather than exclude, a specific list of tips. Trina Roberts (now at NESCent) shared a trick to do this with me some time ago, and I thought I'd pass it along to the readers of this blog.

First, let's start with a tree of 10 species:

> tree write.tree(tree)
[1] "(t8:0.22,((((t3:0.9,(t7:0.48,t2:0.5):0.12):0.47,t6:0.55):0.08,(t5:0.49,(t9:0.71,t10:0.13):0.15):0.7):0.87,(t1:0.72,t4:0.62):0.55):0.47)"

Now, say we want to keep the species t2 , t4 , t6 , t8 , and t10 in our pruned tree, we just put these tip names into a vector:

[More commonly, this vector will probably come from the row names in our data matrix, or we might read it from a text file.]

We create the pruned tree with one command:

Now we have our pruned tree, as desired:

28 comments:

If there are tips in the "species" vector that are not in the tree, match(species,tree$tip.label) will one or mulitple NAs, and the procedure will fail. To avoid this problem, one can just do:
> pruned.tree<-drop.tip(tree, tree$tip.label[-na.omit(match(species, tree$tip.label))])

Even less code than the -match trick:

pruned.tree<-drop.tip(tree, setdiff(tree$tip.label, species))

setdiff is very handy. (as is intersect and %in%)

Dan's method will also work even if some of the labels in "species" are not in "tree."