Information

Kann die Höhe des Genanteils bei Nachkommen leicht berechnet werden?

Kann die Höhe des Genanteils bei Nachkommen leicht berechnet werden?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich habe im Internet eine Erklärung gesehen, wie man die Menge bestimmter Gene in einer Person berechnet. Zum Beispiel: Wenn Ihr Großvater Franzose und Ihre Oma Amerikanerin war, dann ist Ihr Vater 50 Franzosen und 50 % Amerikaner. Dann lernte er eine Amerikanerin und ihr Kind kennen, das 50/2 = 25 % Französin und 50 % Amerikanerin sein sollte. Und so weiter… jedes Mal durch zwei dividieren. Ist es wahr?


Jeder Elternteil gibt die Hälfte seiner DNA an seine Kinder weiter. Es gibt eine nicht unendliche, aber sehr hohe Menge an DNA. Für die erste Generation gilt also genau: Wenn Mama 100 % rote Gene hat und Papa 100 % grüne Gene, dann hat das Kind 50 % grüne und 50 % rote Gene. Für die zweite Generation, für Menschen mit gemischten Genen, gilt dies nur im Durchschnitt. Wenn ein Kind also 50% grüne und 50% rote Gene hat, könnte es durch die Weitergabe der Hälfte seiner Gene theoretisch alle roten Gene oder alle grünen Gene weitergeben. Es geht sehr wahrscheinlich nicht weiter Exakt jeweils die Hälfte. Aber da es viele Gene gibt, kann man nach dem Gesetz des Durchschnitts in der Praxis sagen, dass sie die Hälfte von jedem weitergeben, was bedeutet, dass wenn der andere Elternteil alle grünen Gene hat, das resultierende Kind 75% grüne Gene und 25% rote Gene hat. Dies geht tatsächlich eine Weile durch die Generationen, bis Sie auf die Endlichkeit der DNA stoßen; Irgendwann werden die Mengen klein genug sein, dass sie nicht mehr den Gesetzen des Durchschnitts folgen, und es wird viel variabler, ob ein Kind die roten Gene seiner Eltern vollständig oder gar nicht oder nur in einer Zwischenmenge erhält.

Dies wird noch komplizierter, wenn wir nicht von abstrakten "roten" oder "grünen" Genen sprechen, sondern von "amerikanischen" oder "französischen" Genen. Was zum Teufel sind überhaupt "amerikanische" oder "französische" Gene? Der menschliche Genpool ist ziemlich gut gemischt, wobei die meisten Gene weit verbreitet sind. Die Zahl derjenigen, die verwendet werden können, um spezifische ethnische oder sogar nationale Herkunft zu identifizieren, ist gering genug, dass das, was ich zuvor über das Gesetz der Durchschnittswerte gesagt habe, das nicht mehr gilt, früher passiert, wenn man sich bestimmte Unterkategorien von Genen ansieht. Trotzdem funktioniert es für mehrere Generationen, glaube ich.


VITCOMIC2: Visualisierungstool für die phylogenetische Zusammensetzung mikrobieller Gemeinschaften basierend auf 16S-rRNA-Gen-Amplikons und metagenomischer Shotgun-Sequenzierung

Die 16S rRNA-Gen-basierte Amplikon-Sequenzierungsanalyse wird häufig verwendet, um die taxonomische Zusammensetzung mikrobieller Gemeinschaften zu bestimmen. Sobald die taxonomische Zusammensetzung jeder Gemeinschaft ermittelt ist, werden evolutionäre Beziehungen zwischen den Taxa durch einen phylogenetischen Baum abgeleitet. Somit ist die kombinierte Darstellung der taxonomischen Zusammensetzung und der phylogenetischen Beziehungen zwischen den Taxa eine leistungsfähige Methode zum Verständnis der mikrobiellen Gemeinschaftsstruktur, jedoch ist die Anwendung einer stammbaumbasierten Darstellung mit Informationen über die Häufigkeit von Tausenden oder mehr Taxa in jeder Gemeinschaft eine schwierige Aufgabe. Zu diesem Zweck haben wir zuvor das Tool VITCOMIC (VIsualization tool for Taxonomic COMpositions of MIcrobial Community) entwickelt, das auf den phylogenetischen Informationen der genom-sequenzierten Mikroben basiert. Hier stellen wir VITCOMIC2 vor, das wesentliche Verbesserungen gegenüber VITCOMIC beinhaltet, die notwendig waren, um mehrere Probleme im Zusammenhang mit der 16S-rRNA-Gen-basierten Analyse mikrobieller Gemeinschaften zu lösen.

Ergebnisse

Wir haben VITCOMIC2 entwickelt, um (i) Sequenzidentitätssuchen gegen breite Referenztaxa, einschließlich unkultivierter Taxa, bereitzustellen (ii) Normalisierung von 16S rRNA-Genkopienzahlunterschieden zwischen Taxa (iii) schnelle Sequenzidentitätssuche durch Anwendung des auf Grafikverarbeitungseinheiten basierenden Sequenzidentitätssuchtools CLAST (iv) genaue taxonomische Zusammensetzungsinferenz und fast vollständige 16S rRNA-Gensequenzrekonstruktionen für die metagenomische Shotgun-Sequenzierung und (v) eine interaktive Benutzeroberfläche zur gleichzeitigen Darstellung der taxonomischen Zusammensetzung mikrobieller Gemeinschaften und phylogenetischer Beziehungen zwischen Taxa. Wir haben die Genauigkeit der Prozesse (ii) und (iv) validiert, indem wir metagenomische Shotgun-Sequenzierungsdaten einer simulierten mikrobiellen Gemeinschaft verwendet haben.

Schlussfolgerungen

Die in VITCOMIC2 integrierten Verbesserungen ermöglichen es Benutzern, ein intuitives Verständnis der Zusammensetzung der mikrobiellen Gemeinschaft basierend auf den 16S-rRNA-Gensequenzdaten zu erlangen, die sowohl aus der metagenomischen Shotgun- als auch der Amplikon-Sequenzierung gewonnen wurden.


Einführung

Die enorme Menge und zunehmende Vielfalt an genomischen und proteomischen Daten, die für Modellorganismen generiert werden, bietet die Möglichkeit für in silico Vorhersage der Genfunktion durch Extrapolation der funktionellen Eigenschaften bekannter Gene. Gene mit ähnlichen Expressionsmustern [1], synthetischer Letalität [2] oder chemischer Sensitivität [3] haben oft ähnliche Funktionen. Darüber hinaus wird die Funktion tendenziell zwischen Genen geteilt, deren Genprodukte physikalisch interagieren [4], Teil desselben Komplexes sind [5] oder ähnliche dreidimensionale Strukturen aufweisen [6]. Computeranalysen haben auch eine gemeinsame Funktion zwischen Genen mit ähnlichen phylogenetischen Profilen [7] oder mit gemeinsamen Proteindomänen [8] gezeigt. Genauere Vorhersagen können durch die Kombination mehrerer heterogener Quellen genomischer und proteomischer Daten gemacht werden [9]. Zusammenfassend haben diese Beobachtungen zu einer funktionellen Kategorisierung einer Reihe von zuvor nicht charakterisierten Genen nach dem sogenannten „Schuld-durch-Assoziation“-Prinzip geführt [10–12].

Algorithmen, die die Genfunktion nach dem Schuld-durch-Assoziations-Prinzip vorhersagen, tun dies, indem sie eine „Seed-Liste“ von Genen erweitern, von denen bekannt ist, dass sie die gegebene Funktion haben, indem andere Gene, die stark mit der Seed-Liste assoziiert sind, in einer oder mehreren genomischen und proteomischen Datenquellen hinzugefügt werden. Diese Algorithmen berechnen typischerweise ein 'funktionelles Assoziationsnetzwerk', um jeden Datensatz in diesem Netzwerk darzustellen, wobei die Knoten Genen oder Proteinen entsprechen und die ungerichteten Verbindungen (oder Kanten) entsprechend dem Nachweis der von der Datenquelle implizierten Kofunktionalität gewichtet werden. Zu den Arten von funktionellen Assoziationsnetzwerken gehören Kernel, die von Support-Vektor-Maschinen (SVMs) verwendet werden [9], funktionelle Verknüpfungsnetzwerke [13] und Protein-Protein-Verknüpfungskarten [14]. Einzelne funktionale Assoziationsnetzwerke werden oft kombiniert, um ein zusammengesetztes funktionales Assoziationsnetzwerk zu erzeugen, das alle Hinweise auf Kofunktionalität zusammenfasst. Dieses Netzwerk wird dann als Eingabe für einen Algorithmus verwendet, der jedes Gen basierend auf seiner Nähe zu den Genen in der Seed-Liste bewertet. Wenn sie auf mehreren komplementären Datenquellen eingesetzt werden, können diese Algorithmen zuvor annotierte Genfunktionen in Blindtests genau vorhersagen [15], was darauf hindeutet, dass ihre Vorhersagen für nicht annotierte Gene auch ziemlich genau sind.

Trotz dieser Erfolge müssen Schuld-durch-Assoziations-Algorithmen noch weit verbreitet in der Genannotation oder als Quelle für neue Hypothesen über die Genfunktion eingesetzt werden, um dies zu erreichen, müssen ihre Vorhersagen zugänglicher, genauer und regelmäßiger aktualisiert werden. Grundsätzlich sollten alle verfügbaren Daten verwendet werden, um Hypothesen über die Genfunktion zu generieren, jedoch ist es eine komplexe und mühsame Aufgabe, eine große Anzahl von heterogenen Datenquellen zusammenzustellen, funktionelle Assoziationsnetzwerke zu generieren, um diese Quellen darzustellen, und dann Genidentifikatoren zwischen den Netzwerken zu kartieren wird am besten von Spezialisten bearbeitet. Zentral verwaltete, webbasierte „Vorhersageserver“ sind eine effiziente Strategie, um sicherzustellen, dass Gelegenheitsbenutzer Zugriff auf die besten verfügbaren Vorhersagen haben.

Die Aufrechterhaltung genauer und aktueller Vorhersageserver kann jedoch rechentechnisch unerschwinglich sein. Obwohl eine große Anzahl von Algorithmen entwickelt wurde, um die Funktion nicht annotierter Gene durch die Kombination heterogener Datenquellen vorherzusagen (siehe [16] für eine aktuelle Übersicht), haben die genauesten dieser Algorithmen lange Laufzeiten, die von Minuten reichen können [17 ] bis Stunden [9] auf Hefe. Größere Säugetiergenome erhöhen die Laufzeit dieser Algorithmen noch weiter. Daher können diese Algorithmen nicht online ausgeführt werden, sondern ihre Vorhersagen werden offline basierend auf Sätzen vordefinierter Seed-Listen gemacht, die beispielsweise aus Gene Ontology (GO)-Annotationen abgeleitet werden [18]. Da jedoch mit hoher Geschwindigkeit neue Daten und Anmerkungen erzeugt werden, erfordert die Aufrechterhaltung einer aktuellen Datenbank der besten verfügbaren Vorhersagen für alle möglichen Funktionen erhebliche und möglicherweise nicht verfügbare Rechenressourcen.

Aufgrund dieser Einschränkung opfern die meisten Vorhersageserver die Genauigkeit für die Geschwindigkeit, indem sie sich auf ein einzelnes oder eine kleine Anzahl von vorberechneten zusammengesetzten funktionalen Assoziationsnetzwerken verlassen und einfache Heuristiken verwenden, um Gene basierend auf einer gegebenen Seed-Liste zu bewerten (siehe z. 13, 14, 19]). Obwohl die Scoring-Heuristiken schnell genug sind, um Online-Vorhersagen für beliebige Seed-Listen bereitzustellen, werden wir zeigen, dass ihre Vorhersagen viel weniger genau sind als fortgeschrittenere Methoden. Darüber hinaus nutzen diese Server durch die Verwendung eines einzigen vorberechneten Netzwerks nicht die Tatsache aus, dass unterschiedliche Datenquellen für verschiedene Kategorien von Genfunktionen relevanter sind [2, 9] und nicht auf neue oder vom Benutzer bereitgestellte Datenquellen erweiterbar sind .

Hier zeigen wir, dass beim Aufbau eines Vorhersageservers weder auf Genauigkeit noch Flexibilität verzichtet werden muss, indem wir zeigen, dass GeneMANIA (Multiple Association Network Integration Algorithm) in Sekunden genomweite Vorhersagen generieren kann, die eine hochmoderne Genauigkeit erreichen auf willkürlichen Seed-Gen-Listen, ohne sich auf ein vorab festgelegtes Assoziationsnetzwerk zu verlassen. Dieses Ziel haben wir durch eine Reihe von algorithmischen und technischen Fortschritten erreicht, die wir in einem neuen Softwarepaket gekapselt haben. Mit GeneMANIA ist es nicht mehr notwendig, Listen mit in silico Vorhersagen der Genfunktion, weil sie bei Bedarf neu berechnet werden können.


Ergebnisse

Wahrscheinlichkeit von Zustandsübergängen entlang einer Verzweigung

Die probabilistischen Modelle können verwendet werden, um abzuleiten, ob sich die Größe der Genfamilie zwischen dem Vorfahren und dem Nachkommen entlang jedes Astes im Artenbaum geändert hat. Dies geschieht durch Ersetzen der Ratenparameter, die die Likelihood-Funktion in der Übergangswahrscheinlichkeitsmatrix optimieren P(T) (siehe Abschnitt Methoden für die Definitionen), wobei T ist die Länge des Zweiges. Unter Verwendung dieser Übergangswahrscheinlichkeiten können die Wahrscheinlichkeiten jedes Zustands bei LUCA berechnet werden. Jedes der in dieser Arbeit diskutierten Modelle legt nahe, dass, selbst wenn Genverluste und Gengewinne in der Evolution auftreten (die nicht diagonalen Einträge in der Übergangswahrscheinlichkeitsmatrix), das wahrscheinlichste Ergebnis entlang eines jeden Zweiges darin besteht, dass die Größe der Genfamilie gleich bleibt , mit höheren Wahrscheinlichkeiten für die Aufrechterhaltung der Gen-Abwesenheit als für die Aufrechterhaltung der Gen-Anwesenheit. Eine weitere gemeinsame Eigenschaft aller Modelle (mit Ausnahme von Modell (B1), das auf die gleichen Raten von Gengewinn und Genverlust beschränkt ist) besteht darin, dass Genverluste typischerweise zwei- bis viermal so wahrscheinlich sind wie Gengewinne. Die Median-Übergangswahrscheinlichkeitsmatrizen (mit der höchsten Wahrscheinlichkeit in jeder hervorgehobenen Zeile) für einen Ast mit der Länge 0,35 (der Median der beobachteten Astlängen im Baum) sind

Darüber hinaus legen die Übergangswahrscheinlichkeiten der Modelle (M1) und (M2) nahe, dass der Zustand mehrerer In-Paralogs anfälliger für Veränderungen entlang einer Verzweigung ist als der Zustand eines Einzelkopie-Gens. Die zweiten Reihen dieser Wahrscheinlichkeitsmatrizen weisen darauf hin, dass der Erwerb eines neuen Gens weniger wahrscheinlich ist als das Duplizieren des bestehenden Gens in der Art, und dass der Verlust eines bestehenden Gens wahrscheinlicher ist als seine Verdoppelung. Der Hauptunterschied zwischen den Modellen (M1) und (M2) liegt in den Wahrscheinlichkeiten des Genverlustübergangs, wenn mehrere Kopien im Vorfahren vorhanden sind. Im Modell (M2) ist es weniger wahrscheinlich, dass ein Gen alle seine Kopien entlang einer Verzweigung verliert, während in (M1) die Wahrscheinlichkeit, alle Kopien von Genen entlang einer Verzweigung zu verlieren, ungefähr gleich der Wahrscheinlichkeit ist, mehrere Kopien der Gen.

Die Ahnenwahrscheinlichkeiten

Für jedes im vorherigen Abschnitt diskutierte Modell kann die Wahrscheinlichkeit abgeleitet werden, dass jedes COG in LUCA auftrat. Ein Genset LUCA-MLx besteht aus Genen, deren Ahnenwahrscheinlichkeit mindestens beträgt x in ihrem bevorzugten Modell unter (M1) und (M2). Tabelle 1 (Spalte II) zeigt die Anzahl der Gensätze, die unter den verschiedenen Werten von als Vorfahren abgeleitet werden x von 0,5 bis 1. Wir erstellen eine Ahnen-COG-Liste unter Verwendung der Wahrscheinlichkeit 0,7, wenn das Wahrscheinlichkeitsniveau nicht angegeben ist, bezeichnen wir LUCA-ML 0,7 als LUCA-ML.

Unser LUCA-ML ist nicht dasselbe wie das in [2] rekonstruierte LUCA1.0, wahrscheinlich weil die beiden Vorfahren mit unterschiedlichen Methoden abgeleitet wurden, die außerdem auf verschiedene Arten und COGs angewendet wurden. LUCA-ML 0.7 und LUCA-ML 0.6 teilen sich etwa 57 % bzw. 50 % ihrer Gene mit LUCA 1.0, und mehr als 65 % von LUCA 1.0 sind in jedem unserer ML-Vorfahren-Gensets enthalten.

Gengehalt von LUCA-ML 0.7 und LUCA-1.0

Der Anteil aller COGs, der als Vorfahren bewertet wird, ist bei den beiden rekonstruierten Vorfahren ähnlich – 23% der Gesamtzahl bei LUCA 1.0 (517 COGs) im Vergleich zu 26% (597 COGs) bei LUCA-ML 0.7. Auf der anderen Seite unterscheidet sich die Identität der COGs in den beiden Sets erheblich, wobei nur 346 COGs in beiden Sets gefunden wurden.

Abbildung 1 zeigt die Verteilung des Input-Sets von COGs sowie abgeleiteter Vorfahren-Sets nach der Anzahl der Genome, in denen sie unter verschiedenen Modellen gefunden werden. Die Anzahl der COGs in LUCA 1.0 und LUCA-ML 0.7 ist ähnlich für jene COGs, die in mehr als 80 Genomen gefunden werden, unterscheidet sich jedoch erheblich für das Modell seltener COGs (M2) und andere ML-Ansätze neigen dazu, einen höheren Anteil an dünn verteilten COGs in LUCA.

Verteilung aller COGs unter den Modellen B2 und M2 sowie COGs hoher Abstammung (LUCA-ML und LUCA1.0) nach der Anzahl der Genome, in denen sie vorhanden sind.

Tabelle 2 zeigt eine grobe Klassifikation der bekannten und vorhergesagten molekularen Funktionen der COGs der Vorfahren.

Schlecht charakterisierte konservierte Gene (Kategorien R und S) sind häufiger unter den COGs, die nur durch den ML-Ansatz als Vorfahren bewertet wurden, was mit einem höheren Anteil seltener COGs in diesen Kategorien und einer relativen Bevorzugung dieser COGs durch die ML-Ansätze korreliert. Diese COGs mit „hoher Vorfahren“ der R- und S-Kategorien machen etwa 16% aller COGs in diesen funktionellen Gruppen aus, und mehr Einblicke in ihre Funktion werden für ein besseres Verständnis der Biochemie der Vorfahren nützlich sein.

Das andere Extrem der „Vorfahren“ stellen die COGs dar, die der Kategorie J (Translation Machinery and Ribosomen Biogenesis) sowie der Kategorie E (Amino Acid Biosynthesis) angehören. Die überwiegende Mehrheit aller COGs in diesen beiden Kategorien wurde von allen Ansätzen als Vorfahren vorhergesagt, was zum großen Teil auf ihre breite Verbreitung in den Genomen zurückzuführen ist.

Abbildung 2 zeigt die Verteilung aller COGs nach der Wahrscheinlichkeit, unter jedem Modell Vorfahren zu sein, sowie die Anzahl der Vorfahren-COGs unter verschiedenen Wahrscheinlichkeitsgrenzen. Die Wahrscheinlichkeiten sind über den gesamten Bereich gut verteilt, aber ein beträchtlicher Teil von ihnen (mindestens 15%) ist um 0,5 geclustert. Dies ist die „Grauzone“ der Vorfahren, die durch zukünftige Analysen aufgelöst werden kann, von denen einige Richtungen unten diskutiert werden.

Wahrscheinlichkeitsverteilung der COG-Vorfahren unter verschiedenen Modellen. Das erste Panel zeigt die Häufigkeit von COGs mit unterschiedlicher Eintrittswahrscheinlichkeit bei LUCA und das zweite Panel zeigt die Anzahl der COGs über den unterschiedlichen Wahrscheinlichkeitsschwellen.


Phylogenetische Baumentfernungen

Abstrakt

Phylogenetische Bäume sind mathematische Objekte, die die jüngsten gemeinsamen Vorfahrenbeziehungen zwischen einer bestimmten Gruppe von Organismen zusammenfassen. Es besteht oft die Notwendigkeit, den Grad der Ähnlichkeit oder Diskordanz zwischen zwei vorgeschlagenen Bäumen zu quantifizieren. Zum Beispiel kann eine Person daran interessiert sein zu wissen, ob die phylogenetischen Bäume, die aus zwei unterschiedlichen Sequenzausrichtungen rekonstruiert wurden, wirklich unterschiedlich sind oder ob die Unterschiede so gering sind, dass sie nur auf statistische Variationen zurückzuführen sind. In diesem Artikel fassen wir einige der bekanntesten Methoden zur Definition von Abständen zwischen phylogenetischen Bäumen zusammen und stellen, wenn möglich, Beispiele für die Berechnungen zur Verfügung.


Teilen des gesamten HeLa-Genoms

Im März 2013 sequenzierte eine Forschergruppe des European Molecular Biology Laboratory das Genom von HeLa-Zellen. Mit den Fortschritten der letzten Jahrzehnte bei den Sequenzierungstechniken war die Sequenzierung einfach. Es geschah auch mit guten Absichten.

Die Krebszellen, die erstmals Monate vor ihrem Tod an Gebärmutterhalskrebs im Jahr 1951 aus einem Klumpen aus dem Gebärmutterhals von Henrietta Lacks entnommen wurden, sind die am häufigsten verwendete Zelllinie der Welt. Die Zellen sind robust und haben dazu beigetragen, viele Antitumor- und Virusbehandlungen zu entwickeln, einschließlich des Polio-Impfstoffs. Die 2013 veröffentlichten Genomdaten, die verwendet werden können, um sensible medizinische Informationen über die Nachkommen von Lacks&rsquo zu erhalten, wurden jedoch ohne deren Wissen weitergegeben.

&bdquoEs&rsquos wie, &lsquoHier gehen wir wieder, ohne unsere Erlaubnis oder unser Einverständnis in die Forschung involviert zu sein&rsquo&rdquo, sagt David Lacks Jr. Er ist ein Enkel von Henrietta Lacks, einer schwarzen Tabakfarmerin und Mutter von fünf Kindern. Als Henrietta Lacks 1951 wegen einer kleinen Geschwulst im Gebärmutterhals ins Johns Hopkins Hospital ging, nahm der diensthabende Gynäkologe Howard Jones eine Biopsie der Tumorzellen vor. Nach einer Diagnose gelangten die Zellen über einen gemeinsamen Kollegen zu George Gey, dem Leiter der Gewebekulturforschung bei Johns Hopkins.

Henrietta Lacks wurde um Erlaubnis gebeten, ihre Zellen auf diese Weise zu teilen, obwohl die Entnahme von Proben von Patienten ohne Erlaubnis zu dieser Zeit eine gängige Praxis war. Während ihre Zellen, die sich mit einer beispiellosen Geschwindigkeit auf unbestimmte Zeit teilten, die medizinische Forschung revolutionierten, blieb die Familie Lacks im Dunkeln, bis in den 1970er Jahren Forscher kamen, um Blutproben von Familienmitgliedern zu entnehmen. Die HeLa-Zellen erwirtschafteten Milliardengewinne für die biomedizinische Industrie, während sich die Familie Lacks keine medizinische Versorgung und Krankenversicherung leisten konnte.

Diese Ungerechtigkeiten wurden mit Rebecca Skloots Bestseller-Buch „The Immortal Life of Henrietta Lacks“ aus dem Jahr 2010 bekannt gemacht. Pflege und vorab genehmigte Notfallausgaben an eine Reihe von Mitgliedern der unmittelbaren Familie von Lacks&rsquo.

Als das Genom Anfang 2013 in das Europäische Nukleotidarchiv aufgenommen wurde, „gab es&rdquo Richtlinien, die besagten, dass die Daten&rsquot zur Verfügung gestellt werden konnten&rdquo, sagt Dina Paltoo von den National Institutes of Health. Paltoo ist der Direktor der Abteilung für Richtlinien zur gemeinsamen Nutzung wissenschaftlicher Daten im NIH&rsquos-Büro für Wissenschaftspolitik. &bdquoDies ist so ziemlich die gängige Praxis in der Genomik-Community, und viele Zeitschriften verlangen, dass Daten geteilt werden, bevor sie die Ergebnisse veröffentlichen.&rdquo Eine Studie über das Genom und Epigenom der HeLa-Zellen von Forschern der University of Washington war ebenfalls kurz vor der Veröffentlichung in Nature.

Nachdem die genomischen Informationen von den deutschen Forschern des EMBL in eine öffentliche Datenbank aufgenommen worden waren, veröffentlichte Skloot einen Kommentar in der New York Times, der viel Aufmerksamkeit erregte. NIH-Direktor Francis S. Collins traf sich mit der Familie Lacks, um ihre Möglichkeiten zu besprechen.

&bdquoWir könnten es so lassen, wie es ist, damit die ganze Welt es sehen kann, aber das Problem dabei ist, wenn man Henrietta Lacks' Genom sequenziert, schließt man auch Familienmerkmale unseres Genoms ein&ldquo sagt Lacks. &ldquoWir wissen nicht, was in 20 Jahren bekannt sein würde, wenn diese Sequenz einfach für jeden da draußen wäre und wie sich das auf uns auswirken würde.&ldquo

Einen Konsens erzielen

Die Familie kam zu dem Schluss, dass der beste Weg, um mit der HeLa-Genomsequenz umzugehen, darin besteht, dass Forscher einen Antrag auf Zugang zu ihr stellen. &bdquoWir wollten&rsquot, dass es abgeschnitten wird, weil die Familie einhellig stolz auf das ist, was die Zellen erreicht haben&rdquo, sagt Lacks.

Collins und Kathy Hudson, die damals stellvertretende Direktorin des NIH für Wissenschaft, Öffentlichkeitsarbeit und Politik war, stellten eine Arbeitsgruppe aus Bioethikern, Genetikern, Klinikern und Mitgliedern der Familie Lacks zusammen. Gemäß der Vereinbarung im August 2013, die die Familie mit dem NIH getroffen hat, mussten Forscher, die die Daten verwenden wollten, bestimmte Kriterien erfüllen: Die Daten sollten nur für biomedizinische Forschungszwecke verwendet werden, die Antragsteller müssen alle kommerziellen Pläne offenlegen, die sie für die Daten hätten, und die Anfragenden würden sich bereit erklären, die Familie und die Beiträge der Zellen in allen Veröffentlichungen und Präsentationen anzuerkennen. Die Studie der University of Washington, die auf Eis gelegt worden war, erschien in einer Ausgabe von Nature, die diesen Monat mit einer Diskussion der Vereinbarung von Hudson und Collins erschien.

Die HeLa Genome Data Access Working Group umfasst Lacks und Veronica Spencer, eine Urenkelin von Henrietta Lacks. Die Gruppe wertet Anträge auf Zugang zu diesen Daten aus und sendet ihre Ergebnisse dann an den beratenden Ausschuss an den NIH-Direktor. Dieser Ausschuss gibt dann eine Empfehlung an Collins, der eine endgültige Entscheidung trifft.

&ldquoDer NIH-Direktor hat sich auch an Zeitschriften gewandt und sie ermutigt, sicherzustellen, dass Forscher, die eine Veröffentlichung anstreben, sich an die HeLa-Genomdatennutzungsvereinbarung halten und die Vereinbarung und die Familie auch angemessen anerkennen", sagt Paltoo.

David Lacks Jr. (rechts) und sein Cousin Jeri Lacks&ndashWhye sprechen oft öffentlich über die Erfahrungen der Familie Lacks mit der HeLa-Zelllinie. FOTO ZUR VERFÜGUNG GESTELLT VON JERI LACKS-WHYE

Früchte der Datenbank

Die NIH&rsquos-Datenbank für Genotypen und Phänotypen (dbGaP) enthält derzeit fünf Datensätze, die sich auf das sequenzierte HeLa-Genom beziehen. Bisher hat Collins 47 Anfragen von Forschern aus 20 verschiedenen Ländern genehmigt. Die einzige abgelehnte Anfrage war für eine Gruppe, die ihre Ergebnisse teilen wollte. Die beiden Papiere, die den Aufruhr verursachten, wurden veröffentlicht, nachdem sie von der Gruppe genehmigt wurden.

Einer dieser zugelassenen Ermittler ist Andrew Adey von der Oregon Health & Science University. Als Doktorand war Adey der erste Autor des von Jay Shendure geleiteten Genom-Papiers der University of Washington.

Zu Beginn seiner Karriere half Adey dabei, zu untersuchen, was den HeLa-Zellen die Fähigkeit verleiht, sich so aggressiv zu teilen. Die Fähigkeit entstand aus der Integration von DNA des humanen Papillomavirus in das Genom einer Zelle von Henrietta Lacks, die zu ihrem Zervixkarzinom führte.

&bdquoDie virale Fremd-DNA-Integration, die im HeLa-Genom stattfand, findet in einigen Untergruppen von Zervixkarzinomen statt, aber in diesem Fall geschah dies auf sehr unglückliche Weise&rdquo, sagt Adey. &ldquoEs hat sich zufällig an einer Stelle integriert, die ein Krebsgen aktiviert, also war es wirklich ein perfekter Sturm von Ereignissen in der Zelle, der zu dieser extrem aggressiven Form von Krebs und letztendlich zur Immortalisierung der Zelle führte.&ldquo

Die viralen Onkogene E6 und E7 waren auf der inserierten viralen DNA vorhanden, die Tumorsuppressoren, wie das bekannte p53, hemmen. Das Virus inserierte auch 30 Kopien eines regulatorischen Enhancers in der Nähe eines Proto-Onkogens, MYC, das bei einer Entführung eine unregulierte Zellteilung verursachen kann. Diese Interaktion trug zu einer viel aggressiveren Form von Krebs bei.

Adey und Kollegen haben kürzlich die Stabilität und Heterogenität von HeLa-Zellen mit einer Technik namens kombinatorische Indizierung charakterisiert. Die Technik ermöglicht es ihnen, eine Einzelzell-Genomsequenzierung mit einem höheren Durchsatz durchzuführen, als dies bisher durch das Barcoding einzelner Zellen möglich war.

Die Forscher wandten die Technik zunächst auf Krebszellen eines fortgeschrittenen Adenokarzinoms an und konnten Subpopulationen innerhalb des Tumors identifizieren. Bei zukünftigen Verwendungen werden wir in der Lage sein, Subpopulationen mit sehr geringer Häufigkeit zu beproben,&rdquo, sagt Adey. &bdquoWir können dann möglicherweise einige Aspekte ableiten und erkennen, die auf andere Weise anvisiert werden könnten als der Rest des Tumors.&ldquo

Neben all den lebensrettenden Medikamenten, die mit HeLa-Zellen entwickelt wurden, können Forscher, die an der Entwicklung neuer medizinischer Technologien arbeiten, das HeLa-Genom als leistungsstarkes Kalibrierungswerkzeug verwenden.

&bdquoWir &rsquoentwickeln neue Technologien und Werkzeuge, um Krebs sowie andere Aspekte oder andere Krankheiten zu untersuchen&rdquo, sagt Adey. &ldquoWenn wir diese Tools entwickeln, möchten wir sie an etwas testen, bei dem wir die Antwort kennen, damit wir HeLa verwenden. Wir wissen genau, wie es aussehen wird.&rdquo

Der kontrollierte Zugriff auf die genomischen Daten von HeLa hat auch zur Entwicklung einer neuen Analysemethode durch die Shendure-Gruppe geführt. Die Methode umfasst Gerüste auf Chromosomenskala, um hoch zusammenhängende Genome aus kurzen Lesevorgängen zusammenzusetzen. Die Reassemblierung wird durch einen Algorithmus ermöglicht, der Fragmente des Genoms basierend auf Chromatin-Interaktions-Datensätzen gruppiert, die für die Zuordnung, Anordnung und Orientierung der genomischen Sequenzen zu Chromosomen nützlich sind. Die Forscher beschrieben die Methode, für die Shendure ebenfalls ein Patent angemeldet hat, erstmals im November 2013 in einem Artikel in der Fachzeitschrift Nature Biotechnology. Darin verwendeten die Forscher das HeLa-Genom als eine Möglichkeit, die Methode zu testen, um interchromosomale Umlagerungen in Genome von Krebs.

Darüber hinaus hat die Yijuan Ruan-Gruppe am Jackson Laboratory Cancer Center in Bar Harbor, Maine, neue Erkenntnisse über die Auswirkungen der räumlichen Organisation des Genoms auf die Transkription gewonnen, die erhebliche Auswirkungen auf bei Krankheiten auftretende Aberrationen hat.

Während Forscher die HeLa-Zellen verwenden, um unzählige Aspekte der Zellbiologie besser zu verstehen, sind Lacks und Jeri Lacks&ndashWhye, ein weiterer Enkel von Henrietta Lacks, gereist, um vor bis zu 4.000 Zuhörern über ihre Familie und die breiteren Themen zu sprechen, die in Skloots Buch aufgeworfen werden.

&ldquoObwohl wir viel über das Buch sprechen, beginnen wir auch, mehr über die Themen zu sprechen, die in dem Buch behandelt werden, wie Gesundheit, Wohlstand und Präzisionsmedizin&ldquo, sagt Lacks.

&bdquoJeder wird irgendwann krank werden oder von jemandem betroffen sein, der &rsquo krank ist&ldquo, fügt er hinzu. &bdquoWir wollen Wissenschaftlern helfen, Heilmittel zu finden.&rdquo

Das obere Bild, das dasselbe Bild auf dem Titelblatt dieses Monats ist, ist ein Multiphotonen-Fluoreszenzbild von HeLa-Zellen. Mikrotubuli sind in Magenta DNA ist in Cyan. Bild mit freundlicher Genehmigung von Tom Derrinck vom National Center for Microscopy and Imaging Research.


1. EINLEITUNG

Vermischungen zwischen Populationen und Hybridisierungen zwischen Arten sind üblich und ein sich gabelnder Baum reicht oft nicht aus, um ihre Evolutionsgeschichte zu erfassen (Green et al., 2010 Kozak et al., 2018 Malinsky et al., 2018 Patterson et al., 2012 Tung & Barreiro, 2017). Pattersons D Statistik, die erstmals verwendet wurde, um die Introgression zwischen modernen menschlichen und Neandertaler-Populationen zu erkennen (Durand et al., 2011 Green et al., 2010), wurde in großem Umfang auf ein breites Spektrum von Taxa angewendet (Fontaine et al., 2015 Kozak et al., 2018 Malinsky et al., 2018 Tung & Barreiro, 2017 vonHoldt et al., 2016). Die D Statistik und die dazugehörige Schätzung des Beimischungsanteils F, bezeichnet als die F4-ratio (Patterson et al., 2012) sind einfach zu berechnen und gut geeignet, um Datensätze auf genomischer Ebene zu nutzen, während sie unter den meisten demografischen Szenarien robust sind (Durand et al., 2011).

Die D und F4-Ratio-Statistiken gehören zu einer Klasse von Methoden, die auf der Untersuchung von Korrelationen von Allelfrequenzen zwischen Populationen basieren und innerhalb eines populationsgenetischen Rahmens entwickelt wurden (Patterson et al., 2012). Die Methoden können jedoch erfolgreich zum Erlernen von Hybridisierung und Introgression innerhalb von Gruppen eng verwandter Arten angewendet werden, solange gemeinsame populationsgenetische Annahmen gelten – nämlich dass (a) die Arten aufgrund gemeinsamer Vorfahren und unvollständiger genetischer Unterschiede einen erheblichen Anteil aufweisen Lineage-Sortierung (b) Rezidiv- und Rückmutationen an den gleichen Stellen sind vernachlässigbar und (c) die Substitutionsraten sind über die Spezies hinweg einheitlich (Patterson et al., 2012 Pease & Hahn, 2015).

Da immer mehr genomische Daten verfügbar werden, besteht die Notwendigkeit, Datensätze mit Dutzenden oder Hunderten von Taxa zu handhaben. Anwenden der D und F4-Ratio-Statistik hat den Vorteil der Recheneffizienz und ist selbst dann leistungsstark, wenn vollständige Genomdaten von nur einem einzelnen Individuum pro Population verwendet werden (Green et al., 2010). Andererseits, da jede Berechnung von D und F für vier Populationen oder Taxa gilt, wächst die Anzahl der Berechnungen/Quartette mit der Größe des Datensatzes schnell. Die Anzahl der Quartette beträgt , d.h. n wähle 4, wobei n ist die Bevölkerungszahl. Dies kann Herausforderungen im Hinblick auf erhöhte Rechenanforderungen darstellen. Darüber hinaus werden die resultierenden Teststatistiken korreliert, wenn Quartette einen (internen) Zweig im Gesamtpopulations- oder Artenbaum teilen, was die Interpretation eines Systems aller möglichen vier Taxontests über einen Datensatz erschweren kann.

Da es nach wie vor schwierig ist, spezifische Introgressionsereignisse in Datensätzen mit Dutzenden oder Hunderten von Populationen oder Arten zu lokalisieren, ist die F-Filiale oder FB(C) Metrik wurde in Malinsky et al. ( 2018 ) um korrelierte zu entwirren F4-Ratio-Ergebnisse und weisen Genfluss-Beweise bestimmten, möglicherweise internen, Zweigen einer Phylogenie zu. Die F-Branch-Metrik baut auf verbalen Argumenten auf und formalisiert sie, die von Martin et al. ( 2013 ) um den Genfluss bestimmten inneren Zweigen der Phylogenie von . zuzuordnen Heliconius Schmetterlinge. Und so kam es dass der F-Zweigstatistik kann als Hilfestellung für die Formulierung von Genflusshypothesen in Datensätzen vieler Populationen oder Arten angesehen werden.

Pattersons D und verwandte Statistiken wurden auch verwendet, um introgressierte Loci durch Gleitfensterscans entlang des Genoms zu identifizieren (Fontaine et al., 2015 Heliconius Genome Consortium, 2012) oder durch Berechnung dieser Statistiken für bestimmte kurze Genomregionen. Weil das D Statistik selbst weist eine große Varianz auf, wenn sie auf kleine genomische Fenster angewendet wird, und weil sie eine schlechte Schätzung des Ausmaßes der Introgression ist (Martin et al., 2015), zusätzliche Statistiken, die sich auf die F4-ratio wurden speziell entwickelt, um Signaturen der Introgression in genomischen Fenstern entlang von Chromosomen zu untersuchen. Diese Statistiken umfassen FD (Martin et al., 2015), seine Erweiterung Fdm (Malinsky et al., 2015) und der Distanzanteil df (Pfeifer & Kapan, 2019).

Programme zur Berechnung von Patterson's D und verwandte Statistiken umfassen admixtools (Patterson et al., 2012), hyde (Blischak et al., 2018), angsd (Paul et al., 2011 Soraggi et al., 2018), Popgenome (Pfeifer & Kapan, 2019 Pfeifer et al.) ., 2014) und comp-d (Mussmann et al., 2020). Eine Reihe von Faktoren erfordert jedoch die Einführung neuer Software. First, most of the existing programs cannot handle the variant call format (VCF) (Danecek et al., 2011 ), the standard file format for storing genetic polymorphism data produced by variant callers such as samtools (Li, 2011 ) and gatk (DePristo et al., 2011 ). Second, the computational requirements of these programs in terms of either run time or memory (or both) make comprehensive analyses of data sets with tens or hundreds of populations or species either difficult or infeasible. Third, the programs implement only a subset of the statistics discussed above, and there are some statistics, namely FdM, und F-branch, which have not yet been implemented in any publicly available software package.

To address these issues, we introduce the Dsuite software package. Dsuite brings the calculation of different related statistics together into one software package, combining genome-wide and sliding window analyses, and downstream analyses aiding their interpretation (Table 1). Dsuite has a user-friendly straightforward workflow and uses the standard VCF format, thus generally avoiding the need for format conversions or data duplication. Moreover, Dsuite is computationally more efficient than other software in the core task in calculating the D statistics, making it more practical for analysing large genome-wide data sets with tens or even hundreds of populations or species. Finally, Dsuite implements the calculation of the FdM und F-branch statistics for the first time in publicly available software. While researchers can implement these and other statistics in their own custom scripts, the inclusion of the whole package of statistics in Dsuite facilitates their use and reproducibility of results.

Software VCF input Genome-wide tests/statistics Sliding window statistics
D F4-ratio F-branch D F D F dM df
admixtools
angsd
comp-d
hyde
popgenome
dsuite

How much of human height is genetic and how much is due to nutrition?

This question can be rephrased as: "How much variation (difference between individuals) in height is attributable to genetic effects and how much to nutritional effects?" The short answer to this question is that about 60 to 80 percent of the difference in height between individuals is determined by genetic factors, whereas 20 to 40 percent can be attributed to environmental effects, mainly nutrition. This answer is based on estimates of the "heritability" of human height: the proportion of the total variation in height due to genetic factors.

Human height is a quantitative, or metric, trait, i.e., a characteristic that is measured in quantity, and is controlled by multiple genes and environmental factors. Many studies have estimated the heritability of human height. Often, these studies determine heritability by estimating the degree of resemblance between relatives. One can separate genetic effect from environmental effects by correlating genetic similarity between relatives (twin, siblings, parents and offspring) with their similarity in height. To accurately measure how genetically similar relatives are, one can measure the number of genetic markers they share. For example, Peter M. Visscher of the Queensland Institute of Medical Research in Australia recently reported that the heritability of height is 80 percent, based on 3,375 pairs of Australian twins and siblings. This estimate is considered to be unbiased, as it was based on a large population of twins and siblings and a broad survey of genetic markers. In the U.S., the heritability of height was estimated as 80 percent for white men. These estimates are well supported by another study of 8,798 pairs of Finnish twins, in which the heritability was 78 percent for men and 75 percent for women. Other studies have shown height heritability among whites to be even higher than 80 percent.

Because different ethnic populations have different genetic backgrounds and live in different environments, however, height heritability can vary from one population to another, and even from men to women. In Asian populations, the heritability of height is much lower than 80 percent. For example, in 2004 Miao-Xin Li of Hunan Normal University in China and his colleagues estimated a height heritability of 65 percent, based on a Chinese population of 385 families. In African populations, height heritability is also lower: 65 percent for the population of western Africa, according to a 1978 study by D. F. Roberts, then at Newcastle University in England, and colleagues. Such diversities in heritability are mainly due to the different genetic background of ethnic groups and the distinct environments (climates, dietary habits and lifestyle) they experience.

Heritability allows us to examine how genetics directly impact an individual's height. For example, a population of white men has a heritability of 80 percent and an average height of 178 centimeters (roughly five feet, 10 inches). If we meet a white man in the street who is 183 cm (six feet) tall, the heritability tells us what fraction of his extra height is caused by genetic variants and what fraction is due to his environment (dietary habit and lifestyle). The man is five centimeters taller than the average. Thus, 80 percent of the extra five centimeters, or four centimeters, is due to genetic variants, whereas one centimeter is due to environmental effects, such as nutrition.

Heritability can also be used to predict an individual's height if the parents' heights are known. For example, say a man 175 cm tall marries a woman 165 cm tall, and both are from a Chinese population with a population mean of 170 cm for men and 160 cm for women. We can predict the height of their children, assuming the heritability is 65 percent for men and 60 percent for women in this population. For a son, the expected height difference from the population mean is: 0.65 x [(175 - 170) + (165 - 160)] / 2, which equals 3.25 cm for a daughter, the difference is 0.6 x [(175 - 170) + (165 - 160)] / 2, which equals 3 cm. Thus, the expected height of a son is 170 + 3.2, or 173.2 cm, and of a daughter 160 + 3, or 163 cm. On the other hand, environmental effects can add 1.75 cm to a son's height: 0.35 x [(175 - 170) + (165 - 160)] / 2, and 2 cm to a daughter's: 0.4 x [(175 - 170) + (165 - 160)] / 2. Of course, these predictions only reflect the mean expected height for each of the two siblings (brothers and sisters) the actual observed height may be different.

From these calculations, we realize the environment (mainly nutrients) can only change about 2 centimeters for a given offspring's height in this Chinese population. Does that mean that no matter what happens in the child's environment, the height can never change more than this? Can special treatment and nutrient supplements increase the height further? Die Antwort ist ja. The most important nutrient for final height is protein in childhood. Minerals, in particular calcium, and vitamins A and D also influence height. Because of this, malnutrition in childhood is detrimental to height. In general, boys will reach maximum height in their late teens, whereas girls reach their maximum heights around their mid-teens. Thus, adequate nutrition before puberty is crucial for height.


Reviewers' comments

Reviewer 1: Mikhail Gelfand, Department of Bioengineering and Bioinformatics, Moscow State University, and Institute for Information Transmission Problems RAS, Moscow, Russia

The paper addresses an important problem of selecting a good similarity measure for comparing gene expression patterns. It does not provide definitive answers, but demonstrates correct approaches. The main conclusion, "the choice of a proper measure depends on the biological problem at hand" is difficult to argue against. The following comments are mainly of the discussion and editorial nature.

While the basic assumption, that homologous tissues in different organisms should be more similar in the terms of gene expression than tissues in one organism, is reasonable, some caveats are due. For instance, if the tissues in question are very close developmentally, one can easily expect concerted, organism-specific changes in expression. In fact, the papers results demonstrate exactly that.

The rat spleen and thymus are clustered by all measures (Fig. 1). The human spleen and thymus are clustered by some measures, and I think that clustering [(thymus_rat + spleen_rat) + (thymus_human + spleen_human)] should not be counted as an error, as opposed to a version with human spleen being an outlier: [((thymus_rat + spleen_rat) + thymus_human) + spleen_human]. Similarly, I'd assume that both versions [(muscle_human + heart_human) + (muscle_rat + heart_rat)] and [(muscle_human + muscle_rat) + (heart_human + heart_rat)] are biologically relevant, as opposed to [((muscle_human + heart_human) + muscle_rat) + heart_rat)]. Hence, the procedure of counting errors should not be limited to considering pairs of non-clustered homologous tissues, but should tale into account finer topological detail (as well as, maybe, branch length).

Authors' response: We agree with the reviewer that there may be more than one biologically relevant clustering solution, and concerted organism-specific co-expression of genes might cause species-specific tissue cluster. However, we believe that in most cases non-homologous tissues clustering is directly related to tissues sampling and the number of replicates available. Curiously, the pattern [((thymus_rat + spleen_rat) + thymus_human) + spleen_human], was observed with all four distance measures that we tried. Also note that part of our intention was to demonstrate that in the problem of tissue clustering there is no valid reason to dismiss the correlation-based distance, despite the concerns raised in ref. [13] and indeed, correlation-based distance and the Euclidean distances gave the same results in our hands, and even for the binary transformed data the correlation-based distance detected some of the relevant signal.

While this may go beyond the limits of the present study, I think it would be interesting to look into more detail into the cluster trees generated by different measures, and specifically, into what genes contribute most into different clusters, dependent on the expression patterns. At that, one should keep in mind that in each tissue we observe an averaged expression of genes from a mixture of quite different cell types. For instance, clustering of the spleen, thymus and the bone marrow may be related to the blood cells development, while clustering of the spleen, thymus and the pituitary gland may be caused by genes expressed in the gland tissue.

Some hint of analysis is given in the last paragraph of "Distance estimates". The overrepresentation of heart and muscle development genes is not surprising, given the robust clustering of these tissues in all trees. On the other hand, the statement that the Eucledian distance does not provide a functionally meaningful set: one can easily see blood cell development genes there (not surprising given spleen, thymus and bone marrow data) and neurological process (the sources for which is admittedly less clear: could it be the pituitary gland?)

Authors' response: We agree that there is good information in the clusters produced by Euclidean distance, even if there is no single dominant theme there. Note, however, that genes selected using the Euclidean distance tend to be expressed in all tissues at the uniform low level, while genes selected using correlation-based distance tend to be expressed in several orthologous tissues at the much higher level.

Reviewer 2: Eugene Koonin, National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health

The paper by Glazko and Mushegian makes the case that different measures of expression divergence (in particular, Euclidean distances and correlation-based distances) are best suited for revealing different trends in the evolution of gene expression. I would like to strongly endorse this work that shows flexibility which is vital for understanding such a complex phenomenon as evolution of gene expression in multicellular organisms. A versatile approach like this gives the only hope of progress in this field and is a welcome contrast to the common attempts to propose one approach claimed to be best for all purposes.

Authors' response: We appreciate the reviewer positive comment. Taking a more familiar example of distances between biological sequences, we know that those can be roughly estimated even without an explicit model of sequence evolution, but it is also known that, as sequences diverge, the error of the estimate becomes more and more significant. Similarly, the ultimate goal in gene expression analysis is to have an evolutionary model for gene expression. Short of that, the divergence between expression profiles can be estimated with appropriate distance measures.

Reviewer 3: Subhajyoti De (nominated by Sarah Teichmann), Computational Biology Program, Memorial Sloan-Kettering Cancer Center

In the paper entitled "Measuring gene expression divergence: the distance to keep", Glazko and Mushegian present a discussion about which distance measure to use in inter-species expression divergence analyses. While the topic is of broad interest, I have some comments

1. How were the transcripts with multiple probes treated? How were the probes that map to multiple genes treated?

Authors' response: Raw data preprocessing step is described in the Method section.

If a gene had multiple transcripts, how did the authors choose the representative transcript?

Authors' response: Affymetrix Human hgu133a and Rat rgu34a arrays do not provide information about multiple transcripts.

Why no between-array normalization was performed for rat samples?

Authors' response: RMA procedure was implemented for both human and rat arrays.

2. The distributions of Euclidean distance and correlation-based distance for pairs of randomly chosen gene pairs differ in their shapes. Can the authors discuss this issue and also how that may affect their comparative analysis and tree-building?

Authors' response: This is exactly the point of the presented paper. Not only the distributions between randomly chosen gene pairs are different, but also the distributions between orthologous gene pairs are different for all distance measures that we tried. As we have shown in the paper, this difference most certainly may have an effect on the analysis, and the kind of effect depends on the type of the analysis, i.e., on the biological question that is asked.

3. In the recent releases of Ensembl, there are about 14,000 one-to-one orthologs. The authors present results based on 3152 genes. It remains to be clear why the dataset analyzed is so small and whether the conclusions made in this paper can be extended to the whole genome dataset.

Authors' response: hgu133a and rgu34a arrays contain 22283 and 8799 probe sets, respectively. After mapping them to unique genes, only 4939 genes for rat were left. The conclusions made in this paper refer to the distance properties and hardly depend on the number of the orthologs studied.

4. In Figure 1 it is not clear how the tree was drawn (e.g. Neighbour joining, Maximum likelihood) and how that method may affect the tree structure. Furthermore, the authors should perform bootstrapping to assess the quality of the trees.

Authors' response: We used average-link clustering for tree inference. As we were interested in how different distance measures affect the tree structure, we applied the same clustering approach to each distance matrix. Different clustering approach may indeed produce trees with different topologies, but we expect that the effect of varying distance measure would be observed in any clustering algorithm. As for the support of the trees, we expect it to be relatively low given the sample size and the amount of replicates, and our focus here is on the qualitative estimate of how different distances perform in the problem of tissues clustering.

5. In Figure 2 the histogram bars corresponding to orthologus and random gene pairs should be provided side-by-side. In its current form, it is hard to interpret how the distributions of orthologus gene-pairs differ from the random pairs.

Authors' response: We think that bar plots with stacked columns demonstrate the difference between these distributions quite clearly.

6. In Figure 3, y-axis label is missing. Why skeletal muscle shows high Euclidian and correlation distance that is significantly above other tissue-types (as seen by boxplot) and the trend is consistent in all the four panels? Is it an array normalization artifact or a biologically meaningful pattern?

Authors' response: We labeled y-axis in Figure 3. The meaning of the pattern observed in Figure 3, we believe, is that genes selected using the Euclidean distance tend to be expressed in all tissues at the uniformly low level (close to the background), while genes selected using correlation-based distance tend to be expressed in several orthologous tissues at a higher level.

1. The Ensembl Release version is not provided.

Authors' response: The release version is now included.

2. GO has many functional categories organized in a hierarchical structure. It is unclear which level of GO hierarchy was used in the current analysis.

Authors' response: The levels were chosen based on the significant P-values provided by the enrichment test, and therefore the categories from different levels of the hierarchy could be reported.

3. Table S1 and S2 carry insufficient detail about the methodology involved and the message they convey. For instance, it is unclear whether the over-represented GO categories in Table S1 arise from analysis on heart tissue? How is the p-value calculated?

Authors' response: We now provide more comprehensive description of Tables S1 and S2 in Additional file 4. We first identified orthologous gene pairs with expression profiles conserved at the 1% significance level, using different distances. For these gene pairs we implemented GO enrichment analysis. Genes identified using correlation-based distance, binary correlation distance, and GA distances shared 15 overrepresented GO categories (Table S1), whereas genes identified using the Euclidean distance were from completely different GO categories (Table S2). This was the lesson learned from the analysis, i.e., that different distances select functionally different conserved orthologous gene pairs. The over-represented GO categories in Table S1 arise from the genes expressed in all tissues and identified as conserved by three different distances. P-values were calculated by hypergeometric test using the GOstat module from Bioconductor.

4. In Figure S3, in each panel, the outliers cross the whisker and also appear to be shifted. Please revise the figure. Also please adjust the y-axis scale in the two bottom panels to make the figures easier to visualize.

Authors' response: In R implementation, whiskers extend to 1.5*IQR but the parameters can be adjusted so that outliers are not displayed at all. The message of Figure S3 is that genes with high entropy are not 'genes with a conserved uniform pattern of expression'.


Procrastination Essential Reads

6 Ways to Combat Procrastination for Adults With ADHD

Why We Procrastinate

In light of the evidence that goal-management ability may be a central underlying problem for both procrastination and impulsivity, executive functions may also be predictive of individual differences in both of these traits, especially at the genetic level (S. 9).

I couldn’t agree more, and I’m confident that findings of future twin studies that include measures of executive function and conscientiousness will take the emphasis off of the risk factor of impulsivity alone in an understanding of the evolutionary etiology of procrastination. In fact, impulsivity can be seen as a failure of executive function, particularly a key function commonly labeled inhibition.

As with all complex behaviors, procrastination does not have a single causal factor such as impulsivity. There are both risk and resilience factors, each of which is partially explained by genetic variation. Of course, this nuanced answer is not such an appealing message for a media headline where we simply want to say “you inherited your procrastination!” We’re eager to read an article that explains our procrastination today as a by-product of human evolutionary history. Doesn’t it feel great to blame it our genes and evolutionary history? It’s only human after all.

Of course procrastination is only human. Ich stimme zu. I also agree that impulsivity“a bird in the hand”may have paid off for our ancestors leading to a selection for this trait, but so did conscientiousness, that planful, organized approach to life. That’s why we see substantial heritability for this trait as well.

So, before you impulsively (pardon the pun) blame your genes and human evolutionary history for your procrastination and find yet another excuse for justifying needless, self-defeating delay, take a moment to put these new truth claims in the context of your other traits and abilities that show substantial genetic contributions. And, perhaps most importantly, remember that the genetic contributions amount to half of the variability in these traits. The rest is that “nature via nurture” dance where environment makes a great deal of difference. How will you nurture your goal-management ability and better inhibit that only too human desire to impulsively give in to feel good now?

Gustavson, D., Miyake, A., Hewitt, J., & Friedman, N. (2014). Genetic relations among procrastination, impulsivity, and goal-management ability: Implications for the evolutionary origin of procrastination. Psychologische Wissenschaft. DOI: 10.1177/0956797614526260