Information

Wie finde ich eine vollständige menschliche Genomdatei?

Wie finde ich eine vollständige menschliche Genomdatei?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ich versuche herauszufinden, wie ich eine Datei herunterladen kann, die die vollständige menschliche DNA-Sequenz darstellt. Das Format ist mir egal - ich kann C++-Code schreiben, um ihn zu analysieren. FASTA scheint jedoch ein einfaches Format zu sein. Was ich noch nicht herausgefunden habe, ist, wo ich eine vollständige Datei finden kann - ich habe gefunden, was Teilmengen von Genen oder anderen Sequenzen oder einzelnen Chromosomen zu sein scheinen, aber gibt es nicht 46 Chromosomen, die eingeschlossen werden müssen oder sind einige dieser Duplikate (dh 22 Chromosomen + 2 Geschlechtschromosomen)?

Auf dieser Seite habe ich diese Liste von Dateien unter "Mensch > Genom-Assembly: GRCh38" gefunden, aber sie scheint nach Chromosomen oder so aufgebrochen zu sein? Wenn ja, würde ich diese zusammenführen? Mein Ziel ist es, alle Buchstaben per Beamer an einer Wand anzuzeigen und ich möchte darauf zeigen und jemandem sagen können, dass das die gesamte DNA für einen Menschen ist (keine Teilmenge). Um es noch einmal zu überprüfen, ist es eine "Genom-Assembly", die ich möchte, oder? Allelvarianten sind mir im Moment übrigens egal.

Bitte bedenken Sie in Ihrer Antwort, dass ich mit vielen Fachbegriffen nicht vertraut bin, danke.


Das National Center for Biotechnology Information hat einen Link zu einer Genom-FTP-Site – auf dieser Seite befindet sich eine Datei mit der Bezeichnung … /genomes/H_sapiens (dies ist ein direkter Link zu diesem Verzeichnis).

Darin befinden sich zahlreiche Dateien. Aus der README-Datei:

Sequenzdaten umfassen Chromosomen, Contigs, RNAs und Proteine, die durch die Projekte NCBI Reference Sequence und NCBI Genome Annotation generiert wurden. Hier werden auch Kartendaten bereitgestellt, die in der Map Viewer-Ressource angezeigt werden.


Nicht-Biologe hier, der eingreift.

@swbarnes2 hat einen guten Punkt, der die Tatsache festhält, dass (ungefähr) 3Giga-Nukleotide "an einer Wand" (wie Sie sagen) selbst mit einem guten Projektor anzuzeigen, eine schwierige Aufgabe sein wird. Du brauchst mehrere Projektoren und eine verdammt große Wand. (Angenommen, Sie nehmen die kleinste lesbare Polizeieinstellung, jeder Buchstabe nimmt einen Platz von 4 * 6 Pixeln ein, was für das Ganze zu ~[227k x 342k] Pixeln führt, also etwa 35k HD-Projektoren)

Was mich dazu brachte, darüber nachzudenken, warum Sie so etwas tun wollen. Die plausibelste davon ist: Es dient einer künstlerischen/kulturellen Absicht. In einem solchen Fall empfehle ich, anstatt Buchstaben (ATGC) anzuzeigen, sie binär (00,01,10,11) zu codieren und diesen Wertcode für ein farbiges Pixel zu erstellen.

Dadurch erhalten Sie eine quadratische Matrix mit einer Kante von etwa 57.000 Pixeln (die riesig bleibt) aus in 4 Tönen schattierten schwarzen bis weißen Punkten.

Wenn Sie noch weiter gehen möchten, ist Trichromie die Rettung, machen Sie nicht Pixelcodes für jeweils nur ein Nukleotid. Machen Sie sie für jeweils ein "Pseudo-Codon" (Triplett) kodieren. Erstes Nukleotid definiert den Rotton, Zweites Nukleotid definiert den Grünton, letztes Nukleotid definiert den Blauton. (einfaches und einfaches RGB-Zeug mit additiver Farbe).

-BEARBEITEN- In dem Wissen, dass der Begriff des Codons ungültig ist und dass jedes Nukleotid (außer der führenden und der letzten 2 jedes Chromosoms) Teil von drei verschiedenen Codons sein könnte (je nachdem, ob sie sich in einem Intron, Exon oder sogar alternativ gespleißt befinden) Sehen Sie, dass diese Gruppierung durch 3 nicht SO richtig ist.

Warum nehmen Sie sich in einem solchen Fall nicht noch mehr Freiheiten? Gruppieren Sie Ihre Nukleotide nach 12 (3 Gruppen von 4), um mehr Tiefen in den Farbtönen zu erhalten.

-ENDE DES BEARBEITETEN ABSCHNITT-

Sie erhalten eine viel schönere und deutlich kleinere Matrix von [30k x 30k] (was immer noch eine große Wand und ein paar HD-Projektoren erfordert ~150, aber an dieser Stelle können Sie die Ausgabe mit mehreren Methoden komprimieren und zusammenführen Pixel, aber 150 sind weit weniger als 35000).

Ich weiß, dass ich keine tatsächlichen Lösungen für die gestellte Frage mitbringe (aber ich denke wirklich, dass @Omen es ziemlich gut gemacht hat), aber ich habe gespürt, dass es hier vielleicht einen Einblick gibt, der es wert ist, weitergegeben zu werden (auf die Gefahr hin, mich selbst zum Narren zu halten).


aber sind da nicht 46 Chromosomen oder sind einige dieser Duplikate?

Zunächst einmal hat jede Person 2 Kopien jedes Chromosoms, diese Kopien sind jedoch zu 99% identisch. Es wäre also eine Verschwendung, das Ganze zweimal zu wiederholen.

Zweitens ist es aufgrund der Technologie nicht einfach, beispielsweise die gesamte Sequenz eines Chromosoms zu generieren, das von ihrer Mutter stammt. Sie erhalten entweder Sanger-Traces, die die beiden Sequenzen übereinander zeigen, oder sehr kurze Reads, die nicht gemischt sind, aber Sie können nicht sagen, welcher Elternteil welches Fragment generiert hat.

Im Allgemeinen hat ein Referenzgenom also an jeder Position nur einen Konsensbuchstaben, auch wenn dies biologisch nicht realistisch ist. Es spielt keine große Rolle, was die Referenz ist, solange jeder weiß, dass es nur eine Referenz ist.

Mein Ziel ist es, alle Buchstaben per Beamer an einer Wand anzuzeigen und ich möchte darauf zeigen und jemandem sagen können, dass das die gesamte DNA für einen Menschen ist (keine Teilmenge).

Kann man wirklich so 3 Milliarden Zeichen anzeigen?


Wenn ich Ihre Frage richtig verstehe, möchten Sie eine einzelne Datei, also einen einzelnen String, der die Sequenz eines gesamten menschlichen Genoms darstellt. Allerdings gibt es so etwas nicht. Das menschliche Genom ist in 46 verschiedenen Strängen (Chromosom) gespeichert, und diese Stränge haben keine natürliche ordnung.

Die Nummern zur Bezeichnung der Genome basieren auf ihrer Reihenfolge, wenn sie nach Größe geordnet sind.

Alle Operationen am Genom (wie das Kopieren vor der Mitose) erfolgen parallel, wobei die Proteine ​​auf jedem Chromosom einzeln operieren.

Wenn Sie ein ganzes menschliches Genom "ehrlich" darstellen möchten, würde ich sagen, dass es am besten ist, 46 separate Strings auf den Projektor zu legen, die vielleicht parallel zueinander verlaufen, wie der Code in der Matrix.

Wenn Sie einen großen langen String anzeigen möchten, ist jede Verkettungssequenz genauso (falsch) wie jede andere, also öffnen Sie einfach die Dateien in alphabetischer Reihenfolge und verketten Sie sie alle.


Wenn Sie alle Sequenzen zu einer einzigen Sequenz zusammenführen möchten, laden Sie die Sequenz aller Chromosomen herunter und verketten Sie sie. Einfacher Befehl dafür, wenn Sie Linux verwenden:

grep -v ">" chromosom*.fa > gesamtes_genome.txt

Jetzt ist es sinnvoll, das Genom chromosomal zu trennen, da es keine physikalische Verbindung zwischen einem Chromosom und dem anderen gibt. Darüber hinaus gibt es viele Reihenfolgen, in denen Sie die Chromosomen miteinander verketten können, was Ihnen23!Anzahl der Genomsequenzen.

Nun sollten Sie beachten, dass all dies zu schwerwiegenden Fehlern führen kann, wenn Sie versuchen, den genomischen Kontext eines beliebigen Gens zu untersuchen. Gehen Sie also besser chromosomal vor.

Wenn ich Sie falsch interpretiert habe und Sie meinten, alle Chromosomen-Fasta-Sequenzen in einer einzigen Datei zu haben, die Sequenzen jedoch nicht zusammenzuführen, dann ist dies ein ziemlich einfacher Befehl.

Katzenchromosom*.fa > genom.fa

Was Sie jetzt herunterladen, ist eine Referenzsequenz. Sie müssen Varianten usw. für Ihre Daten finden, indem Sie Ihre Ausrichtungsparameter kontrollieren.

Und ich verstehe wirklich nicht, warum du es an die Wand projizieren willst. Es gibt einfachere und bessere Möglichkeiten, das Genom zu analysieren.


Humangenom - Beispiel einer Fallstudie

Ein Gen ist ein DNA-Molekülsegment, das der Kodierung für ein vollständiges Protein entspricht. 23 verschiedene Arten von DNA-Molekülen oder Chromosomen bilden das gesamte menschliche Genom. Anders ausgedrückt, das Genom einer Spezies ist der gesamte Chromosomensatz, der diese Spezies ausmacht, und das menschliche Genom ist der Chromosomensatz, der zusammen die menschliche Spezies definiert. Genomik wiederum ist die Untersuchung des menschlichen Genoms und die Definition von Genomen im Allgemeinen im Hinblick auf die Fähigkeit, die genomische Zusammensetzung von Arten vollständig zu beschreiben und wie sich die genomischen Merkmale in Artenmerkmale wie Physiologie und die Verwundbarkeit bestimmter Mitglieder übersetzen der Art auf bestimmte Bedingungen und Krankheiten (Center for Biomolecular Science and Engineering 2014 Little et al.

2003 Naturpädagogik 2013). Genetik bezieht sich im Allgemeinen auf die wissenschaftliche Untersuchung von Unterschieden in Genen, die von den Eltern auf die Nachkommen vererbt wurden, und die Humangenetik ist diese auf die menschliche Spezies gerichtete Studie (National Center for Biotechnology Information 2007 Saha 1998 New York State 2011 The 1000 Genomes Project Consortium 2012 Jha 2012 Centers for Disease Control and Prevention 2013 Wadhwa 2014). Genetische Variation ist einfach die Variation in der genetischen Ausstattung des Menschen.

Variationen sollen im Verhältnis zum Gesamtgenom der gesamten Menschheit gering sein, wobei Variationen zwischen zwei beliebigen Menschen nur 01. Prozent ihrer gesamten Basenpaare ausmachen. Auch bei den Populationen ist die genetische Variation sehr gering und liegt unterhalb derjenigen, die Völker verschiedener Rassen als Unterarten klassifizieren würde, was darauf hindeutet, dass die Weltbevölkerung nur ein einziger kontinuierlicher genetischer Pool ist, der sich im Laufe der Zeit kreuzt. Andererseits ist ein kleiner Teil der genetischen Variationen beim Menschen insofern bedeutsam, als sie den Menschen entweder Vorteile gegenüber ihrer Umwelt verleihen oder aber manche Menschen für verschiedene Arten von Krankheiten prädisponieren.

Genetische Variation ist beispielsweise für Menschen von Vorteil, die es ihnen aufgrund einer genetischen Variation ermöglichen, Malaria-Plagen in einer Umgebung zu widerstehen, und einige Menschen besser widerstandsfähiger gegen eine Infektion mit dem AIDS-Virus machen. Neuere Studien bringen zum Beispiel auch die historische Resistenz gegen das pestverursachende Bakterium mit einer Genmutation in Verbindung, die derzeit auch Menschen mit der genetischen Variation vor den Folgen von AIDS und seinen Komplikationen zu schützen scheint. Frühe medizinische und wissenschaftliche Literatur dazu haben darauf hingewiesen, dass es Einzelgenvariationen gibt, die ursächlich mit der Entstehung bestimmter Krankheiten beim Menschen verbunden sind, darunter Mukoviszidose und Sichelzellanämie sowie die Huntington-Krankheit.

Andererseits werden mit fortschreitender Forschung die genetischen Variationsgrundlagen einer Reihe anderer chronischer und hartnäckiger moderner Krankheiten, von psychischen Erkrankungen wie bipolare Störung und Schizophrenie bis hin zu Krebs, Diabetes und Herz-Kreislauf-Erkrankungen, etabliert. Während die Forschung auch voranschreitet, wird immer deutlicher, dass eine Vielzahl anderer Krankheiten nicht nur eine Grundlage in der genetischen Variation oder nur in einer Reihe von Umweltbedingungen haben, sondern dass es verschiedene genetische Variationen in Kombination mit verschiedenen Umweltbeschränkungen gibt, die zusammen kann zu Krankheiten führen.


Ihr Genom besteht aus 3 Milliarden Buchstaben, die 3 Billionen Zellen für 3 Milliarden Sekunden antreiben. Warum diese Computeranalyse und nicht das? Was habe ich gerade gefunden? Wen interessiert das? Unbekannter Anrufer aus Stockholm um 3 Uhr morgens?

Wir werden Sie in verschiedene Aspekte von Genomdaten einführen, z. B. wie sie aussehen, wie man sie erhält und was einige der interessantesten (und weniger) interessantesten Dinge sind, die Sie damit machen können.

Klasse beinhaltet:
Teileliste des menschlichen Genoms, Teileliste des COVID-19-Genoms, Technologien zur Genomsequenzierung und ein Vorgeschmack auf die drei Hauptkräfte des Lebens, neutrale, negative und positive Selektion, über: Populationsgenomik und Vaterschaftstests Medizinische KI-(Krankheits-)Genomik ( wo Sie wirklich kranken Kindern von Ihrer Tastatur aus helfen könnten) und vergleichende (evolutionäre) Genomik (Fledermäuse, Katzen, Ratten, Mücken, SARS-CoV-2). Und vielleicht eine Prise Kryptogenomik und genomische Privatsphäre.

Holen Sie sich einen Vorgeschmack auf maschinelles Lernen, Verarbeitung natürlicher Sprache, Kryptographie und sogar Genomik im Dienste der Menschheit.

Hintergrund in Biologie, ML oder NLP rein optional. Weitere Informationen finden Sie auf der Seite zum Erkunden der Klasse.

Alle Kursmaterialien werden über diese Website und Piazza verfügbar sein, nicht über Canvas.

CS106 oder gleichwertig (auch bekannt als Programmiererfahrung in einer beliebigen Sprache)
Beispiel: String aus einer Datei lesen, einige Muster darin zählen, Anzahl drucken (siehe unten verlinkte Tutorials aus früheren Angeboten).

Dieser Kurs ist als DBIO273A und BIOMEDIN273A kreuzgelistet. Schreiben Sie an Gill, wenn Sie helfen möchten, es an anderer Stelle aufzulisten.

Montag und Mittwoch 11:30-12:50 Uhr.

Der Kurs wird komplett online abgehalten.
Link für Zoom
Es findet keine Anwesenheit statt, aber die Vorlesungen werden nicht aufgezeichnet.

Als Stanford-Student hast du auch kostenlos Zugang zu vielen biomedizinischen Zeitschriften. Um von außerhalb des Campus auf alle biomedizinischen Ressourcen zuzugreifen, für die Stanford bezahlt, können Sie eine Browsererweiterung und eine Verknüpfung installieren, die es Ihnen ermöglicht, mit Ihrer SUNetID direkt nach Lane Library Online-Ressourcen zu suchen und darauf zuzugreifen. Viele der Begriffe, die wir lehren, sind auch in Wikipedia gut definiert.

Die gesamte Kurskommunikation wird über Piazza abgewickelt. Sie können sich über diesen Link (unsere Kursseite) anmelden. Kursankündigungen und andere private Kursressourcen werden über Piazza kommuniziert.

Wirtschaftsprüfer sind willkommen. Bitte melden Sie sich auch bei Piazza an. Senden Sie uns eine E-Mail, wenn Sie in den Klassenverteiler aufgenommen werden möchten.

Gill Bejerano
Büro: Via Zoom
Sprechzeiten: E-Mail für Terminvereinbarung
Telefon: (650) 723-7666
Email:

Bo Yoo
Büro: N/A
Sprechzeiten: Kein OH während der Prüfung
Email:

Es gibt vier Hausaufgaben (Programmier- und Konzeptfragen) und eine Abschlussprüfung zum Mitnehmen. Jede Hausaufgabe beträgt 15% Ihrer Abschlussnote und die Abschlussprüfung 40% Ihrer Abschlussnote.

Alle Codes müssen auf Stanford-Studentencomputern (d. h. Kardinal, Mythos oder Reis) ausführbar sein. Jupyter Notebooks sind für Hausaufgaben 4 und die Abschlussprüfung erlaubt. Fügen Sie in Ihre README-Datei ein, wie Sie Ihren Code ausführen, und alle Ihre Codes müssen ohne Benutzermodifikation ausgeführt werden können (z über die Befehlszeile. Alle Dateien müssen entsprechend benannt werden und Ihre gesendete ZIP-Datei muss Ihren Namen enthalten. Seien Sie so detailliert wie möglich, um sicherzustellen, dass Sie alle Punkte erhalten.

Wenn Sie beim Office of Accessible Education (OAE) gemeldet sind, senden Sie bitte zu Beginn des Quartals den Unterkunftsbrief per E-Mail an die E-Mail des Klassenpersonals ().

Alle Hausaufgaben sind Einzelaufgaben und Sie dürfen nicht in einer Gruppe arbeiten. Sie dürfen Ideen diskutieren und die endgültigen numerischen Ausgaben vergleichen (z. B. Anzahl der Zeilen in einer Datei), aber kein Teil Ihres endgültigen Codes kann mit anderen Schülern geteilt werden. In Ihrem eingereichten Schreiben (z. B. README) müssen Sie die Namen Ihrer Mitarbeiter vermerken. Sie dürfen keinen Teil Ihrer Einreichungen miteinander teilen, bis die Noten zurückgegeben werden. Wir nehmen Verstöße gegen den Ehrenkodex ernst. Verstöße werden dem Office of Community Standards gemeldet.

Wir können Fehler machen, wenn wir Ihre Hausaufgaben benoten. Wenn Sie einen finden, senden Sie bitte eine E-Mail an, um eine Neubewertung anzufordern. Wir werden Ihre gesamten Hausaufgaben neu bewerten und Ihre Note kann dadurch steigen oder fallen. Nach der Notenrückgabe können Sie Ihre Hausaufgaben nicht wiederholen. Wir akzeptieren keine weiteren Einsendungen, nachdem die Noten verschickt wurden.

Take-Home-Prüfung muss unabhängig durchgeführt werden. Sie dürfen mit niemandem darüber diskutieren.


Das offene menschliche Genom, zwanzig Jahre später

Am 26. Juni 2000 wurde der “Arbeitsentwurf” der menschlichen Genomsequenz angekündigt zu großer Fanfare. Die Verfügbarkeit wurde fortgesetzt revolutionieren die biomedizinische Forschung . Aber dieses ikonische Ereignis, das heute vor zwanzig Jahren stattfindet, ist auch ein Bezugspunkt für den Wert und die Kraft der Offenheit und ihrer Entwicklung.

Das erste Megaprojekt der Biologie

Bereits 1953 wurde entdeckt, dass die DNA das genetische Material des Lebens ist. Jede Zelle jedes Organismus enthält eine Kopie ihres Genoms, eine lange Sequenz von DNA-Buchstaben, die eine vollständige Anleitung für diesen Organismus enthält. Das erste Genom eines frei lebenden Organismus – ein Bakterium – wurde erst 1995 bestimmt und enthielt etwas mehr als eine halbe Million Buchstaben. Zu dieser Zeit bestimmten Sequenzierungsmaschinen 500 Buchstabenfragmente, 100 auf einmal, wobei jeder Lauf Stunden dauerte. Da das menschliche Genom etwa drei Milliarden Buchstaben enthält, war die Sequenzierung ein ganz anderer Vorschlag, der in der Größenordnung von drei Milliarden Dollar kostete.

Ein gemeinsames internationales Unterfangen und ein Kampf um Offenheit

Es wurde durch eine riesige gemeinsame Anstrengung von Tausenden von Wissenschaftlern auf der ganzen Welt in vielen Phasen über viele Jahre hinweg sequenziert. Die Ankündigung vom 26. Juni 2000 war nur ein Entwurf – aber immer noch ausreichend vollständig, um als Ganzes analysiert zu werden. Wissenschaftliche Artikel, in denen es beschrieben wurde, würden erst in einem weiteren Jahr veröffentlicht, aber die Rohdaten waren vollständig offen und für alle frei verfügbar.

Dies war möglicherweise nicht der Fall, da einige kommerzielle Kräfte, die den Wert des Genoms erkannten, versuchten, die staatliche Finanzierung in den USA einzustellen und den Zugang zu privatisieren. Die Offenheit setzte sich jedoch durch, vor allem dank der Unabhängigkeit und Finanzkraft von Wellcome (die ein Drittel der Sequenzierung am Wellcome Sanger Institute bezahlte) und dem Engagement der US National Institutes of Health. Die Daten für jedes DNA-Fragment wurden nur 24 Stunden nach der Sequenzierung im Internet veröffentlicht, wobei das gesamte Genom über Websites wie Ensembl zugänglich war.

Offenheit für Daten, Offenheit für Publikationen

Wissenschaftler veröffentlichen. Andere Wissenschaftler versuchen, auf ihrer Arbeit aufzubauen. Da die Wissenschaft jedoch immer datenreicher geworden ist, ist der Zugang zu den Daten genauso wichtig wie die Veröffentlichung. In der Biologie gab es lange vor Genomen Bemühungen von Wissenschaftlern, Geldgebern und Herausgebern, die Veröffentlichung mit der Datenablage in öffentlichen Datenbanken zu verknüpfen, die von Organisationen wie EBI und NCBI gehostet werden. Die Veröffentlichung kann jedoch Jahre dauern und wenn ein Förderer einen großen Zuschuss für die Datengenerierung gewährt hat, muss die Forschungsgemeinschaft bis dahin warten?

Die Human Genome Sequence war mit ihrem 24-Stunden-Datenfreigabemodell an der Spitze der “Pre-Publikation”-Datenfreigabe in der Biologie. Anfänglich wurde das menschliche Genom als Sonderfall betrachtet – Wissenschaftler befürchteten, dass ungeprüfte Rohdaten an alle weitergegeben werden oder dass andere sie zur Veröffentlichung bringen könnten, wenn eine solche Datenfreigabe allgemein wird –, aber allmählich setzte sich die Idee durch. Datensatzgeneratoren haben festgestellt, dass Transparenz für sie im Allgemeinen von Vorteil war und dass die Überprüfung der Rohdaten durch die Gemeinschaft es ermöglicht hat, Fehler früher zu erkennen und zu korrigieren. Die Veröffentlichung von Daten vor der Veröffentlichung ist inzwischen gut etabliert, da Geldgeber für die Datengenerierung bezahlen, die als Gemeinschaftsressource wertvoll ist, einschließlich der meisten genombezogenen Projekte. Und sobald Sie Open-Access-Daten haben, kommen Sie nicht umhin, auch über Open-Access-Publikationen nachzudenken. Die Bewegung, das Geschäftsmodell des akademischen Verlagswesens auf Open Access umzustellen, geht auf die 1990er Jahre zurück, aber lange bevor Open Access von Geldgebern und Regierungen vorgeschrieben wurde, wurde es zur Norm für genombezogene Veröffentlichungen.

Big Data kommt in die Biologie und zwingt sie, schnell erwachsen zu werden

Nur wenige haben erwartet, dass das menschliche Genom so schnell sequenziert wird. Noch weniger erwarteten, dass der Preis für eine Sequenzierung heute auf unter 1000 US-Dollar gefallen wäre oder nur 24 Stunden auf einer einzigen Maschine dauern würde. Die Sequenzierungstechnologie der “Next Generation” hat in weniger als 20 Jahren zu millionenfachen Preissenkungen und ähnlichen Leistungssteigerungen pro Maschine geführt. Dies ist die schnellste Verbesserung aller Technologien und übertrifft die Verbesserungen im Computerbereich im gleichen Zeitraum bei weitem. Dabei wurden die Genome von Zehntausenden verschiedener Organismen sequenziert. Darüber hinaus hat die Veränderung von Leistung und Preis die Sequenzierung zu einem Arbeitspferd in der gesamten biologischen und biomedizinischen Forschung gemacht – jede Zelle eines Organismus hat eine identische Kopie ihres Genoms, aber jede Zelle (37 Billionen in jedem Menschen) tut möglicherweise etwas anderes , die auch durch Sequenzierung erfasst werden können. Öffentliche Datenbanken füllen sich daher mit Sequenzdaten, deren Größe sich alle sechs Monate verdoppelt, während Wissenschaftler untersuchen, wie Organismen funktionieren. Sequenz ist nicht der einzige biologische Datentyp, der in großem Maßstab gesammelt wird, aber sie war der Antrieb dafür, die Biologie zu einer Big-Data-Wissenschaft zu machen.

Genomik und Medizin, Offenheit und Privatsphäre

Das Genom jedes Individuums ist etwas anders und einige dieser Unterschiede können Krankheiten verursachen. Klinische Genetiker testen seit mehr als zwanzig Jahren einzelne Gene von Patienten, um die Ursache seltener Krankheiten zu finden, aber die Sequenzierung des gesamten Genoms, um die Jagd zu vereinfachen, ist jetzt erschwinglich und praktisch. Im Moment reicht unser Verständnis des Genoms nur aus, um die klinische Versorgung für eine kleine Anzahl von Erkrankungen zu informieren, aber es reicht für den britischen NHS bereits aus, die Sequenzierung des gesamten Genoms als Teil des neuen Genome Medicine Service einzuführen, nachdem dies in das 100.000 Genome-Projekt. Es ist das erste nationale Gesundheitssystem der Welt, das dies tut.

Inwieweit könnte Ihre Gesundheitsversorgung durch die Analyse Ihres Genoms personalisiert und verbessert werden? Im Moment liegt ein dringender Fokus darauf, ob Genomunterschiede die Schwere von COVID-19-Infektionen beeinflussen. Letztendlich hängt das Verständnis der Funktionsweise des menschlichen Genoms und der Auswirkungen von DNA-Unterschieden auf die Gesundheit von der Erforschung des Genoms einer großen Anzahl von Personen zusammen mit ihren Krankenakten ab. Im Gegensatz zum ursprünglichen menschlichen Referenzgenom handelt es sich hierbei nicht um offene Daten, sondern um hochsensible, private, personenbezogene Daten.

Die Herausforderung besteht darin, Systeme zu entwickeln, die Forschung ermöglichen, aber von Einzelpersonen so viel Vertrauen genießen, dass sie der Verwendung ihrer Daten zustimmen. Für das 100.000-Genome-Projekt wurde in Absprache mit den Teilnehmern eine Forschungsumgebung entwickelt, die als Lesebibliothek fungiert – Forscher können in einer sicheren Umgebung komplexe Analysen anonymisierter Daten durchführen, aber keine Einzeldaten herausnehmen. Sie beschränken sich auf die statistischen Zusammenfassungen ihrer Forschungsergebnisse. Dieses Trusted Research Environment-Modell wird nun auf andere Quellen sensibler Gesundheitsdaten untersucht.

Die Open-Data-Bewegung hat in zwanzig Jahren einen langen Weg zurückgelegt und zeigt die Vorteile der organisatorischen Transparenz, die sich aus dem Datenaustausch ergibt, und den Möglichkeiten, die sich aus der Datenwiederverwendung ergeben, für die Gesellschaft. Die Referenzsequenz des menschlichen Genoms als öffentliches Gut war Teil dieser Reise. Allerdings können nicht alle Daten offen sein, auch wenn ihre Analysefähigkeit für die Gesellschaft von großem Wert ist. Wenn wir von der Analyse privater Daten profitieren wollen, müssen wir einen Mittelweg finden, der einige Stärken der Offenheit bewahrt, wie den Austausch von Analysetools und zusammenfassenden Ergebnissen, während wir uns gleichzeitig an eingeschränkte Analyseumgebungen anpassen, die die Privatsphäre ausreichend schützen, um die Personen, deren Daten es sind.

• Professor Tim Hubbard ist Vorstandsmitglied der Open Knowledge Foundation und war einer der Organisatoren der Sequenzierung des menschlichen Genoms.


Schlussfolgerungen

Gegenwärtig ermöglichen vorhergesagte Transkript-Arrays die Entdeckung der meisten Protein-kodierenden Gene im gesamten Genom, wenn viele verschiedene Bedingungen berücksichtigt werden. Bis die Entdeckung und Charakterisierung dieser proteinkodierenden Gene abgeschlossen ist, wird diese Methode weiterhin eine kostengünstige Lösung sein, um eine solche Entdeckung voranzutreiben. Im Gegensatz dazu stellt genomisches Tiling eine völlig unvoreingenommene Methode zur Überwachung der Transkriptionsaktivität in Genomen dar, wird jedoch aus Kostengründen wahrscheinlich auf das Screening einer kleineren Anzahl von Bedingungen beschränkt sein. Da jedoch aus den Tiling-Daten neue Transkriptionsregionen identifiziert werden, können diese Regionen auf vorhergesagten Transkript-Arrays dargestellt werden, die über viele weitere Bedingungen hybridisiert sind, wie in Abbildung 1 beschrieben. Mit der Weiterentwicklung der Microarray-Technologien ist es jetzt . das Tiling des gesamten menschlichen Genoms möglich, wobei solche Bemühungen derzeit durch das Projekt ENCODE (Encyclopedia of DNA Elements) des National Human Genome Research Institute (NHGRI) unterstützt werden [41].

Wir glauben, dass die hier unternommenen Schritte notwendig sind, um alle potentiellen Transkriptionsaktivitäten im Genom abzufragen, um neue Gene zu identifizieren, vorhandene Gene vollständiger zu charakterisieren und einen umfassenderen Satz von Sonden für diese Gene zu identifizieren, die zur Überwachung der Transkription verwendet werden können Häufigkeiten in Standard-Genexpressionsstudien. Nicht alle Anwendungen von Microarrays erfordern eine umfassende Darstellung von Sonden für alle Gene im untersuchten Genom. Experimente, die versuchen, die Haupttreiber von Signalwegen zu identifizieren [42] oder zwischen alternativen Spleißformen von Genen innerhalb eines bestimmten Gewebes zu unterscheiden [21], erfordern jedoch einen umfassenderen Satz von Arrays, um den Erfolg sicherzustellen. Diese Daten stellen einen wesentlichen ersten Schritt dar, um einen umfassenden Satz von Arrays zu generieren, die auf experimenteller Unterstützung in Kombination mit computergestützter Annotation basieren, anstatt sich ausschließlich auf letztere zu verlassen. Diese umfassenden Arrays werden von unschätzbarem Wert sein, wenn wir versuchen, die Wirkmechanismen für bestehende und neue Wirkstoffziele besser zu verstehen und Wege aufzuklären, die komplexen Krankheiten zugrunde liegen. Darüber hinaus wird die weitere Untersuchung der umfangreichen nichtkodierenden RNA, die mit den hier und an anderer Stelle beschriebenen Methoden [10, 12, 15, 16] identifiziert wurde, wahrscheinlich neue Gebiete der Biologie eröffnen, da die funktionellen Rollen für diese Einheiten bestimmt werden.


WISSENSCHAFTLICHE LEHRTHEMEN

Aktives Lernen

Die Studierenden beteiligen sich zu Beginn des Labors an Think-Pair-Share-Diskussionen, um ihr Wissen über wissenschaftliche Datenbanken einzuschätzen. Nach der Laborsitzung diskutiert die ganze Klasse die Ergebnisse ihrer bioinformatischen Exploration.

Bewertung

Vorabbewertung: In Kleingruppendiskussionen und dem Austausch mit der Klasse beschreiben die Schüler, was sie ihrer Meinung nach über einen bestimmten SNP basierend auf bioinformatischen Ansätzen entdecken können.

Abtretung: Die Schüler reichen einen Screenshot aus dem UCSC Genome Browser ein, der den interessierenden SNP darstellt, zusammen mit einer kurzen Beschreibung der genomischen Region einschließlich benachbarter Gene, der Erhaltung der Region in anderen Wirbeltiermodellen und Zitaten von drei veröffentlichten genomweiten Assoziationsstudien.

An Diskussion teilnehmen: Nach Abgabe der Aufgabe nahmen die Schüler an einer klassenweiten Diskussion darüber teil, was sie über Online-Genominformationen gelernt hatten.

Inklusive Lehre

  • Die Diskussion über die Ähnlichkeiten zwischen allen menschlichen Genomen erkennt die enorme genetische Erhaltung zwischen uns allen an.
  • Die Untersuchung bestimmter gesundheitsbezogener SNPs zeigt auch, dass wir alle unabhängig von Alter, Geschlecht, Rasse usw. für einige Krankheiten gefährdet sind.
  • Den Schülern zu ermöglichen, sich für einen bestimmten SNP zu entscheiden, ist von Natur aus inklusiv, da jeder Schüler ein individuelles Interesse verfolgen kann.
  • Die Vielfalt der Wahlmöglichkeiten in der Klasse wird eine Vielzahl von Beispielen liefern, die bei verschiedenen Hintergründen mehr oder weniger häufig vorkommen können.

FINDING MY RELIGION / Leiter des Human Genome Project argumentiert in einem neuen Buch, dass Wissenschaft und Religion glücklich koexistieren können

Wissenschaft und Religion haben bestenfalls seit langem ein ungutes Verhältnis. Aber Dr. Francis S. Collins glaubt, dass die beiden glücklich nebeneinander existieren können und dass ein Wissenschaftler Gott in einer Kathedrale oder einem Labor gleichermaßen gut anbeten kann.

Collins, ein Mediziner und Genetiker, leitete das Human Genome Project, eine internationale Forschungsinitiative, die alle 3,1 Milliarden Basenpaare in der menschlichen DNA kartiert. Das monumentale Projekt führte eine Crew von Wissenschaftlern tief in die unbekannte Landschaft des menschlichen Körpers. Am Ende hatten sie so etwas wie eine Blaupause für den Aufbau eines Menschen und eine einzigartige Referenz für die Entwicklung von Diagnosen, Behandlungen und letztendlich Möglichkeiten zur Vorbeugung genetischer Krankheiten. Collins ist jetzt Direktor des National Human Genome Research Institute.

Einst überzeugter Atheist und heute gläubiger Christ, vertritt Collins in seinem Buch "The Language of God: A Scientist Presents Evidence for Belief" (Free Press, Juli 2006) die Idee, dass "der Glaube an Gott eine völlig rationale Entscheidung sein kann. und die Prinzipien des Glaubens ergänzen sich tatsächlich mit den Prinzipien der Wissenschaft." Ich habe letzte Woche von seinem Haus in Rockville, Maryland, mit ihm telefoniert.

Ich bin in einem Zuhause aufgewachsen, in dem der Glaube kein wichtiger Teil meiner Erfahrung war. Und als ich aufs College kam und die Leute spät in der Nacht im Wohnheim begannen, darüber zu diskutieren, ob Gott existiert, gab es viele Herausforderungen für diese Idee, und ich entschied, dass ich das nicht brauchte. Ich war bereits auf dem Weg, Wissenschaftler zu werden, und es schien mir, dass alles, was wirklich wichtig war, mit den Mitteln der Wissenschaft gemessen werden konnte.

Ich wurde Doktorand in Physikalischer Chemie, und als ich mehr in diese reduktionistische Denkweise eindrang, die viele physikalische und biologische Wissenschaften kennzeichnet, war es noch attraktiver, das Konzept von allem außerhalb der Natur einfach abzulehnen Welt. So wurde ich ein überzeugter Materialist und ein widerlicher Atheist, und das klang sehr bequem, denn das bedeutete, dass ich niemand anderem als mir selbst verantwortlich sein musste.

Was hat Ihre Meinung geändert? Hatten Sie eine plötzliche Erleuchtung oder hat sich die Religion leise an Sie herangeschlichen?

Es war ein schleichender Prozess. Als Medizinstudent hatte ich die Verantwortung, mich um Patienten zu kümmern, die schreckliche Krankheiten hatten. Ich habe gesehen, wie sich einige dieser Leute wie ein Fels im Sturm auf ihren Glauben stützten, und es schien nicht wie eine Art psychologische Krücke. Es schien sehr real zu sein, und das verwirrte mich.

Irgendwann forderte mich einer meiner Patienten heraus und fragte mich, was ich glaube, und ich merkte, als ich etwas von "Ich glaube nichts davon" stammelte, dass das alles ziemlich dünn im Angesicht dieser Person klang eindeutig sehr starker, hingebungsvoller Glaube an Gott. Das zwang mich zu erkennen, dass ich etwas getan hatte, was ein Wissenschaftler nicht tun sollte: Ich hatte eine Schlussfolgerung gezogen, ohne die Daten zu betrachten. Ich hatte beschlossen, Atheist zu sein, ohne wirklich zu verstehen, was die Argumente für und gegen die Existenz Gottes waren.

Also, wo bist du von dort aus gegangen?

Mit der vollen Absicht, meinen Atheismus zu untermauern, beschloss ich, dieses Ding namens Glauben besser zu untersuchen, damit ich es effektiver abschießen konnte und nicht noch einen dieser unangenehmen Momente hatte. Ich habe über die großen Weltreligionen gelesen und fand das alles sehr verwirrend. Es kam mir nicht in den Sinn, die Originaltexte zu lesen – ich hatte es eilig. Aber schließlich ging ich hin und klopfte an die Tür eines methodistischen Pfarrers, der in der Straße wohnte, und fragte ihn, ob er jemandem, der wie ich Argumente für oder gegen den Glauben suche, irgendwelche Empfehlungen geben könne.

Er nahm ein Buch aus seinem Regal – „Mere Christian“ von C.S. Lewis. Lewis war Atheist gewesen und hatte sich wie ich auf den Weg gemacht, um sich von der Richtigkeit seiner Position zu überzeugen, und bekehrte sich dabei aus Versehen. Ich nahm das Buch mit nach Hause und stellte auf den ersten Seiten fest, dass alle meine Argumente für den Atheismus durch die einfache Logik dieses klar denkenden Oxford-Gelehrten schnell in Schutt und Asche gelegt wurden. Mir wurde klar: "Ich muss hier noch einmal von vorne anfangen. Alles, worauf ich meine Position bezogen hatte, ist wirklich bis ins Mark fehlerhaft."

Ich kann verstehen, wie Sie angesichts Ihrer wissenschaftlichen Weltanschauung den Wandel vom Atheisten zum Agnostiker vollziehen können. Aber der Übergang von einem Agnostiker zu einem Gläubigen scheint jetzt ein schwierigerer Übergang zu sein.

Und ich habe es in Etappen geschafft, also habe ich für eine Weile den Atheismus aufgegeben und bin in der Agnostikertonne gelandet, aber das fand ich in gewisser Weise ein Ausrutscher. Es schien nicht unbedingt ein Ort zu sein, an dem man bequem bleiben konnte, es sei denn, man könnte sagen: "Ich habe jetzt alle Beweise geprüft und bin zu dem Schluss gekommen, dass es keinen Grund gibt, eine wirkliche Entscheidung zu treffen." This business of saying "I don't know" can't just be an "I don't want to know." And the more I looked at the evidence, the more I concluded that I wasn't really in a position where that was a viable choice.

Warum nicht? What kind of evidence?

One piece of evidence was the argument, which is right there in Lewis' first chapter on moral law, [about] the knowledge of right and wrong, which I find to this day a puzzling feature of humanity if all we are is products of evolution. Moral law, which seems to be universal to humankind, calls us, on a regular basis, to do things that are not consistent with the idea that our only purpose is to propagate our own DNA.

It calls us sometimes to do things that are truly sacrificial, to help out somebody else at our own expense. And all of the arguments that the social biologists have put forward about how this kind of sacrificial love, this kind of agape, as the Greeks would call it, can be explained on the basis of evolution -- I find rather hollow. It doesn't work in many instances where we are called to do something really quite destructive to the possibility of propagating our own DNA.

I found with Lewis a compelling argument that there is something within us, a signpost, that is pointing us towards the importance of recognizing good and evil, and that is drawing us towards being good and not evil. As Lewis says, if you were looking somewhere around you and within you for some evidence of a God -- not a deist God who wandered off after starting the universe, but a God who really cares about people -- where else would you find more powerful evidence than in this particular thing you find in your own heart? I continue to find that a pretty interesting argument.

You said in your book that your scientific explorations had a lot to do with convincing you that God exists. Can you cite some aspects of your research that particularly confirmed God's existence for you?

Everything I do as a scientist reinforces my sense of God's presence because every new discovery is, if you believe in his role as creator, a glimpse into his mind. And I find that very meaningful and satisfying to be able to have the experience of discovery by both the natural world unveiling itself and also getting a glimpse into what God's plan was.

Can you give me an example?

Well, sequencing the human genome. This was an incredibly breathtaking experience, to unveil over the course of just a few short years the complete instruction book for human biology, the 3 billion letters of the code. That's something which will only be done once in human history, which has incredible power to reveal information about exactly how human biology works and which for me, as a believer, is the culmination of God's creative plan to put creatures on this planet. To have that laid out in front of you for the first time is breathtaking to any scientist, but particularly if you see it as that significant language of God, [which] as the title of the book suggests, carries it to a whole other plane.

Can you tell me about BioLogos, your theory of theistic evolution? How does it differ from intelligent design?

Intelligent design argues that there are certain molecular machines, like the human eye with all its remarkable engineering, that are just too darned complicated for evolution to have been able to develop, and that there had to be supernatural intervention in order to produce those functions. So it makes a very specific claim that there are failures, or gaps, in Darwinian evolution that God had to fix along the way.

In that context, I have trouble with intelligent design, because as science is progressing rapidly, particularly with the study of the DNA sequences of many, many organisms, it becomes pretty clear that some of these gaps are in fact not machines that came suddenly out of nowhere, but were built up bit by bit, component by component, in a way that's entirely compatible with evolution over long periods of time.

I believe in a different model, which I call BioLogos. It's a model that I find entirely consistent with what I know scientifically and what I believe about God, which is the following:

If God decided to create the universe and his purpose was to populate it with creatures in his image, with whom he could have fellowship and to whom he would give the knowledge of right and wrong, an ability to make decisions on their own free will and an immortal soul, and if he chose to use evolution to accomplish that goal, who are we to say that's not how he would have done it? It's an incredibly elegant means of creation. And because God is outside of time and space -- at least, I think that would make sense, given that he's not part of the natural world -- he could, at the very moment of creation, at the instant of the Big Bang, have this entire plan completely designed right down to our having this conversation. And it would seem perhaps a bit random and long and drawn out to us, but not to him.

Why do you think God would do that? What is the purpose of it?

Well, now we are into a really difficult question, which is trying to understand God's motivations, and I don't think I am qualified to have a clue about that. But I think any religion that people believe in has within it the idea that humans are in search of God, and that God is interested in our being in search of him. So if you accept that idea, then the mechanism by which he could carry that out could be almost anything, but I think in this case it was evolution.


Big Data and Bioinformatics in SHGP

The SHGP, by the scale and nature of its data, is a typical big data project, where the four “V”s (volume, velocity, variety, and veracity) characterizing big data are present. When running at full capacity, the project will produce 10–15 TB of raw sequence data per day. Therefore, establishing a highperformance and scalable information technology (IT) infrastructure and the use of advanced bioinformatics methods are major components of the SHGP. “The structure of the participating centers and the distribution of the genomic data production and analysis form an interesting IT challenge that is probably the first of its kind worldwide,” said Dr. Mohamed Abouelhoda, head of the SHGP bioinformatics team.
Figure 3: The high-performance computer SANAM, one of the top supercomputers worldwide in the green data center in the KACST.
All the labs produce significant amounts of data that should be analyzed and moved to the central storage for large-scale data analysis, with results to be shared among researchers inside and outside the kingdom. While each satellite lab has some computing power to participate in the data analysis, the main computing power for storage and analysis resides in the KACST. The SHGP has also access to the energy-efficient, high-performance computer, SANAM, with a performance of 532 TFlops and high-speed interconnects data rate of 56 Gb/s (Figure 3). “SANAM is one of the top supercomputers worldwide,” said Dr. Abdulqadir Alaqeeli from the KACST SANAM team.
To cope with this distributed IT infrastructure, the SHGP bioinformatics team has developed methods to manage the data and the analysis among the different sites using different computational resources. The transfer of data is prioritized and scheduled to reduce the required bandwidth. The use of commercial cloud computing solutions is also part of the design, to automatically scale the in-house IT resources in response to abrupt computation loads. Collectively, the central and satellite computer resources as well as the automatic extension with commercial cloud solutions work together like a hybrid multicloud system.


Geneticists sequence the complete human X chromosome for the first time

For the first time, scientists have determined the complete sequence of a human chromosome, namely the X chromosome, from ‘telomere to telomere’. This is truly a complete sequencing of a human chromosome, with no gaps in the base pair read and at an unprecedented level of accuracy.

A step closer towards the complete blueprint of a human being

The Human Genome Project was a 13-year-long, publicly funded project initiated in 1990 with the objective of determining the DNA sequence of the entire human genome.

Although the project was met with initial skepticism by scientists and non-scientists alike, the overwhelming success of the Human Genome Project is readily apparent. Not only did it usher in a new era in medicine, but it also led to significant advances in DNA sequencing technology.

When the Human Genome Project was finished, its running costs tallied $2.7 billion of taxpayers’ money. Today, a human genome can be sequenced for less than $200 — that’s a 13.5-million-fold reduction in cost. And, it’s still going down.

However, despite its resounding success, the human genome sequencing is still incomplete, as still unknown regions of the genome could not be finished due to technical reasons.

These gaps in the genome have been gradually filled as technically improved after the Human Genome Project was officially over in 2003.

But, until last year, there were still 100 or so regions that were yet unknown. Now, some of these regions have been brought to light, helping to complete the sequencing of the human X chromosome.

The X chromosome is one of two sex-determining chromosomes passed down from parent to child. A zygote that receives two X chromosomes – one from each parent – will grow into a female, while an X and a Y chromosome result in a male.

According to Karen Miga, a research scientist at the UC Santa Cruz Genomics Institute, this was all possible thanks to new sequencing technologies that enable “ultra-long reads,” such as the nanopore sequencing technology.

In the initial stages of the Human Genome Project, scientists could read 500 bases at a time, or 500 letters per sequence. In the mid-2000s, the amount of DNA that could be read at a time was reduced (100-200 bases), but the accuracy of technology increased. Then around 2010, new technology came on the market that could read 1,000-10,000, and now more recently 100,000 or more bases at a time thanks to nanopore technology.

Nanopore tech involves funneling single molecules of DNA through a tiny hole. Changes in current flow determine the genetic sequencing.

“These repeat-rich sequences were once deemed intractable, but now we’ve made leaps and bounds in sequencing technology,” Miga said. “With nanopore sequencing, we get ultra-long reads of hundreds of thousands of base pairs that can span an entire repeat region, so that bypasses some of the challenges.”

The technique itself was very simple: simply collect as much of these bases that scientists could from a single cell line of interest.

“We chose a unique cell line that has two copies of every chromosome, just like any normal cell, but each of those copies is identical to one another. Rather than having to resolve the genome of two genomes, we only had a single version to worry about. Then you can grow these cell lines clonally, so you don’t have variation in them, and then sequence them on these instruments,” Dr. Adam Phillippy of the National Human Genome Research Institute said in a statement.

Scientists collected data over the course of six months, and then used algorithms to stitch the puzzle pieces back together again.

This is how they sequenced the centromere, a large repetitive bit of sequence that is centered in the middle of the X chromosome as its name might suggest, and a number of other genome arrays on the X chromosome.

This work opens up a range of new possibilities in research, including the prospect of identifying new associations between genetic sequence variation and disease, as well as new clues into human biology and evolution.

“We’re starting to find that some of these regions where there were gaps in the reference sequence are actually among the richest for variation in human populations, so we’ve been missing a lot of information that could be important to understanding human biology and disease,” Miga said in a statement.

The complete sequencing of the X chromosome signifies yet another massive victory for science. However, there are still 23 other chromosomes to go — all of them might be completely mapped out by the end of this year, the researchers said.


Instructions for generating the dictionary and index files

Creating the FASTA sequence dictionary file

We use the CreateSequenceDictionary tool to create a .dict file from a FASTA file. Note that we only specify the input reference the tool will name the output appropriately automatically.

This produces a SAM-style header file named ref.dict describing the contents of our FASTA file.

Here we are using a tiny reference file with a single contig, chromosome 20 from the human b37 reference genome, that we use for demo purposes. If we were running on the full human reference genome there would be many more contigs listed.

Creating the fasta index file

We use the faidx command in Samtools to prepare the FASTA index file. This file describes byte offsets in the FASTA file for each contig, allowing us to compute exactly where to find a particular reference base at specific genomic coordinates in the FASTA file.

This produces a text file named ref.fasta.fai with one record per line for each of the FASTA contigs. Each record is of the contig, size, location, basesPerLine and bytesPerLine. The index file produced above looks like this:

This shows that our FASTA file contains chromosome 20, which is 63025520 bases long, then the coordinates within the file which you do not need to care about.