Information

Wie können Computervorhersagen der Proteinfaltung rechnerisch verifiziert werden?

Wie können Computervorhersagen der Proteinfaltung rechnerisch verifiziert werden?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Derzeit wird viel geforscht, um die Faltungsmuster von Proteinen mithilfe von Computern zu lösen ([email protected], https://fold.it/portal/, etc.).

Die Frage, die ich habe, ist: Woher wissen Sie, wann Sie es richtig machen? Gibt es eine Möglichkeit zu überprüfen, in silico, dass Sie eine legitime/richtige Struktur für ein Protein gefunden haben?


Überblick

Die Modellierung hat in den letzten zehn Jahren sprunghafte Fortschritte gemacht und hat sich in vielen Fällen als manchmal praktikabler und kostengünstiger Ersatz für experimentelle Strukturen erwiesen.

Woher wissen Sie, wann Sie es richtig machen?

Letztendlich noch einer braucht experimentelle Beweise zu kennt wenn ein Modell generiert wurde in silico ist richtig. Aber es gibt Möglichkeiten, ein Modell dafür zu bewerten, wie wahrscheinlich es soll stimmen.

Gibt es eine Möglichkeit, in silico zu überprüfen, ob Sie eine legitime/korrekte Struktur für ein Protein gefunden haben?

Es gibt viele Möglichkeiten, Ihre Modelle zu bewerten und zu verifizieren. Jede Methode sagt Ihnen etwas anderes über die Vorzüge oder das Fehlen Ihres Strukturmodells. Einige wurden entwickelt, um die offensichtlich schrecklichen Modelle auszusortieren, und einige ermöglichen es Ihnen, genau zu erkennen, wo Ihr Modell genau oder ungenau aussieht.

MODELLER Homologie-Modellierungsausgangsüberprüfung im laufenden Betrieb.

Ich bin am besten mit Modellierer für Homologiemodellierung vertraut. Andere Softwares sind verfügbar und werden seit 1994 alle zwei Jahre von CASP evaluiert.

Bei der Homologiemodellierung gibt es 3 gängige Bewertungssysteme, die verwendet werden können, um die biochemische Lebensfähigkeit eines Modells zu bewerten. In dieser E-Mail wird beschrieben, wann jeder einzelne verwendet werden soll. Meine Antwort erweitert und erklärt ein bisschen mehr.

molpdf ist die Zielfunktion des Modellers. GA341, die hier diskutiert wird, wird vom Z-Score (berechnet mit einer statistischen Potentialfunktion) abgeleitet, der eine Ziel-Template-Sequenzidentität und ein Maß für die strukturelle Kompaktheit ist. AUFPUTSCHMITTEL ist eine aktuellere Methode, die erstmals 2006 veröffentlicht wurde und eher der "biologischen Lebensfähigkeit" entspricht. Aus der Veröffentlichung:

DOPE basiert auf einem verbesserten Referenzzustand, der nicht wechselwirkenden Atomen in einer homogenen Kugel entspricht, wobei der Radius von einer nativen Probenstruktur abhängt; es erklärt somit die endliche und sphärische Form der nativen Strukturen.

Welche Sie verwenden, hängt davon ab, was Sie mit dem Modell machen möchten, aber von diesen drei Werten ist DOPE am zuverlässigsten bei der Trennung von nativen Modellen von "Ködern". DOPE ist normalerweise der Ausgangspunkt, um herauszufinden, welche Modelle richtig sein könnten und welche einfach nur Müll sind.

Notiz: Wenn Sie Rosetta verwenden, gibt es entsprechende Äquivalente, oder Sie können Ihre generierten Modelle mit diesen Techniken ausführen. Wenn Sie SWISS MODEL verwenden, das mit seinen eigenen Black-Box-Verifizierungstechniken ausgestattet ist, können Sie das Modell dennoch zur weiteren Überprüfung exportieren.

Allgemeiner Modellcheck gegen experimentelle Daten.

Eine weitere Validierung von Homologiemodellierungsmethoden oder anderen Strukturmodellen ist ProSA. ProSA bietet eine großartige visuelle Darstellung, wo der Z-Score zwischen den tatsächlichen Kristall- und NMR-Strukturen liegt. Es gibt wahrscheinlich andere, die ähnliche Funktionen haben, aber dies ist meine persönliche Anlaufstelle, um eine Vorstellung davon zu bekommen, wo meine Struktur zwischen experimentell gesammelten Strukturen liegt.

Empfindliche Rückstände durch Rückstandsprüfung.

Obwohl die oben genannten Verfahren jeden Rest untersuchen, geben sie normalerweise eine Gesamtbewertung aus. Rückstand-für-Rückstand-Bewertungen sind ebenfalls verfügbar und erfordern eine Menge sorgfältiger Interpretation. Wenn Sie beispielsweise die katalytische Aktivität analysieren, stellt eine Oberflächenschleifenregion, die schlecht abschneidet, möglicherweise kein Problem dar, aber ein katalytischer Rest im Kern, der schlecht abschneidet, macht das Modell unbrauchbar. Das bedeutet, nur weil Ihr Modell einen guten (niedrigeren) DOPE-Gesamtwert hat als ein anderes Modell, bedeutet dies nicht unbedingt, dass es ein genaueres Modell für das ist, was Sie interessiert.

Es gibt viele sensible Modellierungsbewertungssysteme. Einige davon sind XdVal, MTZdump, die berühmte, wenn auch alte Schule Ramachandran-Plotting Methode, pdbU, pdbSNAFU, PROCHECK, Verify3D, und ERRAT um ein paar zu nennen. Jeder hat seinen Platz bei der Überprüfung, wie Korrekt dein Modell ist.


An dieser Stelle muss es experimentell verifiziert werden.

In dieser foldit-Forschungsarbeit verwenden sie Software und Benutzereingaben, um im Wesentlichen eine verbesserte Version eines natürlich vorkommenden Proteins zu entwerfen, aber sie stellen dann ihr neues Protein physikalisch her und bestimmen seine Struktur experimentell mithilfe von Röntgenkristallographie. Insgesamt verwenden sie viel Versuch und Irrtum http://homes.cs.washington.edu/~zoran/foldit-nbt-2012.pdf

Projekte wie dieses sind gewissermaßen auf das Ziel ausgerichtet, die Struktur eines Proteins aus seiner Aminosäuresequenz bestimmen zu können in silico. Sobald wir diese Fähigkeit erreicht haben, wird sie revolutionär sein. Dies ist jedoch sehr schwierig, da eine genaue Vorhersage solcher Vorhersagen den Einsatz der Quantenmechanik erfordern würde, die äußerst schwierig rechnerisch zu modellieren ist. Diese Projekte verwenden Abkürzungen, um dieses Problem zu umgehen, daher sind ihre Ergebnisse nicht sehr genau, aber sie können genau genug sein, um nützlich zu sein, wie in diesem Papier gezeigt.


Computerbasiertes Redesign eines Proteinfaltungsweges

Ein grundlegender Test für unser derzeitiges Verständnis der Proteinfaltung ist die rationale Neugestaltung von Proteinfaltungswegen. Wir verwenden eine computerbasierte Designstrategie, um den Faltungsweg von Protein G umzuschalten, der normalerweise die Bildung der zweiten, aber nicht der ersten β-Schleife im geschwindigkeitsbestimmenden Schritt der Faltung beinhaltet. Rückgratkonformationen und Aminosäuresequenzen, die die Interaktionsdichte in der ersten β-Haarnadel maximieren, wurden identifiziert, und zwei Varianten mit 11 Aminosäureaustauschen erwiesen sich als ∼ 4 kcal mol −1 stabiler als Wildtyp-Protein G. Kinetische Studien zeigen, dass die umgestalteten Proteine ​​falten sich ∼ 100-mal schneller als Wildtyp-Proteine ​​und dass die erste β-Schleife gebildet und die zweite beim geschwindigkeitsbestimmenden Schritt der Faltung zerstört wird.


Abstrakt

Die Vorhersage von Proteinfaltungsraten aus Aminosäuresequenzen ist eine der wichtigsten Herausforderungen in der Molekularbiologie. In dieser Arbeit habe ich die Proteinfaltungsraten mit physikalisch-chemischen, energetischen und konformativen Eigenschaften von Aminosäureresten in Beziehung gesetzt. Ich fand, dass die Einteilung von Proteinen in verschiedene Strukturklassen eine ausgezeichnete Korrelation zwischen den Aminosäureeigenschaften und den Faltungsraten von Zwei- und Drei-Zustands-Proteinen zeigt, was auf die Bedeutung der nativen Zustandstopologie bei der Bestimmung der Proteinfaltungsraten hinweist. Ich habe ein einfaches lineares Regressionsmodell zur Vorhersage der Proteinfaltungsraten aus Aminosäuresequenzen zusammen mit Strukturklasseninformationen formuliert und eine ausgezeichnete Übereinstimmung zwischen vorhergesagten und experimentell beobachteten Faltungsraten von Proteinen erhalten. Die Korrelationskoeffizienten betragen 0,99, 0,96 bzw. 0,95 für all-α-, all-β- und Mischklassenproteine. Dies ist die erste verfügbare Methode, die in der Lage ist, die Proteinfaltungsraten allein aus der Aminosäuresequenz mit Hilfe von generischen Aminosäureeigenschaften und Strukturklasseninformationen vorherzusagen.

Korrespondierender Autor Telefon: +81-3-3599-8046 Fax: +81-3-3599-8081 E-Mail: [Email protected]


DER FALTCODE: WELCHES GLEICHGEWICHT DER KRÄFTE KODERT NATIVE STRUKTUREN?

Anfinsen’s thermodynamische Hypothese

Ein wichtiger Meilenstein in der Proteinwissenschaft war die thermodynamische Hypothese von Christian Anfinsen und Kollegen (3, 92). Aus seinen inzwischen berühmten Experimenten zur Ribonuklease postulierte Anfinsen, dass die native Struktur eines Proteins die thermodynamisch stabile Struktur ist, die nur von der Aminosäuresequenz und den Lösungsbedingungen abhängt und nicht von der kinetischen Faltungsroute. Es wurde allgemein anerkannt, dass die native Struktur nicht davon abhängt, ob das Protein biologisch an einem Ribosom oder mit Hilfe von Chaperon-Molekülen synthetisiert wurde oder ob das Protein stattdessen einfach als isoliertes Molekül im Reagenzglas umgefaltet wurde. [Es gibt jedoch seltene Ausnahmen, wie Insulin, α-lytische Protease (203) und die Serpine (227), in denen die biologisch aktive Form kinetisch gefangen ist.] Aus Anfinsens Arbeit folgten zwei starke Schlussfolgerungen. Erstens ermöglichte es dem großen Forschungsunternehmen der In-vitro-Proteinfaltung, native Strukturen durch Experimente in Reagenzgläsern statt in Zellen zu verstehen. Zweitens impliziert das Anfinsen-Prinzip eine Art Arbeitsteilung: Die Evolution kann eine Aminosäuresequenz verändern, aber das Faltungsgleichgewicht und die Kinetik einer bestimmten Sequenz sind dann Fragen der physikalischen Chemie.

Eine dominante treibende Kraft oder viele kleine?

Vor Mitte der 1980er Jahre war der Proteinfaltungscode eine Summe vieler verschiedener kleiner Wechselwirkungen, wie Wasserstoffbrücken, Ionenpaare, Van-der-Waals-Anziehungen und wasservermittelte hydrophobe Wechselwirkungen. Eine Schlüsselidee war, dass die Primärsequenz Sekundärstrukturen kodierte, die dann Tertiärstrukturen kodierten (4). Durch statistisch-mechanische Modellierung entstand jedoch in den 1980er Jahren eine andere Sichtweise, nämlich dass es eine dominante Komponente des Faltungscodes gibt, dass es die hydrophobe Wechselwirkung ist, dass der Faltungscode sowohl lokal als auch nichtlokal in der Sequenz verteilt ist, und dass die Sekundärstruktur eines Proteins sowohl eine Folge der Tertiärstruktur als auch eine Ursache dafür ist (48, 49).

Da native Proteine ​​nur 5� kcal/mol stabiler sind als ihre denaturierten Zustände, ist klar, dass bei der Faltungs- und Strukturvorhersage keine Art von intermolekularer Kraft vernachlässigt werden kann (238). Obwohl es nach wie vor schwierig ist, einige Arten von Wechselwirkungen sauber und rigoros von anderen zu trennen, sind hier einige der wichtigsten Beobachtungen. Die Faltung wird wahrscheinlich nicht von elektrostatischen Wechselwirkungen zwischen geladenen Seitenketten dominiert, da die meisten Proteine ​​relativ wenige geladene Reste haben und in Regionen mit hohem Dielektrikum auf der Proteinoberfläche konzentriert sind. Proteinstabilitäten neigen dazu, unabhängig vom pH-Wert (nahezu neutral) und der Salzkonzentration zu sein, und Ladungsmutationen führen typischerweise zu geringen Auswirkungen auf Struktur und Stabilität. Wasserstoffbrücken-Wechselwirkungen sind wichtig, da im Wesentlichen alle möglichen Wasserstoffbrücken-Wechselwirkungen in nativen Strukturen im Allgemeinen erfüllt sind. Wasserstoffbrücken zwischen Amid- und Carbonylgruppen des Rückgrats sind Schlüsselkomponenten aller Sekundärstrukturen, und Studien zu Mutationen in verschiedenen Lösungsmitteln schätzen ihre Stärke auf etwa 1𠄴 kcal/mol (21, 72) oder stärker (5, 46). In ähnlicher Weise impliziert eine dichte Packung in Proteinen, dass Van-der-Waals-Wechselwirkungen wichtig sind (28).

Die Frage nach dem Faltungscode ist jedoch, ob es einen dominanten Faktor gibt, der erklärt, warum zwei beliebige Proteine, zum Beispiel Lysozym und Ribonuklease, unterschiedliche native Strukturen haben. Dieser Code muss in die Seitenketten geschrieben werden, nicht in die Wasserstoffbrückenbindung des Rückgrats, da sich ein Protein durch die Seitenketten von einem anderen unterscheidet. Es gibt erhebliche Hinweise darauf, dass hydrophobe Wechselwirkungen eine wichtige Rolle bei der Proteinfaltung spielen müssen. (ein) Proteine ​​haben hydrophobe Kerne, was bedeutet, dass unpolare Aminosäuren dazu getrieben werden, aus Wasser sequestriert zu werden. (B) Studien mit Modellverbindungen zeigen 1𠄲 kcal/mol für die Übertragung einer hydrophoben Seitenkette aus Wasser in ein ölähnliches Medium (234), und davon gibt es viele. (C) Proteine ​​werden in unpolaren Lösungsmitteln leicht denaturiert. (D) Sequenzen, die durcheinander geraten und nur ihre korrekte hydrophobe und polare Musterfaltung zu ihren erwarteten nativen Zuständen behalten (39, 98, 112, 118), ohne dass Anstrengungen unternommen werden, um Packungen, Ladungen oder Wasserstoffbrücken zu entwerfen. Hydrophobe und polare Musterbildung scheint auch ein Schlüssel zur Kodierung von Amyloid-ähnlichen Fibrillenstrukturen zu sein (236).

Was stabilisiert Sekundärstrukturen? Bevor eine Proteinstruktur bekannt war, schlossen Linus Pauling und Kollegen (180, 181) aus Wasserstoffbrückenmodellen, dass Proteine ​​möglicherweise α-Helices haben. Sekundärstrukturen sind jedoch selten allein in Lösung stabil. Obwohl verschiedene Aminosäuren unterschiedliche energetische Neigungen haben, in Sekundärstrukturen vorzukommen (6, 41, 55, 100), gibt es auch viele 𠇌hamäleon”-Sequenzen in natürlichen Proteinen, bei denen es sich um Peptidsegmente handelt, die entweder helikale oder β . annehmen können Konformationen in Abhängigkeit von ihrem tertiären Kontext (158, 162). Untersuchungen an Gittermodellen (25, 29, 51) und Röhrenmodellen (11, 12, 159) haben gezeigt, dass Sekundärstrukturen in Proteinen durch die Kettenkompaktheit, eine indirekte Folge der hydrophoben Kraft zum Kollaps, wesentlich stabilisiert werden (Abbildung 1). Wie bei Sicherheitslinien an Flughäfen sind spiralförmige und flächige Konfigurationen die einzigen üblichen Möglichkeiten, eine lineare Kette (von Personen oder Monomeren) auf engstem Raum zu packen.

(ein) Binärcode. Experimente zeigen, dass ein primär binärer hydrophob-polarer Code ausreicht, um Helix-Bündel-Proteine ​​zu falten (112). Nachdruck aus Referenz 112 mit Genehmigung von AAAS.

(B) Kompaktheit stabilisiert die Sekundärstruktur in Proteinen aus Gittermodellen. (C) Experimente unterstützendes Panel B, was zeigt, dass die Kompaktheit mit dem Sekundärstrukturgehalt in nicht-nativen Zuständen vieler verschiedener Proteine ​​korreliert (218). Nachdruck von Referenz 218 mit Genehmigung.

Entwicklung neuer Proteine ​​und nichtbiologischer Foldamere

Obwohl unser Wissen über die Kräfte der Faltung unvollständig ist, hat dies die Entstehung eines erfolgreichen praktischen Proteindesigns nicht behindert. Neuartige Proteine ​​werden nun als Varianten bestehender Proteine ​​(43, 94, 99, 145, 173, 243) oder aus erweiterten Alphabeten nichtnatürlicher Aminosäuren (226) oder de novo (129) entworfen ( 2 ). Darüber hinaus werden Faltungscodes verwendet, um neue polymere Materialien zu entwerfen, die als Foldamere bezeichnet werden (76, 86, 120). Gefaltete Helixbündel wurden nun unter Verwendung nichtbiologischer Rückgrate entworfen (134). Foldamere finden Anwendung in der Biomedizin als Antibiotika (179, 185), Lungensurfactant-Ersatz (235), Cytomegalovirus-Inhibitoren (62) und siRNA-Lieferanten (217). Daher sind Fragen des Tiefenprinzips keine Flaschenhälse mehr, um faltbare Polymere für praktische Anwendungen und neue Materialien zu entwickeln.

(ein) Eine neuartige Proteinfaltung, genannt Top7, entworfen von Kuhlman et al. (129). Entworfenes Molekül (Blau) und die anschließend ermittelte Versuchsstruktur (rot). Aus Referenz 129 Nachdruck mit Genehmigung von AAAS. (B) Drei-Helix-Bündel-Foldamere wurden unter Verwendung nichtbiologischer Rückgrate (Peptoide, d. h. N-substituierte Glycine) hergestellt.

(C) Ihre Denaturierung durch Alkohole weist darauf hin, dass sie hydrophobe Kerne haben, die für ein gefaltetes Molekül charakteristisch sind (134).


Nein, DeepMind hat die Proteinfaltung nicht gelöst

Diese Woche hat DeepMind bekannt gegeben, dass es mit künstlicher Intelligenz (KI) das 50 Jahre alte Problem der „Proteinfaltung“ gelöst hat. Die Ankündigung erfolgte, als die Ergebnisse des 14. und letzten Wettbewerbs zur kritischen Bewertung von Techniken zur Vorhersage der Proteinstruktur (CASP14) veröffentlicht wurden. Bei dem Wettbewerb treten Teams von Computerwissenschaftlern gegeneinander an, um herauszufinden, welche Methode die beste ist, um die Strukturen von Proteinmolekülen vorherzusagen – und die Lösung von DeepMind, „AlphaFold 2“, ging als klarer Sieger hervor.

Glauben Sie nicht alles, was Sie in den Medien lesen

Es folgte eine atemlose Berichterstattung in den Medien, dass KI nun genutzt werden kann, um die Strukturen von Proteinen – der molekularen Maschinerie jedes Lebewesens – genau vorherzusagen. Früher war die mühsame experimentelle Arbeit zur Auflösung von Proteinstrukturen die Domäne von Proteinkristallographen, NMR-Spektroskopikern und Kryo-Elektronenmikroskopikern, die monate- und manchmal jahrelang daran arbeiteten, jede neue Struktur zu erarbeiten.

Sollten die Experimentatoren nun alle das Labor verlassen und Deep Mind das Feld überlassen?

Nein, das sollten sie aus mehreren Gründen nicht.

Erstens besteht kein Zweifel daran, dass DeepMind einen großen Schritt nach vorne gemacht hat. Von allen Teams, die gegeneinander antreten, sind sie der Meute so weit voraus, dass die anderen Computermodellierer vielleicht daran denken, aufzugeben. Aber wir sind noch nicht an dem Punkt angelangt, an dem wir sagen können, dass die Proteinfaltung „gelöst“ ist. Zum einen waren nur zwei Drittel der Lösungen von DeepMind mit der experimentell ermittelten Struktur des Proteins vergleichbar. Das ist beeindruckend, aber man muss bedenken, dass sie bis zum Vergleich mit experimentellen Lösungen nicht genau wussten, welche zwei Drittel ihrer Vorhersagen am ehesten richtig waren.* Würden Sie ein Navigationsgerät kaufen, das nur 67 % genau ist?

Eine Portion Realismus ist also gefragt. Es ist derzeit auch schwer zu erkennen, dass dies trotz der beeindruckenden Leistung von DeepMind die Biologie sofort verändern wird.

Beeindruckende Vorhersagen – aber woher wissen Sie, dass sie richtig sind?

Alphafold 2 wird sicherlich dabei helfen Vorauszahlung Biologie. Zum Beispiel kann es, wie bereits berichtet, Faltungsstrukturvorhersagen generieren, die dann verwendet werden können, um experimentelle Strukturen durch Kristallographie (und wahrscheinlich andere Techniken) zu lösen. Dies wird also dazu beitragen, dass die Wissenschaft der Strukturbestimmung in einigen Fällen etwas schneller geht.

Trotz einiger Behauptungen sind wir jedoch noch nicht an dem Punkt angelangt, an dem dieses KI-Tool für die Wirkstoffforschung verwendet werden kann. Für die Strukturvorhersagen von DeepMind (insgesamt 111) beträgt die durchschnittliche oder quadratische Mittelwertdifferenz (RMSD) der atomaren Positionen zwischen der Vorhersage und der tatsächlichen Struktur 1,6 Å (0,16 nm). Das ist ungefähr die Größe einer Bindungslänge.

Das klingt ziemlich gut, aber aus der Ankündigung von DeepMind geht nicht hervor, wie diese Zahl berechnet wird. Es Macht nur durch den Vergleich der Positionen der Alpha-Kohlenstoffatome im Proteinrückgrat berechnet werden – ein vernünftiger Weg, um die Genauigkeit der Gesamtfaltung des Proteins abzuschätzen. Oder es könnte über alle Atompositionen berechnet werden, ein viel strengerer Test. Ist letzteres der Fall, dann ist ein RMSD von 1,6 ein noch beeindruckenderes Ergebnis.

Aber es ist immer noch nicht annähernd gut genug, um zuverlässige Einblicke in die Proteinchemie oder das Wirkstoffdesign zu liefern. Um dies zu erreichen, wollen wir uns der atomaren Positionen auf einen Spielraum von etwa 0,3 verlassen. Die beste Vorhersage von AlphaFold 2 hat einen RMSD für alle Atome von 0,9 Å. Viele der Vorhersagen, die zu ihrem Durchschnitt von 1,6 beitragen, werden noch größere Abweichungen der Atompositionen aufweisen. Trotz der Behauptungen sind wir also noch nicht bereit, Alphafold 2 zur Entwicklung neuer Medikamente zu verwenden.

Es gibt noch andere Gründe, nicht zu glauben, dass das Problem der Proteinfaltung „gelöst“ ist. KI-Methoden beruhen darauf, die Regeln der Proteinfaltung aus bestehenden Proteinstrukturen zu lernen. Dies bedeutet, dass es schwieriger sein kann, die Strukturen von Proteinen mit Faltungen vorherzusagen, die in der Datenbank der gelösten Strukturen nicht gut vertreten sind.

Außerdem kann die Methode, wie in Nature berichtet, noch nicht zuverlässig Vorhersagen von Proteinen treffen, die Bestandteile von Multiproteinkomplexen sind. Diese gehören zu den interessantesten biologischen Einheiten in Lebewesen (z. B. Ribosomen, Ionenkanäle, Polymerasen). Es bleibt also noch ein ziemlich großes Gebiet, in das AlphaFold 2 uns nicht bringen kann. Den Experimentatoren, denen es gelungen ist, die Strukturen zunehmend komplexer werdender Komplexe abzubilden, liegt noch viel wertvolle Arbeit vor sich.

Obwohl all dies eine Warnung sein soll, um einigen der hyperbolischeren Behauptungen zu begegnen, die in den letzten Tagen in den Medien gehört wurden, möchte ich dennoch meine Bewunderung für die Leistungen des AlphaFold-Teams unterstreichen. Sie haben eindeutig einen sehr bedeutenden Fortschritt gemacht.

Dieser Fortschritt wird viel deutlicher sein, sobald ihr von Experten begutachtetes Papier veröffentlicht ist (wir sollten die Wissenschaft nicht nach Pressemitteilungen beurteilen) und sobald das Werkzeug der akademischen Gemeinschaft offen zugänglich ist – oder tatsächlich jedem, der die Proteinstruktur studieren möchte.

Update (02. Dezember, 18:43): Dieser Beitrag wurde aktualisiert, um eine klarere Erklärung der RMSD-Messungen zu bieten, die zum Vergleich von vorhergesagten und experimentell bestimmten Proteinstrukturen verwendet werden. Ich bin Prof. Leonid Sazanov sehr dankbar, der auf Twitter auf einige notwendige Korrekturen und Ergänzungen hingewiesen hat.

*Update (12. Dezember, 15:35): Streng genommen ist dies wahr, aber es übersieht den wichtigeren Punkt, dass die jeder Strukturvorhersage (GDT_TS) gegebene Punktzahl weitgehend mit der Nähe ihrer Übereinstimmung mit der experimentellen Struktur korreliert. Als Ergebnis habe ich meinen SatNav-Crack gelöscht.

Für eine fundierte und sehr maßvolle Einschätzung dessen, was DeepMind in CASP14 tatsächlich erreicht hat, lesen Sie bitte diesen Blogpost von Prof. Mohammed AlQuraishi, der dieses Gebiet viel besser kennt als ich. Sein Beitrag ist ziemlich lang, aber Sie können die technischen Teile überspringen, die erklären, wie AlphaFold 2 funktioniert. Er gibt einen sehr guten Bericht über die Natur des Fortschritts von DeepMind aus der Sicht von AlQuraishi, AlphaFold 2 stellt eine Lösung des Proteinstrukturvorhersageproblems dar, obwohl er sorgfältig definiert, was er unter einer Lösung versteht. Er räumt auch ein, dass das Programm noch erheblich verbessert werden muss, sieht dies jedoch eher als eine ingenieurtechnische denn als eine wissenschaftliche Herausforderung an. Er stimmt zu, dass AlphaFold 2 in absehbarer Zeit nicht für die Entwicklung von Medikamenten verwendet werden wird. AlQuraishi gibt auch einen hervorragenden Überblick über die Implikationen dieser Arbeit für Proteinordner, Strukturbiologen und Biotechnologen im Allgemeinen und bietet einige sehr interessante Gedanken zu den Unterschieden zwischen dem Forschungsansatz von DeepMind und dem traditioneller akademischer Gruppen.


Villin-Kopfschmuck

Eines der am besten untersuchten Beispiele für schnell faltende Proteine, das Wildtyp-Villin-Kopfstück, ist dafür bekannt, dass es sich in 4-5 Mikrosekunden faltet. Außerdem existiert eine schnell faltende Mutante, die sich unter einer Mikrosekunde faltet. Das Villin-Kopfstück war das Ziel einer Vielzahl von experimentellen und rechnerischen Bemühungen, seine Faltung zu charakterisieren, jedoch haben derzeit keine Vorhersagen im atomaren Maßstab bezüglich des Faltmechanismus des Villin-Kopfstücks die experimentelle Prüfung überlebt und somit die Details der Faltung von dieses scheinbar einfache Modellsystem bleibt unbekannt. Ein Teil der Herausforderung bei der computergestützten Untersuchung der Villin-Faltung ist zweifellos eine Frage der Ressourcen, selbst für dieses relativ kleine System, da bis vor kurzem noch keine Faltungstrajektorien voller Länge erhalten wurden.

Wir haben eine Reihe von MD-Simulationen der Villin-Kopfstückfaltung in explizitem Lösungsmittel durchgeführt, um den Faltungsmechanismus von Villin zu untersuchen und zu verstehen, wie die Faltung in der schnell faltenden Mutante beschleunigt wird. In drei separaten Trajektorien (Filme: 1, 2, 3) wurde festgestellt, dass sich Wildtyp-Villin nach 5-8 Mikrosekunden falten. Die frühen Faltungsstadien waren zwischen den Trajektorien sehr unterschiedlich und untersuchten in jedem Fall eine Vielzahl verschiedener nicht-nativer Konformationen. Gegen Ende münden jedoch alle Trajektorien auf einen gemeinsamen Weg: alle Sekundärstrukturelemente der Proteinform, gelangen aber zu einer Konformation, in der eine der Helices relativ zum Rest des Proteins umgedreht ist (Schlüsselschritte beim Übergang sind unten abgebildet). Eine Faltung kann nur auftreten, nachdem sich die Helices vollständig voneinander getrennt haben und dann in korrekter (d. h. gefalteter) Ausrichtung wieder zusammenkommen. Die rechts gezeigten Ergebnisse einer beispielhaften Trajektorie veranschaulichen die Faltung in einen nativen Zustand in 5,5 Mikrosekunden. Der konsistente Faltungspfad, dem die Villin-Trajektorien spät in der Faltung folgen, stimmt mit experimentellen Befunden überein, dass ein einzelner geschwindigkeitsbestimmender Übergang die Faltung des Proteins dominiert, und liefert Informationen über die Natur dieses Übergangs, die auf andere Weise unmöglich zu erhalten sind. Basierend auf den Simulationen konnten wir eine Reihe von Mutationen auf der umgedrehten Helix identifizieren, die das eingeschlossene Faltungsintermediat destabilisieren und somit die Faltung beschleunigen sollen.

Wichtige Schritte beim Übergang von der umgedrehten zur gefalteten Struktur in einer WT-Billin-Faltungssimulation. Klicken Sie für ein Bild in voller Größe.

Eine schnell faltende Villin-Mutante


KI schafft atemberaubenden Durchbruch bei der Proteinfaltung — aber nicht alle Forscher sind davon überzeugt

In jedem biologischen Körper gibt es Tausende von Proteinen, jedes verdreht und in eine einzigartige Form gefaltet. Die Bildung dieser Formen ist entscheidend für ihre Funktion, und Forscher haben jahrzehntelang darum gekämpft, genau vorherzusagen, wie diese Faltung ablaufen wird.

Nun scheint AlphaFold (die gleiche KI, die Schach und Go beherrschte) dieses Problem gelöst zu haben und im Wesentlichen den Weg für eine neue Revolution in der Biologie zu ebnen. Aber nicht jeder kauft es.

Eine AlphaFold-Vorhersage gegen die Realität.

Was ist die große Sache

Proteine ​​sind lebensnotwendig und unterstützen praktisch alle seine Funktionen, heißt es in einem DeepMind-Blogbeitrag. Das Google-eigene Labor British Artificial Intelligence (KI)-Forschung wurde in den letzten Jahren berühmt, als ihr Algorithmus zum besten Schachspieler der Welt wurde und sogar Menschen in Go übertraf – eine Leistung, die einst für unmöglich gehalten wurde. Nach ein paar weiteren Spielen hat sich das DeepMind-Team einer realen Aufgabe gewidmet: der Proteinfaltung.

Im Jahr 2018 gab das Team bekannt, dass AlphaFold 2 (die zweite Version des Proteinfaltungsalgorithmus) ziemlich gut darin geworden ist, die 3D-Formen von Proteinen vorherzusagen und alle anderen Algorithmen übertrifft. Jetzt, zwei Jahre später, scheint der Algorithmus noch weiter perfektioniert zu sein.

In einem globalen Wettbewerb namens Critical Assessment of Protein Structure Prediction oder CASP werden AlphaFold 2 und anderen Systemen die Aminosäureketten für Proteine ​​gegeben und aufgefordert, ihre Form vorherzusagen. Die Wettkampforganisatoren kennen die tatsächliche Form des Proteins bereits, halten sie aber natürlich geheim. Anschließend wird die Vorhersage mit realen Ergebnissen verglichen. DeepMind-CEO Demis Hassabis nennt dies in einem Video die „Olympiade der Proteinfaltung“.

AlphaFold hat es geschafft. Nicht alle seine Vorhersagen waren genau richtig, aber alle waren sehr nah – es war das Beste, was man seit dem Start von CASP an der Perfektion gesehen hat.

„Die erstaunlich genauen Modelle von AlphaFold haben es uns ermöglicht, eine Proteinstruktur zu lösen, an der wir fast ein Jahrzehnt lang festgehalten haben“, sagte Andrei Lupas, Direktor des Max-Planck-Instituts für Entwicklungsbiologie und CASP-Assessor, im DeepMind-Blog.

CASP verwendet die Metrik „Global Distance Test (GDT)“ und bewertet die Genauigkeit von 0 bis 100. AlphaFold 2 erreichte einen Medianwert von 92,4 für alle Ziele, was einem durchschnittlichen Fehler von ungefähr 1,6 Angström oder etwa der Breite eines Atoms entspricht .

Die Verbesserungen im Proteinfaltungswettbewerb waren langsam. Bildnachweis: DeepMind.

Es ist nicht perfekt. Selbst ein Angström kann ein zu großer Fehler sein und das Protein nutzlos machen oder sogar noch schlimmer machen. Aber die Tatsache, dass es so nah ist, deutet darauf hin, dass eine Lösung in Sicht ist. Das Problem schien so lange unlösbar, dass die Forscher verständlicherweise aufgeregt waren.

“Wir stecken seit fast 50 Jahren an diesem einen Problem fest – wie sich Proteine ​​falten. Zu sehen, wie DeepMind dafür eine Lösung entwickelt, nachdem wir so lange und nach so vielen Stopps und Starts persönlich an diesem Problem gearbeitet haben und uns fragen, ob wir jemals dort ankommen würden, ist ein ganz besonderer Moment.”

Warum Proteinfaltung so wichtig ist

Es kann Jahre dauern, bis ein Forschungsteam die Form einzelner Proteine ​​identifiziert — und diese Formen sind für die biologische Forschung und Arzneimittelentwicklung von entscheidender Bedeutung.

Die Form eines Proteins ist eng mit seiner Funktionsweise verbunden. Wenn Sie seine Form verstehen, haben Sie auch eine ziemlich gute Vorstellung davon, wie es funktioniert.

Eine Methode zu haben, um dies schnell und ohne harte und umfangreiche Arbeit vorherzusagen, könnte eine Revolution in der Biologie einleiten. Es geht nicht nur um die Entwicklung neuer Medikamente und Behandlungen, obwohl das Motivation genug wäre. Die Entwicklung von Enzymen, die Plastik abbauen könnten, die Produktion von Biokraftstoffen und sogar die Entwicklung von Impfstoffen könnten durch Vorhersagealgorithmen für die Proteinfaltung dramatisch beschleunigt werden.

Im Wesentlichen ist die Proteinfaltung zu einem Flaschenhals für die biologische Forschung geworden, und es ist genau die Art von Bereich, in der KI einen großen Unterschied machen und neue Möglichkeiten eröffnen könnte, die noch vor einigen Jahren unmöglich schienen.

Auf einer grundlegenderen Ebene kann uns die Beherrschung der Proteinfaltung sogar dem Verständnis der biologischen Bausteine ​​näher bringen, aus denen die Welt besteht. Professor Andrei Lupas, Direktor des Max-Planck-Instituts für Entwicklungsbiologie und CASP-Assessor, kommentierte:

„Die erstaunlich genauen Modelle von AlphaFold haben es uns ermöglicht, eine Proteinstruktur zu lösen, an der wir fast ein Jahrzehnt lang festgehalten haben, und unsere Bemühungen, zu verstehen, wie Signale durch Zellmembranen übertragen werden, neu zu starten.“

Warum sind nicht alle überzeugt

Ehrlich gesagt dient der Hype niemandem. DeepMind kann jetzt nie mehr halten, was gemacht wurde und hat Experimentalisten dabei durch den Schlamm gezerrt. Und bis DeepMind seinen Code teilt, kümmert es niemanden im Feld und es klopfen sich nur selbst auf die Schulter

&mdash Mike Thompson (@mctucsf) 1. Dezember 2020

Die Ankündigung der Errungenschaften von DeepMind sandte Wellen durch die Wissenschaftswelt, aber nicht alle waren begeistert. Eine Handvoll Forscher haben darauf hingewiesen, dass nur weil es in der CASP-Umgebung funktioniert, es nicht wirklich bedeutet, dass es im wirklichen Leben funktioniert, wo die Möglichkeiten viel vielfältiger sind.

Im Gespräch mit Business Insider äußerte sich Max Little, außerordentlicher Professor und leitender Dozent für Informatik an der University of Birmingham, skeptisch gegenüber den realen Anwendungen. Professor Michael Thompson, ein Experte für Strukturbiologie an der University of California, nutzte Twitter, um auszudrücken, was er als ungerechtfertigten Hype ansieht (siehe oben). #8217t hat sogar eine wissenschaftliche Arbeit mit den Ergebnissen veröffentlicht. Thompson sagte: “der Fortschritt in der Vorhersage ist beeindruckend.” Er fügte hinzu: “Ein großer Schritt nach vorn ist jedoch nicht dasselbe wie das ‘Lösen’ eines jahrzehntealten Problems in Biologie und chemischer Physik.’ 8221

Lior Pachter, Professor für Computerbiologie am California Institute of Technology, wiederholte diese Gefühle. Es ist ein wichtiger Schritt, argumentierte er, aber die Proteinfaltung ist keineswegs gelöst.

Ein Freund (der nicht in der Wissenschaft arbeitet) fragte mich heute, ob es wahr sei, dass die "Proteinfaltung gelöst wurde". Meine kurze Antwort:

Die AlphaFold-Methode lieferte auf CASP14 sehr beeindruckende Ergebnisse. Die Proteinfaltung ist kein gelöstes Problem. pic.twitter.com/ZMc4grC5iP

&mdash Lior Pachter (@lpachter) 1. Dezember 2020

Wie groß dieser Erfolg ist, bleibt abzuwarten, aber er ist ein wichtiger, egal wie man ihn betrachtet. Ob es ein Sprungbrett oder ein echter Durchbruch ist, ist derzeit nicht ganz klar, aber die Forscher werden sicherlich helfen, dies so schnell wie möglich zu klären.

Wenn Sie in der Zwischenzeit einen tieferen Einblick in die Entstehung und Entwicklung von AlphaFold haben möchten, finden Sie hier ein Video, das Ihnen ein gutes Gefühl geben wird:


Computersimulation erklärt Faltung in zellulären Proteinen

Athens, Ga. – Most parts of living organisms come packaged with ribbons. The ribbons are proteins-chains of amino acids that must fold into three-dimensional structures to work properly. But when for any reason the ribbons fold incorrectly, bad things can happen, and in humans misfolded-protein disorders include Alzheimer’s and Parkinson’s diseases.

Scientists have for the past three decades tried to understand what makes proteins fold into functional units and why it happens, and several breakthroughs have occurred through computer modeling-a field that dramatically increases analytical speed.

Now, scientists at the University of Georgia have created a two-step computer simulation (using an important process called the Wang-Landau algorithm) that sheds light on how a crucial protein-glycophorin A-becomes an active part of living cells. The new use of Wang-Landau could lead to a better understanding of the controlling mechanisms behind protein folding.

“Our goal is to present the methodology in a clear, self-consistent way, accessible to any scientist with knowledge of Monte Carlo simulations,” said David Landau, distinguished research professor of physics at the University of Georgia and director of the Center for Simulational Physics.

The research was just published in Die Zeitschrift für Chemische Physik. Authors of the paper are Clare Gervais and Thomas Wüst, formerly of UGA and now employed in Switzerland Landau, and Ying Xu, Regents-Georgia Research Alliance Eminent Scholar and professor of bioinformatics and computational biology, also at UGA. The research was supported by grants from the National Institutes of Health and the National Science Foundation. Landau and Xu are in UGA’s Franklin College of Arts and Sciences.

“This work demonstrates the power and potential of combining expertise from computational physics and computational biology in solving challenging biological problems,” said Xu.

Monte Carlo simulations-the use of algorithms with repeated random samplings to produce reliable predictions-have been around for some decades but have been steadily refined. These simulations are useful for extremely complex problems with multiple variables, and though they often require considerable computer “brain power,” they are able to give scientists startlingly accurate predictions of how biological processes work.

In the current paper, the research team developed a two-step Monte Carlo procedure to investigate, for glycophorin A (GpA), an important biochemical process called dimerization. (A dimer in biology or chemistry consists of two structurally similar units that are held together by intra- or intermolecular forces.)

“One particularly promising approach is to investigate the thermodynamics of protein folding through examining the energy landscape,” Landau explained. “By doing this, we can learn about the characteristics of proteins including possible folding pathways and folding intermediates. Thus, it allows us to bridge the gap between statistical and experimental results.”

Unfortunately, so much is happening physically and biochemically as proteins fold into their functional shapes (called the native state) that the problems must be broken down one by one and studied. That led the team to a question: Could they use a Monte Carlo Simulation along with the Wang-Landau algorithm to discover an efficient simulation method capable of sampling the energy density states that allow such folding?

Perhaps remarkably, they did. The first step in studying the dimerization process was to estimate those states in GpA using Wang-Landau. The second step was to sample various energy and structural “observables” of the system to provide insights into the thermodynamics of the entire system.

The results could be broadly applied to many fields of protein-folding studies that are important to understanding-and treating-certain diseases. (Wang-Landau, named for David Landau and Fugao Wang, is a Monte Carlo algorithm that has proved to be useful in studying a variety of physical systems. Wang was a doctoral student at UGA and now works for the Intel Corp.)

GpA is a 131-amino acid protein that spans the human red-blood cell membrane and is crucial in cell procedures. Because it has been studied in depth for many years, it also serves as an important model system for how similar systems work. That’s why the new simulation may open doors in many other areas of inquiry.

“The main advantage of this two-step approach lies in its flexibility as well as its generality,” said Landau. “This method is widely applicable to any study of biological systems, such as the folding process of soluble proteins, polymers, DNA or protein complexes. Therefore, it is an excellent alternative to other simulation methods used traditionally in the field of protein-folding thermodynamics.”

In the current study, the team discovered something generally important about membrane proteins in general, too. They found that unlike some proteins for which folding is mainly governed by their attraction to or repulsion by water, the process in GpA is driven by a subtle interplay between multiple types of interactions.


Part B: How to (almost) Fold (almost) Anything

In this part you will be folding protein sequences into 3D structures. The goal is to get an understanding on how computational protein modeling works as well as to see first hand the great computing power needed for molecular simulations in biology.

For questions 1 and 2 you will be using the Python version of the Rosetta protein structure prediction software, while for question 3 (extra credit) you can use any of the available software listed in the resources.

The files for this exercise are available to clone or download from the followign GitHub repository: https://github.com/thrakar9/protein_folding_workshop.

Fragen

Folding a small (30 aa) peptide. Follow the "Setting up PyRosetta" instructions below and make sure you have a working PyRosetta installation.

A. Open the "Protein Folding with Pyrosetta" Jupyter notebook. Execute interactively the code in the notebook and answer the questions therein. When you are done, save the notebook (with the answers and all outputs) to an HTML file, and link it to your class page.

B. Pick the lowest energy model and structurally (visually) compare it to the native. How close is it to the native? If its different, what parts did the computer program get wrong? Notiz: To compare the structures you have first to align them to the native. You can do that very easily in PyMOL. Here is a short video tutorial on aligning structures with PyMOL

C. Pick the lowest RMSD model and structurally compare it to the native. How close is it to the native? If its different than the lowest energy model, how is it different? Remember that in a blind case, we will not have the benefit of an RMSD column.

Fold your own sequence! In question 1 we used the sequence from a human protein as input to the folding algorithm. Yet, in principle, you can give any arbitrary sequence of amino acids as an input.

A. Use any process to create a sequence of 30-50 amino acids, and predict it's 3D structure using the notebook from Q1. You can try to run the script with multiple parameter combinations and compare the results. Log the parameters that had the best outcome.

B. Compare the resulting structures of 2(a) with those from question 1. Do the structures in both cases look protein-like ? If not, can you think of an explanation?

C. Try folding multiple sequences to come up with the most protein-looking structure!

Folding protein homologs (extra credit) For this exercise you will be running multiple protein folding simulations. If you don't have access to a powerful machine, use any of the folding servers listed in the resources.

A. Take the protein sequence from question 1 and randomly change 5 letters to any other amino acid. Predict the protein structure of the unedited (probably done already in Q.1) and edited protein and compare the results. Did the changes you introduced changed the structure significantly?

B. Take again the original sequence from Q.1 and now change 5 letters to favorable alternatives according to the BLOSUM Matrix. Predict the protein structure for the new sequence and compare with the results of 3(a). Did the new changes have the same effect to the structure?

C. Mit der BLOSUM matrix as a guide, try to introduce as many changes as possible to the protein sequence, without significantly changing it's structure.


How can computer predictions of protein folding be verified computationally? - Biologie

Interplay between accurate protein structure prediction and successful de novo protein design.

Reviews current state-of-the-art structural protein prediction methods and challenges.

Reviews features of successful de novo protein designs.

Biotechnology applications in therapeutics, biocatalysts, and nanomaterials are summarized.

In the postgenomic era, the medical/biological fields are advancing faster than ever. However, before the power of full-genome sequencing can be fully realized, the connection between amino acid sequence and protein structure, known as the protein folding problem, needs to be elucidated. The protein folding problem remains elusive, with significant difficulties still arising when modeling amino acid sequences lacking an identifiable template. Understanding protein folding will allow for unforeseen advances in protein design often referred to as the inverse protein folding problem. Despite challenges in protein folding, de novo protein design has recently demonstrated significant success via computational techniques. We review advances and challenges in protein structure prediction and de novo protein design, and highlight their interplay in successful biotechnological applications.