Information

Gibt es Proteine ​​mit mehreren Motiven?

Gibt es Proteine ​​mit mehreren Motiven?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Nimmt jedes Protein ein einzelnes spezifisches Strukturmotiv an (z. B. Zinkfinger) oder gibt es Proteine ​​mit mehreren Motiven entlang der Kette?


Die meisten großen Proteine ​​enthalten mehrere Motive; Wenn Sie online nach Bildern von Proteinstrukturen suchen, sollte dies sofort ersichtlich sein. Hier ist ein Beispiel aus etwas, das ich neulich bearbeitet habe: das WD40-Wiederholungsmotiv. Es kommt in vielen Proteinen vor, aber diese Proteine ​​sind sicherlich viel mehr als ein Haufen WD40-Einheiten. Wenn Sie einige der am Ende dieser Wikipedia-Seite aufgeführten Proteine ​​untersuchen, sollten Sie in der Lage sein, zu bestätigen, dass sie komplex sind und aus vielen verschiedenen Arten von Domänen, Formen und Teilen bestehen.

Sie erwähnen auch Zinkfinger; das sind DNA-bindende Motive, die in vielen, vielen verschiedenen DNA-bindenden Proteinen vorkommen. Diese unterschiedlichen DNA-bindenden Proteine ​​haben viele verschiedene Funktionen, und ihre Spezifität wird von einer Vielzahl unterschiedlicher Motive und Domänen übernommen, die sich auf/außerhalb des Zinkfingers selbst befinden. Der Wikipedia-Artikel über Zinkfinger zeigt viele verschiedene Strukturen, in die Zinkfinger eingebettet werden können, und selbst diese Strukturen sind nur kleine Teile der eigentlichen funktionellen Proteine, die in einer Zelle ihre Arbeit verrichten.


Strukturmotivsuche in Echtzeit in Proteinen mit einer invertierten Indexstrategie

Mitgliedschaften RCSB Protein Data Bank, San Diego Supercomputer Center, University of California, San Diego, La Jolla, California, USA, RCSB Protein Data Bank, Institute for Quantitative Biomedicine, Rutgers, The State University of New Jersey, Piscataway, New Jersey, USA , Department of Chemistry and Chemical Biology, Rutgers, The State University of New Jersey, Piscataway, New Jersey, USA, Cancer Institute of New Jersey, Rutgers, The State University of New Jersey, New Brunswick, New Jersey, USA, Skaggs School of Pharmazie und Pharmazeutische Wissenschaften, University of California, San Diego, La Jolla, Kalifornien, USA

Rollen Konzeptualisierung, Methodik, Supervision, Visualisierung, Schreiben – Review & Editing

Zugehörigkeit RCSB Protein Data Bank, San Diego Supercomputer Center, University of California, San Diego, La Jolla, Kalifornien, USA


Zugangsoptionen

Erhalten Sie vollen Zugriff auf Zeitschriften für 1 Jahr

Alle Preise sind Nettopreise.
Die Mehrwertsteuer wird später an der Kasse hinzugefügt.
Die Steuerberechnung wird während des Bezahlvorgangs abgeschlossen.

Erhalten Sie zeitlich begrenzten oder vollständigen Artikelzugriff auf ReadCube.

Alle Preise sind Nettopreise.


Alle supersekundären Strukturen sind Motive, aber nicht alle Motive sind supersekundäre Strukturen.

Motive sind im biologischen Sinne den Modemotiven sehr ähnlich. Es sind Muster, die sich an vielen verschiedenen Stellen wiederholen. Supersekundärstrukturen sind Motive, die aus mehreren Sekundärstrukturen bestehen. Einige Motive sind viel kleiner (Taschen zum Halten von Ionen sind 3-4 Aminosäuren lang) oder beinhalten keine Sekundärstrukturwechselwirkungen (siehe SLMs).

In Bezug auf die zweite Hälfte Ihrer Frage ist eine Proteindomäne (je nachdem, wen Sie fragen) jede Region oder Regionen eines Proteins, die etwas tun, unabhängig davon, wie sie gefaltet ist. Sehr oft können Domains von alleine richtig klappen. Im Allgemeinen wird der erforderliche Protease-/Funktionsassay zur Bestimmung, ob eine mögliche Domäne technisch gesehen wirklich eine Domäne ist, normalerweise nicht durchgeführt. Zum Beispiel wird die in einigen Tyrosinkinase-Rezeptoren gefundene Kinase-Insert-Domäne als Domäne angesehen, obwohl sie a) ziemlich klein ist b) ihre Funktion nicht isoliert erfüllen kann (nicht ganz fair, da ihre Funktion darin besteht, den Rest des Rezeptors zu phosphorylieren). .

Zusammenfassend lässt sich sagen: Proteindomänen haben mehrere konkurrierende Definitionen, sodass Sie nicht davon ausgehen können, dass etwas, das als "Proteindomäne" bezeichnet wird, seine Funktion erfüllen kann, wenn es vom Rest des Proteins getrennt wird.

Domänen können nahezu beliebig groß sein (aufgrund ihrer funktionalen und nicht strukturellen Klassifizierung), aber sehr kleine und sehr große sind selten. Sie können aus beliebig vielen oder gar keinen Motiven bestehen.


Wenn sie so reichlich vorhanden sind, warum sind sie dann so schwer zu finden?

Ein typisches kurzes lineares Motiv weist drei bis vier Aminosäurereste auf, die mit einem Teil der Oberfläche der Ligandendomäne interagieren [32]. Diese Funktionalität diktiert, dass diese Restpositionen evolutionär konserviert werden, obwohl einige Positionen eine flexible Untergruppe von Aminosäuren ermöglichen können, wie etwa ähnlich große hydrophobe Seitenketten (z. B. Ile, Leu, Val) oder Seitenketten mit ähnlicher Ladung (z. B. Asp, Glu) [38]. Ein Bioinformatiker erkennt schnell, dass der Informationsgehalt des Sequenzraums für ein gegebenes Motiv (der durch die Shannon-Entropie dargestellt werden kann) bemerkenswert gering ist und dass ein Proteom so viele kurze Sequenzen enthält, die den Motivmustern entsprechen, dass die meisten nicht funktionsfähig sind. Wenn die Anzahl der falsch-positiven Ergebnisse die Anzahl der echten Motive stark übersteigt, wird das schlechte Signal-Rausch-Verhältnis die rechnerische Entdeckung neuer Motivinstanzen stark behindern. Folglich gibt es noch relativ wenige Beispiele für bioinformatische Entdeckung und anschließende experimentelle Validierung [39–41]. Ebenso ist der Experimentator, der einen Motivkandidaten in seinem Lieblingsprotein herauspickt, in großer Gefahr, eine ungültige Zielstelle zu verfolgen.

Es gibt mindestens drei Gründe, warum die Zelle nicht durch die Überfülle falscher Motivsequenzen verwirrt wird. Der erste ist, dass die Signalübertragung räumlich und zeitlich stark eingeschränkt ist, so dass sich die meisten Kandidaten für falsche Motivliganden niemals physisch treffen können [42]. Die zweite ist, dass viele Kandidatenmotive in gefalteten Proteinen vergraben und für die Ligandendomäne völlig unzugänglich sind. Die dritte ist, dass selbst wenn ein falsches Motiv an eine Partnerdomäne binden würde, dies nicht zu einem regulatorischen Ereignis führt. Dies liegt daran, dass die typische Dissoziationskonstante KD ist niedrig mikromolar, so dass die Zeitgrenze, die normalerweise nur wenige Sekunden beträgt, viel zu kurz ist, um eine Zustandsänderung zu bewirken. Es ist wichtig, sich daran zu erinnern, dass SLiMs immer kooperativ arbeiten [8, 20, 32].


Protein-Glykosylierung

Die Glykosylierung ist eine kritische Funktion des biosynthetisch-sekretorischen Weges im endoplasmatischen Retikulum (ER) und im Golgi-Apparat. Ungefähr die Hälfte aller Proteine, die typischerweise in einer Zelle exprimiert werden, unterliegen dieser Modifikation, die die kovalente Addition von Zuckereinheiten an bestimmte Aminosäuren beinhaltet. Die meisten löslichen und membrangebundenen Proteine, die im endoplasmatischen Retikulum exprimiert werden, sind bis zu einem gewissen Grad glykosyliert, einschließlich sekretierter Proteine, Oberflächenrezeptoren und Liganden und in Organellen residenter Proteine. Darüber hinaus sind einige Proteine, die vom Golgi zum Zytoplasma transportiert werden, ebenfalls glykosyliert. Auch Lipide und Proteoglykane können glykosyliert werden, wodurch die Zahl der Substrate für diese Art der Modifikation deutlich erhöht wird.

Umfang

Die Proteinglykosylierung hat in der Zelle mehrere Funktionen. Im ER wird die Glykosylierung verwendet, um den Status der Proteinfaltung zu überwachen und als Qualitätskontrollmechanismus sicherzustellen, dass nur richtig gefaltete Proteine ​​zum Golgi transportiert werden. Zuckerreste auf löslichen Proteinen können von spezifischen Rezeptoren im trans Golgi-Netzwerk, um ihre Lieferung an den richtigen Bestimmungsort zu erleichtern. Diese Zucker können auch als Liganden für Rezeptoren auf der Zelloberfläche wirken, um die Zellanhaftung zu vermitteln oder Signalübertragungswege zu stimulieren (1). Da sie sehr groß und sperrig sein können, können Oligosaccharide Protein-Protein-Wechselwirkungen beeinflussen, indem sie die Bindung von Proteinen an verwandte Interaktionsdomänen entweder erleichtern oder verhindern. Da sie hydrophil sind, können sie auch die Löslichkeit eines Proteins verändern (2).

Verteilung

Glykosylierte Proteine ​​(Glykoproteine) werden in fast allen untersuchten lebenden Organismen gefunden, einschließlich Eukaryoten, Eubakterien und Archae (3,4). Eukaryoten haben das größte Spektrum an Organismen, die Glykoproteine ​​exprimieren, von einzelligen bis hin zu komplexen mehrzelligen Organismen.

Glykoprotein-Vielfalt

Die Glykosylierung erhöht die Diversität des Proteoms auf ein Niveau, das von keiner anderen posttranslationalen Modifikation erreicht wird. Die Zelle ist in der Lage, diese Vielfalt zu ermöglichen, da fast jeder Aspekt der Glykosylierung modifiziert werden kann, einschließlich:

  • Glycosidbindung—die Stelle der Glykan(Oligosaccharid)-Bindung
  • Glykanzusammensetzung—die Arten von Zuckern, die mit einem bestimmten Protein verbunden sind
  • Glykanstruktur—verzweigte oder unverzweigte Ketten
  • Glykanlänge—kurz- oder langkettige Oligosaccharide

Die Glykosylierung gilt aufgrund der Vielzahl der beteiligten enzymatischen Schritte als die komplexeste posttranslationale Modifikation (5). Zu den molekularen Ereignissen der Glykosylierung gehören die Verknüpfung von Monosacchariden, die Übertragung von Zuckern von einem Substrat auf ein anderes und das Trimmen von Zuckern aus der Glykanstruktur. Im Gegensatz zu anderen Zellprozessen wie Transkription oder Translation erfolgt die Glykosylierung ohne Templat, und daher treten nicht alle diese Schritte notwendigerweise bei jedem Glykosylierungsereignis auf. Anstatt Vorlagen zu verwenden, sind Zellen auf eine Vielzahl von Enzymen angewiesen, die Zucker von einem Molekül zu einem anderen hinzufügen oder entfernen, um die verschiedenen Glykoproteine ​​zu erzeugen, die in einer bestimmten Zelle vorkommen. Obwohl es wegen all der beteiligten Enzyme chaotisch erscheinen mag, sind die verschiedenen Mechanismen der Glykosylierung hochgeordnete, schrittweise Reaktionen, bei denen die individuelle Enzymaktivität vom Abschluss der vorherigen enzymatischen Reaktion abhängt. Da die Enzymaktivität je nach Zelltyp und intrazellulärem Kompartiment variiert, können Zellen Glykoproteine ​​synthetisieren, die sich von anderen Zellen in der Glykanstruktur unterscheiden (5).

Enzyme, die Mono- oder Oligosaccharide von Donormolekülen auf wachsende Oligosaccharidketten oder Proteine ​​übertragen, werden als Glycosyltransferasen (Gtfs) bezeichnet. Jedes Gtf hat eine Spezifität für die Verknüpfung eines bestimmten Zuckers von einem Donor (Zuckernukleotid oder Dolichol) mit einem Substrat und wirkt unabhängig von anderen Gtfs. Diese Enzyme sind breit gefächert, da glycosidische Bindungen an fast jeder funktionellen Proteingruppe nachgewiesen wurden und die Glycosylierung die meisten der üblicherweise vorkommenden Monosaccharide bis zu einem gewissen Grad einschließt (6).

Glykosidasen katalysieren die Hydrolyse glykosidischer Bindungen, um Zucker aus Proteinen zu entfernen. Diese Enzyme sind entscheidend für die Glykanprozessierung im ER und Golgi, und jedes Enzym zeigt Spezifität für die Entfernung eines bestimmten Zuckers (z. B. Mannosidase).

Arten der Glykosylierung

Glykopeptidbindungen können basierend auf der Art der Zucker-Peptid-Bindung und dem gebundenen Oligosaccharid in spezifische Gruppen eingeteilt werden, einschließlich N-, O- und C-verknüpfter Glykosylierung, Glypiation und Phosphoglykosylierung. Da N- und O-Glykosylierung und Glykosylierung die am häufigsten nachgewiesenen Glykosylierungsarten sind, wird in diesem Artikel mehr Gewicht auf diese Modifikationen gelegt.

Arten der Glykosylierung
N-verknüpftGlykan bindet an die Aminogruppe von Asparagin im ER
O-verknüpftMonosaccharide binden an die Hydroxylgruppe von Serin oder Threonin im ER, Golgi, Zytosol und Zellkern
GlypiationGlykankern verbindet ein Phospholipid und ein Protein
C-gebundenMannose bindet an den Indolring von Tryptophan
PhosphoglycosylierungGlykan bindet über eine Phosphodiesterbindung an Serin

Proteine ​​sind nicht auf eine bestimmte Art der Glykosylierung beschränkt. Tatsächlich werden Proteine ​​oft an mehreren Stellen mit unterschiedlichen glykosidischen Bindungen glykosyliert, was von mehreren Faktoren einschließlich der unten beschriebenen abhängt.

1. Enzymverfügbarkeit

Die Glykosylierung wird gesteuert, indem Proteine ​​in Bereiche mit unterschiedlichen Enzymkonzentrationen bewegt werden. Die Zelle bindet Enzyme in spezifische Kompartimente, um ihre Aktivität zu regulieren. Nachdem beispielsweise ein Protein im ER N-glykosyliert wurde, erfolgt die Glykanprozessierung schrittweise, indem Proteine ​​zu verschiedenen Golgi-Zisternen transportiert werden, die hohe Konzentrationen an spezifischen Gtfs und Glykosidasen enthalten.

2. Aminosäuresequenz

Neben dem Erfordernis der richtigen Aminosäure (z. B. Asn für N-gebundenes Ser/Thr für O-gebunden) besitzen viele Enzyme Konsensussequenzen oder -motive, die die Bildung der glykosidischen Bindung ermöglichen (6).

3. Proteinkonformation (Verfügbarkeit)

Wenn Proteine ​​synthetisiert werden, beginnen sie sich in ihre entstehende Sekundärstruktur zu falten, was bestimmte Aminosäuren für die glykosidische Bindung unzugänglich machen kann. Somit müssen die Zielaminosäuren konformativ zugänglich sein, damit die Glykosylierung stattfinden kann.


B. Sekundärstruktur

Sekundärstruktur bezieht sich auf sehr regelmäßige lokale Strukturen innerhalb eines Polypeptids (z. B. eine Helix) und entweder innerhalb oder zwischen Polypeptiden (b-plissierte Blätter). Linus Pauling und Mitarbeiter schlugen 1951 diese beiden Arten von Sekundärstrukturen vor. Ein wenig Linus Paulings Geschichte wäre hier relevant! Bis 1932 hatte Pauling seine Elektronegativitätsskala der Elemente, die die Stärke von Atombindungen in Molekülen vorhersagen könnten. Er hat viel zu unserem Verständnis der Atomorbitale und später zur Struktur biologischer Moleküle beigetragen. Für diese Arbeit erhielt er 1954 den Nobelpreis für Chemie. Später entdeckten er und seine Kollegen, dass die Sichelzellenanämie auf ein abnormales Hämoglobin zurückzuführen ist, und sagten die Alpha-Helix- und Faltblatt-Sekundärstruktur von Proteinen voraus. Obwohl er für diese neuartigen molekulargenetischen Studien keinen zweiten Nobelpreis erhielt, gewann er 1962 den Friedensnobelpreis dafür, dass er fast 10.000 Wissenschaftler überzeugte, bei den Vereinten Nationen eine Petition für das Verbot atmosphärischer Atombombentests einzureichen. Ein ausführlicherer Rückblick auf sein außergewöhnliches Leben (z. B. at Linus Pauling-Kurzbiografie) ist lesenswert!

Sekundärstrukturkonformationen treten aufgrund der spontanen Bildung von Wasserstoffbrückenbindungen zwischen Aminogruppen und Sauerstoff entlang des Polypeptidrückgrats auf, wie in den beiden linken Feldern in der Zeichnung unten gezeigt. Beachten Sie, dass Aminosäureseitenketten keine signifikante Rolle in der Sekundärstruktur spielen.

Die a-Helix oder b-Faltblätter sind die stabilste Anordnung von H-Brücken in der(n) Kette(n). Diese Regionen mit geordneter Sekundärstruktur in einem Polypeptid können durch unterschiedliche Längen weniger strukturierter Peptide, genannt , getrennt werden zufällige Spulen. Alle drei dieser Elemente der Sekundärstruktur können in einem einzelnen Polypeptid oder Protein vorkommen, das in seine Tertiärstruktur gefaltet wurde, wie in der Abbildung oben rechts gezeigt. Die plissierten Blätter werden als Bänder mit Pfeilspitzen dargestellt, die darstellen N-zu-C oder C-zu-N Polarität der Blätter. Wie Sie sehen können, kann ein Paar von Peptidregionen, die ein gefaltetes Blatt bilden, dies entweder in paralleler oder antiparalleler Richtung tun (siehe die Pfeilspitzen der Bänder), was von anderen Einflüssen abhängt, die die Proteinfaltung zur Bildung einer Tertiärstruktur diktieren. Einige Polypeptide gehen nie über ihre Sekundärstruktur hinaus, bleiben faserig und unlöslich. Keratin ist vielleicht das bekannteste Beispiel für a faseriges Protein, die Haare, Fingernägel, Vogelfedern und sogar Filamente des Zytoskeletts bilden. Die meisten Polypeptide und Proteine ​​falten sich jedoch, nehmen eine Tertiärstruktur an und werden löslich kugelförmige Proteine.


Vereinigen gemeinsame Prinzipien der regulatorischen Evolution Motive in DNA, RNA und Protein?

Viele Parallelen wurden für die Motivverwendung auf transkriptionaler, posttranskriptionaler und posttranslationaler Ebene beobachtet. Beispielsweise ist die Spezifizierung von Antworten durch die kooperative Wirkung von multiplen Motiv-rekrutierten Regulatoren ein Thema auf allen Regulationsebenen (Transkription: [97], Spleißen: [98], miRNA [99], Signaling [11]). Ähnlich wie Kombinationen von SLiMs in ungeordneten Regionen, die zu kombinatorischen posttranslationalen regulatorischen Schaltern führen [55], integrieren Enhancer komplexe Transkriptionsschaltkreise in einzelne Gene [97]. Wie die regulatorischen Regionen von DNA und (Prä-)mRNA sind ungeordnete Regionen, die mehrere SLiMs enthalten, Schlüsselherde, in denen der Gewinn und Verlust von Motiven zu komplexen Veränderungen in der Zellregulation und Physiologie führen kann [38, 68]. Ein weiteres Beispiel ist die Analogie der SLiM-Bindungstasche und der SLiM-Koevolution mit der DNA-Bindungsdomäne-DNA-Regulatorische-Element-Koevolution. Aufgrund der vorhergesagten Pleiotropie von Veränderungen der DNA-Bindungsdomäne-Spezifität wurde argumentiert, dass solche Veränderungen (in trans) im Vergleich zu Veränderungen in den modularen DNA-Bindungsstellen (in cis) vergleichsweise selten sein sollten [18]. Dennoch wurden später mehrere Beispiele für solche Veränderungen und die entsprechende Koevolution von DNA-Bindungsstellen identifiziert (z. B. [100]). Auch hier gibt es Beispiele für Pocket-SLiM-Koevolution [40, 77, 78]. Schließlich haben kürzlich durchgeführte Chromatin-Immunpräzipitations- und DNase-Überempfindlichkeitskartierungsexperimente im Genommaßstab gezeigt, dass sich DNA-Protein-Wechselwirkungen zwischen den Spezies schnell entwickeln. Diese Ergebnisse legen nahe, dass viele DNA-Motiv-Protein-Wechselwirkungen in komplexen Genomen im Laufe der Evolution nicht erhalten bleiben, während eine kleine Untergruppe funktioneller Bindungsstellen in der Nähe wichtiger Zielgene erhalten bleibt [101]. Dies ist analog zum oben beschriebenen evolutionären Reservoirmodell, bei dem die meisten SLiMs evolutionär vorübergehend sind und einige Kern-SLiMs durch natürliche Selektion erhalten bleiben. Der schnelle evolutionäre Turnover eines großen Teils regulatorischer Interaktionen stimmt mit einem Modell überein, bei dem die meisten Veränderungen in Bezug auf die Selektion nahezu neutral sind [65, 102] (obwohl wir anmerken, dass eine extensive Abstammungs-spezifische Selektion auch ähnliche Muster erzeugen könnte [103 ]). Wenn das meist neutrale Modell richtig ist, wird nur ein kleiner Bruchteil des evolutionären Reservoirs, das durch nichtadaptive Prozesse geschaffen wurde, durch natürliche Selektion erhalten bleiben. Aufgrund der Größe und Komplexität eukaryontischer Genome und Proteome und der kurzen, degenerierten Natur der Motive ist die Rate der aus dem Nichts Der Motivgewinn kann schnell genug sein, dass auf allen Ebenen (DNA, RNA und Proteine) eine große Zahl neutraler regulatorischer Interaktionen vorhanden ist.


Hintergrund

Da Sequenzierungsprojekte in erstaunlicher Geschwindigkeit biologische Sequenzen generieren, ist die Identifizierung funktioneller Signaturen direkt aus Sequenzen von besonderem Wert in der Funktionsbiologie [1, 2]. Diese Signaturen können dann verwendet werden, um die Funktion oder funktionell wichtige Reste eines neuen Proteins vorherzusagen. Die funktionell wichtigen Reste von Proteinen sind im Allgemeinen während der Evolution konserviert [3]. Konservierte Regionen einer Proteinsequenz können durch Abgleichen des Abfrageproteins mit seinen Homologen in Proteindatenbanken identifiziert werden. Alternativ ist Pattern Mining (auch Motiverkennung genannt) ein effektiver Ansatz, um konservierte Regionen zu identifizieren [4–7].

Motivfindungsalgorithmen sind auf diesem Gebiet weit verbreitet, um Sequenzsignaturen zu finden, wenn ein Satz verwandter Sequenzen gegeben ist (Pattern Mining). Die resultierenden Motive werden dann verwendet, um Proteinfunktion und funktionelle Stellen vorherzusagen, wenn ihnen eine neue Sequenz gegeben wird (Mustervergleich). Zuvor haben wir die Motivfindung auf hybride Weise eingesetzt: den direkten Nachweis funktioneller Regionen einer neuen Sequenz, indem wir ihre Sequenz zusammen mit einem Satz von Homologen aus der Sequenzdatenbank (MAGIIC-PRO, [8]) abbauen. Ähnlich wie beim Multiple Sequence Alignment (MSA) kann MAGIIC-PRO aufgerufen werden, solange das Abfrageprotein genügend Homologe aus Datenbanken findet (dies kann nach Abschluss zahlreicher Sequenzierungsprojekte leicht erreicht werden). Auf diese Weise können funktionelle Reste des Abfrageproteins vorhergesagt werden, selbst wenn die Funktion der gesammelten Homologen noch unbekannt ist. MAGIIC-PRO identifizierte eine Reihe von Resten, die während der Evolution gleichzeitig konserviert werden. Dies kann die von MSA bereitgestellten Konservierungsinformationen ergänzen.

Die PROSITE-Sprache ist eine der formalen Möglichkeiten, ein Muster auszudrücken [9]. Ein Großbuchstabe in einem Muster wird als exaktes Symbol bezeichnet. Zum Beispiel hat das Muster 'K-x-L-x(2)-E-x(2,3)-G' vier exakte Symbole. Ein Muster enthält neben Großbuchstaben auch Platzhalter, die durch das Symbol 'x' ausgedrückt werden. Ein Platzhalter kann beliebigen Buchstaben in einer biologischen Sequenz entsprechen. Dieses Muster stimmt mit jeder Sequenz überein, die eine Teilzeichenfolge enthält, die mit 'K' beginnt, gefolgt von einem beliebigen Buchstaben, gefolgt von 'L', gefolgt von zwei beliebigen Buchstaben, gefolgt von 'E', gefolgt von zwei bis drei beliebigen Buchstaben und endet mit 'G'. Sowohl 'x' als auch 'x(2)' werden starre Lücken genannt, eine Lücke fester Länge. Eine starre Lücke kann einer bestimmten Anzahl aufeinanderfolgender Reste entsprechen, an denen Mutationen zulässig sind. Andererseits ist x(2,3) eine flexible Lücke, eine Lücke von unregelmäßiger Länge. Eine flexible Lücke kann einer Reihe von Resten entsprechen, an denen nicht nur Mutationen vorhanden sind, sondern auch Insertionen oder Deletionen erlaubt sind.

Bei Proteinen sind die mit einer funktionellen Stelle assoziierten Reste nicht notwendigerweise in einer lokalen Region der Sequenz zu finden [5, 7, 10, 11]. Vielmehr sind die Reste einer funktionellen Stelle gewöhnlich in mehrere lokale Regionen geclustert, die zusammen eine wichtige Unterstruktur bilden, wenn das Protein gefaltet wird. Es wird beobachtet, dass innerhalb von Proteinfamilien in solchen lokal konservierten Regionen nur eine begrenzte Flexibilität erlaubt ist, während große unregelmäßige Lücken zwischen diesen Regionen vorhanden sein können, solange die eingefügten oder deletierten Segmente die Funktionalität der Proteine ​​nicht beeinträchtigen [3, 12 –14]. In Abbildung 1 zeigen wir ein Beispiel für solche strukturierten Motive. Ein strukturiertes Motiv 'RxYSx(54,96)-GxGx(2)-Px(65,111)-YxCG' wird auf dem Protein Ferredoxin-NADP [Swiss-Prot Zugangsnummer: P10933] und zusätzlich 150 Oxidoreduktase FAD/NAD(P) beobachtet. -Bindungsproteine ​​der gleichen Proteinfamilie [InterPro-Eintrag: IPR001433] mit P10933. Dieses Motiv enthält drei Blöcke, und zwei Lücken zwischen den Blöcken, 'x(54,96)' und 'x(65,111)', sind ziemlich groß und flexibel. In Abbildung 1 ist gezeigt, dass die drei Musterblöcke, obwohl in der Sequenz weit voneinander entfernt, im dreidimensionalen Raum gruppiert sind und gemeinsam eine Bindungsregion bilden, die mit der Bindung von Flavinadenindinukleotid (FAD) und Nicotinamidadenindinukleotidphosphat (NADP .) verbunden ist ) Liganden. Diese Beobachtung motiviert die aktuelle Studie, einen Algorithmus zur Entdeckung von Sequenzmotiven zu entwickeln, die große flexible Lücken zwischen den Clustern exakter Symbole enthalten. Obwohl solche strukturierten Motive in Studien zu cis-regulatorischen Elementen in DNA eingeführt und analysiert wurden [15–18], wurden nur wenige Algorithmen speziell für die Proteinsequenzanalyse entwickelt [15, 19].

Ein Beispiel für strukturierte Motive Dieses Motiv wird auf dem Protein Ferredoxin-NADP-Reduktase [Swiss-Prot: P10933] und zusätzlichen 150 Oxidoreduktase-FAD/NAD(P)-bindenden Proteinen aus dem InterPro-Eintrag [InterPro: IPR001433] beobachtet. Das Motiv besteht aus drei lokal konservierten Regionen 'R-x-Y-S', 'G-x-G-x(2)-P' und 'Y-x-C-G', die durch zwei große Lücken x(54,96) und x(65,111) verschachtelt sind. Wenn diese drei Musterblöcke auf die 3D-Struktur der Ferredoxin-NADP-Reduktase kartiert werden, wird gezeigt, dass alle drei Blöcke nahe der FAD/NAD(P)-Bindungsstelle liegen. Musterblöcke werden eingezeichnet in Stöcke verschiedene Farben verwenden. Die lange Lücke zwischen dem ersten und dem zweiten Block (dem zweiten und dritten Block) ist mit aufgetragen Bänder in orange (lila). Die Liganden FAD und NADP sind dargestellt als Kugel-und-Stock in blau bzw. rot.

Das Auffinden funktionaler Signaturen mit großen unregelmäßigen Lücken erschwert die Mining-Verfahren. Motivfindungsalgorithmen verwenden normalerweise Beschränkungen, um bestimmte Typen von Mustern zu erzeugen, die von den Benutzern erwartet werden. Tabelle 1 fasst mehrere bekannte Einschränkungsmodelle für den Umgang mit Lücken bei der Motivfindung in biologischen Sequenzen zusammen. Algorithmen, die nur kurze konservierte Wörter (ohne Lücken) [5, 20] oder starre Lücken [4, 6, 21–23] berücksichtigen, identifizieren effizient und effektiv kurze Motive (Modell 1). Jedoch erlegen solche Modelle dem Suchraum der Muster, die entdeckt werden können, Beschränkungen auf, da keine Einfügungen oder Deletionen über Sequenzen hinweg erlaubt sind. Andererseits führt der Pratt-Algorithmus [19] das Konzept der Lückenflexibilität ein, um den Suchraum zu vergrößern (Modell 2). Ein allgemeinerer Typ von Einschränkungsmodellen legt die untere bzw. die obere Grenze einer Lücke fest (Modell 3). Das Zulassen großer flexibler Lücken zwischen zwei beliebigen benachbarten exakten Symbolen induziert jedoch verrauschte Muster und verschlechtert auch die Systemleistung [24]. Ein weiteres Gap Constraint-Modell betrachtet eine Menge kontinuierlicher Wörter, die mit unbegrenzten flexiblen Lücken verschachtelt sind (Modell 4) [7, 11, 14]. Dieses Modell ist wertvoll, da die großen Insertionen und Deletionen, die während der Evolution auftreten, richtig gehandhabt werden können. Die Verwendung kontinuierlicher Wörter für lokal konservierte Regionen schränkt jedoch ihre Anwendung bei der Analyse von Proteinsequenzen ein, bei denen häufig konservative Substitutionen beobachtet werden. Darüber hinaus führt die unbegrenzte Spaltflexibilität in Modell 4 auch zu Geräuschen.

Das in Tabelle 1 vorgestellte Modell 5 wurde zuvor in unserer neueren Arbeit vorgeschlagen [24]. RGx(0,1)-D'. Bei solchen Mustern sind die Symbole in vielen Musterblöcken gruppiert, wobei die Lücken innerhalb eines Musterblocks Intrablocklücken genannt werden und die Lücken zwischen zwei aufeinanderfolgenden Blöcken Interblocklücken genannt werden. Wir haben in der vorherigen Studie [24] gezeigt, dass die Verwendung der Kombination von Intra- und Inter-Block-Gap-Beschränkungen die Mining-Effizienz erheblich verbessert. Die MAGIIC-Muster ähneln den strukturierten Motiven, die für die Entdeckung von cis-regulatorischen Elementen vorgeschlagen wurden [15]. Obwohl ursprünglich für das Mining von DNA-Sequenzen entwickelt, kann das Paket RISOTTO auch zum Mining von Proteinsequenzen verwendet werden.

Nachdem wir hauptsächlich MAGIIC verwendet hatten, um funktionelle Motive von Proteinsequenzen zu identifizieren, beobachteten wir, dass die Beschränkung der Intra-Block-Lücken auf nur starre Lücken die Mining-Ergebnisse weiter verfeinern kann. In dieser Hinsicht verwendet der später vorgeschlagene Webserver MAGIIC-PRO einfach starre Intra-Block-Lücken, um lokale Mutationen zu handhaben. In MAGIIC-PRO wird die maximale Länge einer starren Intrablock-Lücke auf einen kleinen Wert eingestellt, beispielsweise zwei oder drei. Hinsichtlich der Lücken zwischen Blöcken setzen sowohl MAGIIC als auch RISOTTO die minimalen (eine untere Grenze) und maximalen (eine obere Grenze) Abstände zwischen den Blöcken im Voraus. Bei der Entwicklung von MAGIIC-PRO haben wir festgestellt, dass es sehr schwierig ist, die minimalen und maximalen Abstände zwischen Blöcken vor der Motiverkennung festzulegen. Dieses Problem kann gelöst werden, wenn beim Pattern-Mining ein Abfrageprotein beteiligt ist. Das heißt, die minimalen und maximalen Abstände zwischen Blöcken können dynamisch gemäß den in der Abfragesequenz vorhandenen Lücken eingestellt werden. Mit der Länge der in der Abfragesequenz beobachteten Lücken wurde eine neue Einschränkung namens „maximale relative Flexibilität“ entwickelt, um die untere und obere Grenze zu berechnen, die zwischen den Homologen für diese spezielle Lücke zulässig sind. Muster, die das in MAGIIC-PRO vorgeschlagene Beschränkungsmodell erfüllen, werden als W-Muster bezeichnet.

Diese Studie zielt darauf ab, den Algorithmus WildSpan zum effizienten Entdecken von W-Mustern einzuführen. In diesem Papier haben wir gezeigt, dass die Einschränkung 'maximale relative Flexibilität' einige gute Eigenschaften hat und daher aggressive Beschneidungsstrategien von WildSpan eingesetzt werden können, um die Effizienz zu verbessern. Die Leistung von WildSpan wird auf zwei Arten bewertet. Der Vergleich von W-Mustern mit annotierten Motiven in bestehenden Datenbanken zeigt, dass W-Muster die funktionellen Signaturen von Proteinen gut erfassen können. Ein Vergleich von WildSpan mit existierenden Algorithmen, die eine ähnliche Aufgabe erfüllen, zeigt, dass W-Muster beim Nachweis von Proteinfunktionsregionen leistungsfähiger sind als derzeit existierende Constraint-Modelle.

In diesem Papier veranschaulichen wir auch, wie WildSpan als proteinbasierter oder familienbasierter Abbaumodus für zukünftige Proteomikanwendungen verwendet werden kann. Die Mining-Ergebnisse des proteinbasierten Minings zeigen, dass WildSpan funktionelle oder strukturelle Signaturen des Abfrageproteins direkt aus den Proteinsequenzen effizient und effektiv identifizieren kann. Andererseits zeigen die Mining-Ergebnisse des familienbasierten Minings, dass WildSpan verwendet werden kann, um Sequenzsignaturen von Proteinfamilien für zukünftige Funktionsvorhersagen und Sequenzannotationen zu identifizieren. Die Idee des proteinbasierten Minings wurde 2006 in unsere Webserver MAGIIC-PRO [8] und 2007 iPDA [25] zur Annotation von Proteinsequenzen integriert. Andererseits wurde 2008 die Idee des Family-based Mining in den Webserver E1DS [26] integriert, um katalytische Zentren und Rückstände von Enzymen vorherzusagen. Zusammenfassend lässt sich sagen, dass, obwohl mehrere unabhängige Studien erfolgreich die Nützlichkeit des Constraint-Modells W-Muster gezeigt haben, das Design des WildSpan-Algorithmus zuvor nicht an anderer Stelle behandelt und veröffentlicht wurde. Darüber hinaus stehen das Standalone-Paket und die Open Source Codes von WildSpan nun zum Download bereit und können zukünftig für groß angelegte Proteomstudien verwendet werden.


FUSSNOTEN

Artikel vor der Drucklegung online veröffentlicht. Mol.-Nr. Biol. Zelle 10.1091/mbc.E03-02-0120. Artikel und Veröffentlichungsdatum sind verfügbar unter www.molbiolcell.org/cgi/doi/10.1091/mbc.E03-02-0120.

Verwendete Abkürzungen: CI-M6PR, kationenunabhängiger Mannose-6-Phosphat-Rezeptor EEA1, frühes endosomales Antigen-1 GST, Glutathion S-Transferase lgp, lysosomales Membranglykoprotein NCL, neuronale Ceroidlipofuszinose NRK, normale Rattennieren-PDI, Proteindisulfidisomerase PBS, phosphatgepufferte Kochsalzlösung PFA, Paraformaldehyd TMD, Transmembrandomäne wt, Wildtyp.


Schau das Video: Die Transkription - Proteinbiosynthese Teil 1 (Januar 2023).