Chemische Merkmale und maschinelles Lernen unterstützten Vorhersagen von Proteinen

Wissenschaftliche Berichte Band 13, Artikelnummer: 13741 (2023) Diesen Artikel zitieren

239 Zugriffe

3 Altmetrisch

Details zu den Metriken

Es gibt kontinuierliche Bemühungen, die Struktur und biologischen Funktionen von kurzen Wasserstoffbrückenbindungen (SHBs) aufzuklären, deren Donor- und Akzeptor-Heteroatome mehr als 0,3 Å näher beieinander liegen als die Summe ihrer Van-der-Waals-Radien. In dieser Arbeit bewerten wir 1070 Proteinstrukturen mit atomarer Auflösung und charakterisieren die gemeinsamen chemischen Merkmale von SHBs, die zwischen den Seitenketten von Aminosäuren und kleinen Molekülliganden gebildet werden. Anschließend entwickeln wir ein durch maschinelles Lernen unterstütztes Vorhersagemodell für Protein-Ligand-SHBs (MAPSHB-Ligand) und zeigen, dass die Arten von Aminosäuren und Liganden-Funktionsgruppen sowie die Reihenfolge benachbarter Reste wesentliche Faktoren sind, die die Klasse des Protein-Ligands bestimmen Wasserstoffbrücken. Das MAPSHB-Ligand-Modell und seine Implementierung auf unserem Webserver ermöglichen die effektive Identifizierung von Protein-Ligand-SHBs in Proteinen, was das Design von Biomolekülen und Liganden erleichtert, die diese engen Kontakte für verbesserte Funktionen nutzen.

Wasserstoffbrückenbindungen spielen eine wesentliche Rolle bei der Vermittlung der Struktur, Konformationsumwandlung und biologischen Funktionen von Proteinen. Kanonische Wasserstoffbrückenbindungen bilden sich aus Aminosäureresten und Liganden, die O- oder N-Atome enthalten, und die Abstände zwischen den Heteroatomen, R, liegen normalerweise im Bereich von 2,8–3,2 Å1. Zusätzlich zu diesen normalen Wasserstoffbrückenbindungen (NHBs) werden häufig kurze Wasserstoffbrückenbindungen (SHBs) mit R \(\le\) 2,7 Å auf der Oberfläche und in den aktiven Hohlräumen von Proteinen beobachtet, möglicherweise weil ihre dreidimensionalen Falten sie mit sich bringen können das Polypeptidrückgrat, polare Seitenketten und gebundene Liganden in unmittelbarer Nähe2,3,4,5,6. Da die Protonendonor- und -akzeptoratome mehr als 10 % näher beieinander liegen als die Summe ihrer Van-der-Waals-Radien, weichen SHB-Wechselwirkungen erheblich von einfachen elektrostatischen Kräften ab und weisen stattdessen starke kovalente Charaktere auf, die aus der quantenmechanischen Delokalisierung sowohl der Elektronen als auch der Atome resultieren Protonen5,7,8,9,10,11,12,13,14,15,16. Wenn sich beispielsweise R verkürzt, ändert sich die elektronische Energieoberfläche für den Transport des Protons in einer Wasserstoffbindung allmählich von einem Doppelmuldenpotential zu einem Einzelmuldenpotential mit abnehmender Barriere6,7,8,9. In dem Grenzfall, in dem R kürzer als 2,4 Å wird, ist die potenzielle Energieoberfläche des Protons im Wesentlichen barrierelos. In diesen Fällen schwächen elektronische und nukleare Quanteneffekte zusammen den Einschluss der Donor-H-Bindung und ermöglichen die gemeinsame Nutzung des Protons zwischen der Donor- und der Akzeptorgruppe.

Eine bemerkenswerte Art von SHBs sind Wasserstoffbrückenbindungen mit niedriger Barriere, bei denen die Protonentransferbarriere mit der Nullpunktsenergie einer O-H- oder N-H-Schwingung vergleichbar ist, die typischerweise etwa 5 kcal/mol beträgt. Es wird vorgeschlagen, dass die Energiebarriere ausreichend niedrig wird, wenn R einer Wasserstoffbindung zwischen 2,45 und 2,65 Å liegt und die Protonenaffinitäten der Donor- und Akzeptorgruppen eng übereinstimmen. In solch einer kompakten Struktur ermöglichen Kernquanteneffekte, dass sich das Proton frei zwischen den Heteroatomen bewegen kann und die Wasserstoffbindung außergewöhnlich stark wird17,18,19,20. Wasserstoffbrückenbindungen mit niedriger Barriere werden häufig im aktiven Zentrum von Proteinen beobachtet und sind daher mit einer Vielzahl biologischer Prozesse verbunden, die von der Stabilisierung der Reaktionszwischenprodukte in der Enzymkatalyse bis zur Regulierung der Bindung von Antibiotika in bakteriellen Proteinen und der Förderung der biologischen Signalübertragung reichen18,20 ,21,22,23,24,25,26,27,28,29. Seit ihrem ursprünglichen Vorschlag17 wurden Wasserstoffbrückenbindungen mit niedriger Barriere umfassend untersucht, obwohl ihre Geometrie, Stärke und funktionelle Bedeutung immer noch umstritten sind30,31,32,33,34,35,36. Herkömmlicherweise wird für ihre Untersuchung häufig die NMR-Spektroskopie eingesetzt, da die delokalisierten Protonen charakteristische chemische Verschiebungen im Tieffeld und deutliche Isotopeneffekte aufweisen, wenn sie durch Deuterium ersetzt werden9,18,19,20,21,24,37. In jüngerer Zeit haben Fortschritte in der Röntgen- und Neutronenbeugung sowie in der optischen Spektroskopie die direkte Erkennung der Position und der lokalen Umgebung von Protonen ermöglicht und wichtige Informationen über die Struktur und das Verhalten von Wasserstoffbrückenbindungen mit niedriger Barriere in großen Proteinen geliefert23,25,26, 27,28,29,35,36.

SHBs machen etwa 24 % der Wasserstoffbrückenbindungen aus, die sich zwischen den Seitenketten von Aminosäuren bilden, und werden häufig bei der Verknüpfung von Resten im aktiven Zentrum und Liganden beobachtet2,3,4,5,6,38,39. Eine eindeutige Identifizierung dieser kompakten Strukturen kann jedoch nur erreicht werden, wenn Proteine mit atomarer Auflösung (\(\le\)1,2 Å) aufgelöst werden, was eine anspruchsvolle Aufgabe für Strukturbestimmungstechniken wie Röntgen- und Neutronenstreuung und NMR-Spektroskopie bleibt und Kryo-Elektronenmikroskopie-Einzelpartikelanalyse. Aus rechnerischer Sicht basieren Verfeinerungs- und Vorhersagemethoden auf der Grundlage der Molekularmechanik typischerweise auf klassischen Kraftfeldern, die eine starke Abstoßung zwischen benachbarten Atomen bewirken und die Bildung von SHBs verhindern40,41,42. Aufgrund der Koordinatenfehler in den Kristallstrukturen und der Ungenauigkeiten konventioneller Kraftfelder werden SHBs bei der Konstruktion und Vorhersage von Proteinstrukturen oft übersehen. Um diese Herausforderungen zu bewältigen, haben wir kürzlich eine Reihe von Studien durchgeführt, um die strukturellen und chemischen Merkmale von Protein-Protein-SHBs umfassend zu analysieren und ein durch maschinelles Lernen unterstütztes Vorhersagemodell für SHBs (MAPSHB) zu entwerfen, um ihre Identifizierung zu erleichtern6,38,39. In dieser Arbeit konzentrieren wir uns auf Wasserstoffbrückenbindungen, die Aminosäuren und kleine Molekülliganden wie Enzym-Cofaktoren und Medikamente in Proteinen verbinden. Wir werden die gemeinsamen chemischen Eigenschaften von Protein-Ligand-SHBs erkennen und ein durch maschinelles Lernen unterstütztes Modell zur Vorhersage von Protein-Ligand-SHBs (MAPSHB-Ligand) entwickeln, um ihr Auftreten effektiv vorherzusagen.

Aus der Proteindatenbank (PDB)43 sammeln wir 1070 Kristallstrukturen von Protein-Ligand-Komplexen, die durch Röntgen- oder Neutronenbeugungsexperimente verfeinert wurden und eine Auflösung von mindestens 1,1 Å haben. Diese Strukturen mit atomarer Auflösung ermöglichen es uns, die O- und N-Atome mit einem Koordinatenfehler von 0,1 Å zu lokalisieren und SHBs richtig von NHBs zu unterscheiden. Nachdem wir jede Protein-Protein- und Protein-Ligand-Wasserstoffbindung bewertet haben, kategorisieren wir sie als SHB, wenn ihr R zwischen 2,3 und 2,7 Å liegt, oder als NHB, wenn ihr R zwischen 2,8 und 3,2 Å liegt. In diesen Analysen berücksichtigen wir nur die Seitenketten der Aminosäurereste, da sie in SHBs häufig vorkommen (Tabellen S1 und S2), und ignorieren die Polyol- und anorganischen Anionenliganden, da sie hauptsächlich bei der Herstellung von Proteinkristallen verwendet werden und weniger vorhanden sind wahrscheinlich an biologischen Funktionen beteiligt (Tabelle S4). Diese Suche ergibt 7070 SHBs und 22353 NHBs, die zwei Aminosäuren verbinden, sowie 1272 SHBs und 2733 NHBs, an denen sowohl Aminosäuren als auch kleine Molekülliganden beteiligt sind. Daher sind SHBs in etwa jeder dritten Protein-Ligand-Wasserstoffbindung und jeder vierten Protein-Protein-Wasserstoffbindung vorhanden, was ihre Prävalenz in Protein-Ligand-Komplexen unterstreicht.

Aus Abb. 1a geht hervor, dass es zwar weniger ligandenhaltige SHBs gibt als solche, die nur Aminosäuren enthalten, sie neigen jedoch dazu, engere Kontakte mit R zwischen 2,3 und 2,6 Å einzugehen. Basierend auf unseren früheren Berechnungen der elektronischen Struktur von Protein-Protein-SHBs gehen wir davon aus, dass die Protein-Ligand-SHBs eine flache potentielle Energiebarriere für die Protonenteilung und eine Verlängerung der Donor-H-Bindung aufweisen werden. Darüber hinaus erwarten wir, dass ihre Eigenschaften sowohl im elektronischen als auch im nuklearen Freiheitsgrad stark von quantenmechanischen Effekten beeinflusst werden6. 81 % dieser SHBs haben O sowohl als Donor- als auch als Akzeptoratom, während sich der Rest hauptsächlich zwischen O- und N-Atomen in den Aminosäureseitenketten und Liganden befindet (Tabelle S3).

(a) Wahrscheinlichkeitsverteilungen der 7070 Protein-Protein-SHBs und 1272 Protein-Ligand-SHBs bei verschiedenen R. (b) Verteilung der Ligandenkategorien in den Protein-Ligand-SHBs. Beispielstrukturen von SHBs, die zwischen (c) Asp10 und G7P im aktiven Zentrum von \(\beta\)-Phosphoglucomutase (PDB ID 2WF7)44 und (d) Ser163 und NADP\(^+\) im aktiven Zentrum von Curacin gebildet werden Cyclopropanase (PDB ID 5DP2).45 In den Strukturen repräsentieren Silber, Rot, Blau, Braun und Weiß die C-, O-, N-, P- und H-Atome.

In unserem Datensatz sind Protein-Ligand-SHBs in einer Vielzahl biologischer Makromoleküle vorhanden, darunter Enzyme, Signalproteine, Transportproteine und Kohlenhydrat-bindende Proteine. Um ihre mögliche Rolle bei der Modulation der Strukturen und Funktionen dieser Biomoleküle zu bewerten, gruppieren wir die Liganden nach ihrer Molekülgeometrie und ihren chemischen Eigenschaften und identifizieren einige Schlüsselkategorien. Wie in Abb. 1b gezeigt, sind Kohlenhydrate die am häufigsten vorkommende Kategorie und kommen in 21,6 % der Protein-Ligand-SHBs vor. Insbesondere bei \(\alpha\)-L-Fucose, \(\beta\)-D-Glucose, \(\alpha\)-D-Mannose und ihren Derivaten wird häufig beobachtet, dass sie SHB-Wechselwirkungen mit dem aktiven Zentrum eingehen Rückstände kohlenhydratbindender Proteine. Als Beispiel zeigt Abb. 1c die Bindung von 6-Phosphonomethyl-6-desoxy-glucose (G7P) im aktiven Zentrum der \(\beta\)-Phosphoglucomutase, wodurch ein Übergangszustandsanalogon entlang des Isomerisierungswegs der Umwandlung von \( \beta\)-D-Glucose-1-phosphat zu \(\beta\)-D-Glucose-6-phosphat44. Der Rest im aktiven Zentrum Asp10 ist so positioniert, dass seine Carboxylatseitenkette Wasserstoffbrücken mit der 1-OH-Gruppe von G7P eingeht, wodurch ein enger Kontakt von 2,56 Å entsteht und möglicherweise die allgemeine Basenkatalyse des Enzyms erleichtert wird44.

Nukleotide machen 21,4 % der Protein-Ligand-SHBs aus und 72 % davon sind Pyridinnukleotide, d. MODE). Diese Nukleotid-Cofaktoren interagieren mit Dehydrogenasen und Flavoproteinen und sind essentielle Elektronenträger bei der zellulären Energieübertragung und Redoxprozessen. Beispielsweise zeigt Abb. 1d den Hohlraum im aktiven Zentrum der Curacin-Cyclopropanase, einer Enoylreduktase, die die Biosynthese von Cyclopropan in Bakterien katalysiert. Die Hydroxylseitenkette von Ser163 bildet mit der Phosphatgruppe von NADP\(^+\) ein SHB mit einem R von 2,64 Å und verankert so den Cofaktor für die Katalyse.45 Aus Abb. 1b sind Säuren und Anionen wie Fettsäuren und Zitronensäure zu erkennen Säure und das Malonat-Ion werden häufig in Protein-Ligand-SHBs beobachtet. Häme bilden diese engen Kontakte auch häufig in einer Reihe von Proteinen, darunter Nitrophorin, Myoglobin, Cytochrom C und Dehaloperoxidase-Hämoglobin. Darüber hinaus sind gelegentlich auch nicht-proteinogene Aminosäuren wie S-Adenosyl-L-Homocystein und D-Glutaminsäure an der Bildung von SHBs beteiligt. Aufgrund der großen Vielfalt an Liganden gruppieren wir die übrigen Liganden in die Kategorie „Sonstige“. Dazu gehören Alkohol, Drogen und metallhaltige Liganden und sie machen 33,6 % der Protein-Ligand-SHBs aus. Beispielsweise wird beobachtet, dass eine Vielzahl von Proteaseinhibitoren, darunter Indinavir, Amprenavir und Saquinavir, SHBs mit dem katalytischen Asp25-Rest der HIV-1-Protease bilden, was auf die wichtige Rolle dieser kompakten Strukturen bei der therapeutischen Behandlung der Virusinfektion hinweist46,47 ,48.

Das Proteinalphabet enthält 20 kanonische Aminosäuren, von denen 11 polare Seitenketten haben und zur Bildung von Wasserstoffbrückenbindungen fähig sind. Wie in Abb. 2a gezeigt, kommen sie mit Ausnahme von Trp alle häufig in Protein-Ligand-SHBs vor. Interessanterweise weisen die Aminosäuren unterschiedliche Neigungen zur Bildung von SHBs, \(P_{SHBs}\), auf und können in drei Typen eingeteilt werden: (A1) Tyr, Asp und Glu; (A2) Ser, Thr und His; (A3) Arg, Lys, Asn, Gln und Trp. Es ist sehr wahrscheinlich, dass Aminosäuren vom Typ A1 an SHB-Wechselwirkungen beteiligt sind. Insbesondere verfügt Tyr über eine Phenolseitenkette, die mit Liganden 142 SHBs und 50 NHBs bildet und damit den höchsten \(P_{SHB}\) von 74 % aller Aminosäuren aufweist. Es folgen Asp und Glu mit \(P_{SHBs}\)-Werten von 71 % bzw. 64 %. Ihre Carboxylatseitenketten sind als Akzeptoren in den SHBs stark bevorzugt, insbesondere wenn die wechselwirkenden Heteroatome weniger als 2,6 Å voneinander entfernt sind. Im Typ A2 besitzen Ser und Thr Hydroxylgruppen, während His eine neutrale oder kationische Imidazolgruppe in ihren Seitenketten aufweist, und sie fungieren gemeinsam als Protonendonoren oder -akzeptoren in 390 Protein-Ligand-SHBs. Sie sind jedoch gleichermaßen anfällig für die Teilnahme an NHB-Interaktionen und ihre \(P_{SHBs}\)-Werte werden auf 45 %, 50 % bzw. 41 % reduziert. Im Gegensatz zu diesen beiden Fällen bilden Aminosäuren vom Typ A3 eher NHBs und ihr \(P_{SHB}\) liegt unter 16 %.

Die Anzahl (\(N_{SHBs}\)) und Wahrscheinlichkeit (\(P_{SHBs}\)) von Protein-Ligand-SHBs für (a) 11 Aminosäuren mit polaren Seitenketten und (b) repräsentative funktionelle Gruppen in Liganden. (c) Verteilung geladener und neutraler SHBs in den Protein-Ligand-SHBs.

Im Vergleich zu Aminosäuren weisen Liganden häufig komplexere Molekülstrukturen auf und umfassen eine Vielzahl funktioneller Gruppen, die an Wasserstoffbrückenbindungswechselwirkungen teilnehmen können. Monosaccharide sind beispielsweise Aldehyde oder Ketone mit mehreren Hydroxylgruppen, Häm enthält einen Porphyrinring, der häufig mit Carboxylatgruppen verknüpft ist, und die Pyridinnukleotide FAD und NADP bestehen aus Nukleobasen, Ribosen und Phosphaten. Aus Abb. 2b identifizieren wir 11 funktionelle Gruppen, die häufig in Protein-Ligand-SHBs beobachtet werden, und kategorisieren sie anhand ihrer jeweiligen \(P_{SHBs}\)-Werte in vier Typen: (L1) Phenol; (L2) Alkylhydroxyl; (L3) Sulfat, Phosphat, Carboxyl und Carboxylat; (L4) Ester, Amid, Alkylamin und N-haltiger aromatischer Heterocyclus. Obwohl Liganden, die Phenolgruppen enthalten, nur an 52 Wasserstoffbrückenbindungen beteiligt sind, sind sie sehr anfällig für die Bildung von SHB-Wechselwirkungen mit Aminosäuren. Konkret sind 38 dieser Wasserstoffbrückenbindungen SHBs, was zu einem bemerkenswerten \(P_{SHBs}\)-Wert von 73 % für die funktionelle Gruppe vom Typ L1 führt. Beim Typ L2 bilden Alkylhydroxylgruppen die meisten Protein-Ligand-Wasserstoffbrückenbindungen und fungieren in 657 SHBs und 621 NHBs hauptsächlich als Protonendonoren. Wie die Seitenketten von Ser und Thr neigen sie dazu, beide Klassen von Wasserstoffbrückenbindungen zu bilden, was zu einem \(P_{SHBs}\)-Wert von 51 % führt. Im Gegensatz dazu zeigen funktionelle Gruppen in den anderen beiden Typen eine deutlich geringere Tendenz, an SHBs teilzunehmen, wobei die \(P_{SHBs}\)-Werte für Typ L3 zwischen 25 % und 40 % und für Typ L4 bei weniger als 14 % liegen. Abbildung 2a und b legen nahe, dass das Vorhandensein von Ladungen in den Aminosäureseitenketten und Ligandenfunktionsgruppen zur Bildung von SHBs beitragen könnte. Wie in Abb. 2c gezeigt, beobachten wir zahlreiche SHBs mit neutralen Donor- und Akzeptorgruppen, die meisten von ihnen enthalten jedoch mindestens einen geladenen Teilnehmer, wenn R der Wasserstoffbindung im Bereich von 2,35–2,7 Å liegt.

Basierend auf diesen Analysen wählen wir 14 Eingabemerkmale für die Entwicklung des MAPSHB-Ligand-Modells aus. Dazu gehören die Ladung, der Resttyp und das Heteroatom einer Aminosäure sowie die Ladung und die funktionelle Gruppe eines Liganden. Wir verwenden außerdem die Säure- und Base-Dissoziationskonstanten (\(pK_a\) und \(pK_b\)) und den Oktanol-Wasser-Verteilungskoeffizienten (logP), um die Ionisierungs- und Lipophilieeigenschaften eines Liganden zu beschreiben. Darüber hinaus beziehen wir die Sequenz der benachbarten 3 Reste auf beiden Seiten der Aminosäure mit ein, da das MAPSHB-Modell gezeigt hat, dass die benachbarte Proteinsequenz einen erheblichen Einfluss auf die Neigung einer Aminosäure zur Bildung eines SHB gegenüber einem NHB38 hat. Die Position der Aminosäure in einer Protein-Ligand-Wasserstoffbindung ist an der Seitenkette des Proteins festgelegt.

Angesichts dieser chemischen und Sequenzmerkmale wird erwartet, dass das MAPSHB-Ligand-Modell einem SHB oder NHB eine Protein-Ligand-Wasserstoffbindung zuordnet. Zu diesem Zweck teilen wir die gesamte Sammlung von Wasserstoffbrücken zufällig im Verhältnis 80:20 auf und bilden einen Trainingssatz, der 1019 SHBs und 2200 NHBs enthält, sowie einen Testsatz mit 253 SHBs und 533 NHBs. Ähnlich wie bei Protein-Protein-Wasserstoffbrückenbindungen sind die Datensätze von Protein-Ligand-Wasserstoffbrückenbindungen mit doppelt so vielen NHBs wie SHBs unausgeglichen, und die Klassifizierungsvorhersage wird stark von der gegenseitigen Abhängigkeit zwischen den 14 Eingabeparametern beeinflusst. Wir folgen daher den für das MAPSHB-Modell verwendeten Verfahren und rufen die Unterabtastungs- und Gradientenverstärkungsalgorithmen auf, um das MAPSHB-Ligand-Modell zu erstellen38. Wie in Abb. 3 gezeigt, wählen wir zunächst zufällig 1019 NHBs aus dem Trainingssatz aus und kombinieren sie mit den SHBs, um einen ausgewogenen Datensatz mit einer gleichen Anzahl beider Klassen von Wasserstoffbrückenbindungen zu erstellen. Dieser Datensatz wird dann zum Trainieren eines Gradientenverstärkungsmodells verwendet, das eine Reihe von Entscheidungsbäumen verwendet, um die Interaktionseffekte der 14 Eingabemerkmale zu berücksichtigen. Ein solcher Ansatz erfasst effektiv die komplexen und nichtlinearen Beziehungen zwischen den Eingabemerkmalen und führt zu einer genauen Klassifizierung von Wasserstoffbrückenbindungen in SHBs und NHBs49. Nachdem wir diese Schritte für 10 verschiedene ausgeglichene Datensätze wiederholt haben, erhalten wir einen Satz von 10 Gradientenverstärkungsmodellen, die zusammen das MAPSHB-Ligand-Modell bilden. Wir stellen fest, dass der Trainingsdatensatz nur ein geringfügiges Datenungleichgewicht aufweist und es wahrscheinlich ist, dass ein Modell, das ohne die Unterabtastungsstrategie entwickelt wurde, immer noch effektiv funktionieren würde. Wie in Abschnitt 1.2.3 der Zusatzinformationen erläutert, haben wir ein solches Modell nur zur Gradientenverstärkung erstellt und festgestellt, dass es konservativere Vorhersagen trifft, indem es die Klassifizierung von Wasserstoffbrückenbindungen als NHBs bevorzugt. Daher entscheiden wir uns für die Verwendung des MAPSHB-Ligand-Modells für den effektiven Nachweis von Protein-Ligand-SHBs in Proteinstrukturen.

Schematischer Arbeitsablauf für die Entwicklung des MAPSHB-Ligand-Modells.

Wir haben das MAPSHB-Ligand-Modell auf dem Webserver https://wanggroup.rutgers.edu/mapshb-model/the-mapshb-model implementiert. Wenn ein Forscher eine Proteinstruktur auf dem Webserver einreicht, verwendet das Modell die 10 Gradient-Boosting-Modelle, um die Wahrscheinlichkeit zu berechnen, dass es sich bei einer Protein-Ligand-Wasserstoffbindung um einen SHB handelt, und gibt die gemittelte Wahrscheinlichkeit als Endergebnis aus. Die Klasse der Wasserstoffbindung wird dann durch Vergleich der vorhergesagten Wahrscheinlichkeit mit einem Klassifizierungsschwellenwert bestimmt: Sie wird als SHB eingestuft, wenn die Wahrscheinlichkeit größer oder gleich dem Schwellenwert ist, andernfalls als NHB. Das vorhergesagte Auftreten von Protein-Ligand-SHBs könnte als zusätzliche Einschränkung dienen, um die Genauigkeit und Zuverlässigkeit der verfeinerten Proteinstrukturen zu verbessern. Darüber hinaus können diese Vorhersagen sowohl bei der experimentellen als auch rechnerischen Erforschung der strukturellen Anordnungen, der quantenmechanischen Natur und der biologischen Funktionen der spezifischen Protein-Ligand-Wechselwirkungen hilfreich sein.

Um die Wirksamkeit des MAPSHB-Ligand-Modells zu bewerten, wenden wir es auf den Testdatensatz an und berechnen zwei Metriken, Präzision und Rückruf, bei verschiedenen Klassifizierungsschwellenwerten50. Die Präzision wird als Anteil der echten SHBs an den vorhergesagten SHBs berechnet und liefert Einblicke in die Genauigkeit des Modells im Hinblick auf richtig positive und falsch positive Vorhersagen. Der Recall ist der Prozentsatz korrekt vorhergesagter SHBs innerhalb der Gesamtzahl der SHBs im Testdatensatz und quantifiziert, wie vollständig das Modell diese kurzen Kontakte in Proteinen erfassen kann. Beide Metriken sind zwischen 0 und 100 % skaliert und größere Werte weisen auf eine bessere Modellleistung hin. Wie in Abb. 4a dargestellt, gibt es einen klaren Kompromiss zwischen den beiden Metriken und die Erhöhung des Werts der einen geht auf Kosten der anderen. Durch die Nutzung dieser Eigenschaft kann man den Klassifizierungsschwellenwert anpassen und das Gleichgewicht zwischen Präzision und Erinnerung für eine bestimmte Anwendung optimieren. Wenn Forscher beispielsweise die überwiegende Mehrheit der in einer Proteinstruktur vorhandenen Protein-Ligand-SHBs identifizieren möchten, könnten sie einen kleinen Schwellenwert von 0,062 wählen, um eine Erinnerungsrate von 96 % zu erreichen, obwohl die Genauigkeit der Vorhersagen auf 67 begrenzt wäre % (Tabelle S7). Wenn das primäre Ziel hingegen darin besteht, das Auftreten von Protein-Ligand-SHBs präzise zu erkennen, können sich Forscher für einen hohen Schwellenwert von 0,996 entscheiden, der trotz einer niedrigeren Erinnerungsrate von 56 % eine Präzision von 98 % bietet (Tabelle S7). ). Wir empfehlen die Verwendung eines Klassifizierungsschwellenwerts von 0,870. Dies ist derselbe Wert, der für das MAPSHB-Modell gewählt wurde. Bei diesem Schwellenwert erreicht das MAPSHB-Ligand-Modell eine Präzision von 86 % und einen Rückruf von 80 %, was seine Fähigkeit demonstriert, SHBs genau vorherzusagen und gleichzeitig einen wesentlichen Teil davon innerhalb eines Proteins zu identifizieren (Abb. 4a).

Analyse des MAPSHB-Ligandenmodells. (a) Die Präzision und Erinnerung des Modells als Funktion des Klassifizierungsschwellenwerts. Die vertikale gestrichelte Linie stellt unseren empfohlenen Klassifizierungsschwellenwert von 0,870 dar, der eine Präzision von 86 % und eine Trefferquote von 80 % ergibt. (b) Die ROC-Kurve. Die gestrichelten vertikalen und horizontalen Linien stellen die ROC-Kurve eines perfekten Klassifizierungsmodells dar, und die gepunktete diagonale Linie stellt die eines Zufallsvorhersagemodells dar. (c) Die normalisierten Wichtigkeitswerte der 14 Eingabemerkmale. Merkmale, die weniger als 1 % zur Modellvorhersage beitragen, werden in der Kategorie „Sonstige“ zusammengefasst. Dazu gehören die Ladung der Aminosäure und die Ladung \(pK_a\) und \(pK_b\) des Liganden.

Unter Berücksichtigung der Tatsache, dass Präzision und Rückruf bei einem einzigen Klassifizierungsschwellenwert berechnet werden, erstellen wir außerdem eine ROC-Kurve (Receiver Operating Characteristic) und berechnen die Fläche unter der Kurve (AUC) als umfassende Metrik, um die Modellvorhersagen über alle möglichen Klassifizierungsschwellenwerte hinweg zu bewerten51,52 . Wie in Abb. 4b gezeigt, stellt die ROC-Analyse den Rückruf gegen die Falsch-Positiv-Rate der binären Klassifizierung dar, d. h. den Anteil der NHBs, die fälschlicherweise als SHBs klassifiziert wurden, aus allen NHBs im Testdatensatz, und jeder Punkt ergibt sich aus a unterschiedlicher Schwellenwert. Die aus einer ROC-Kurve abgeleitete AUC liegt zwischen 0 und 1, wobei ein höherer Wert auf eine bessere Leistung des Modells bei der Trennung der beiden Klassen von Wasserstoffbrückenbindungen hinweist51,52. Wenn ein Modell beispielsweise zufällig die Klasse einer Wasserstoffbindung vorhersagt, indem es eine faire Münze wirft, würde die ROC-Kurve der diagonalen Linie folgen, bei der der Rückruf der Falsch-Positiv-Rate entspricht, und der AUC-Wert wäre 0,5. Im Vergleich dazu unterscheidet ein perfektes Klassifizierungsmodell genau zwischen SHBs und NHBs und seine ROC-Kurve besteht aus zwei geraden Linien, wie in Abb. 4b dargestellt. Es erreicht einen AUC-Wert von 1, was auf eine einwandfreie Leistung sowohl bei der Erinnerung als auch bei der Falsch-Positiv-Rate hinweist51. Aus Abb. 4b geht hervor, dass die Rückrufrate des MAPSHB-Ligand-Modells anfänglich schnell ansteigt und sich 100 % nähert, wenn die Falsch-Positiv-Rate steigt. Seine ROC-Kurve ähnelt stark der eines perfekten Modells und der AUC-Score beträgt 0,96, was die hervorragende Fähigkeit des MAPSHB-Ligand-Modells zur Unterscheidung zwischen SHBs und NHBs zeigt.

Anschließend berechnen wir die relativen Wichtigkeitswerte der 14 Eingabemerkmale und decken drei Schlüsselfaktoren auf, die die Vorhersage des MAPSHB-Ligand-Modells bestimmen. Wie in Abb. 4c gezeigt, spielen der Resttyp der Aminosäuren und die funktionelle Gruppe der Liganden die wichtigste Rolle bei den Modellvorhersagen und ihre Wichtigkeitswerte liegen bei 19,6 % bzw. 11,8 %. Diese Beobachtung ist nicht überraschend, da diese chemischen Eigenschaften direkt die Protonenaffinität der Donor- und Akzeptorgruppen steuern und somit die Stärke der Wasserstoffbrückenbindungen beeinflussen. In Übereinstimmung mit Abb. 2a und b würde das MAPSHB-Ligand-Modell eine hohe SHB-Wahrscheinlichkeit liefern, wenn die Protonendonor- und -akzeptorgruppen aus Aminosäuren vom Typ A1 wie Asp und Glu und funktionellen Gruppen vom Typ L1 oder L2 wie dem bestehen Alkyl- oder aromatische Hydroxylgruppen der Liganden. Umgekehrt würde das Modell eine kleine SHB-Wahrscheinlichkeit für die Kombination von Aminosäuren vom Typ A3 und Ligandengruppen vom Typ L4 erzeugen, z. B. die Amidseitenkette von Gln und die Amingruppe des Liganden. Beachten Sie, dass Wasserstoffbrückenbindungen, an denen Aminosäuren vom Typ A2 und Ligandengruppen vom Typ L2 oder L3 beteiligt sind, eine ähnliche Wahrscheinlichkeit haben, entweder SHBs oder NHBs zu bilden. In solchen Fällen berücksichtigt das MAPSHB-Ligand-Modell zusätzliche Eingabemerkmale wie den Atomtyp der Aminosäuren und logP der Liganden, um eine eindeutige Klassifizierung vorzunehmen.

Interessanterweise spielt die Proteinsequenz eine wichtige Rolle bei der Modulation der Bildung ligandenhaltiger SHBs. Aus Abb. 4c geht hervor, dass die Sequenzmerkmale insgesamt 63,9 % der Wichtigkeitsbewertung ausmachen, trotz der bescheidenen Beiträge einzelner Reste, die eine wasserstoffgebundene Aminosäure umgeben (\(\sim\)10 %). Als Beispiel beobachten wir, dass die Asp-Reste in den Sequenzen Gly-Ser-Glu-Asp-Gly-Thr-Asp und Asp-Gly-Thr-Asp-Asn-Asp-Tyr häufig an SHB-Wechselwirkungen mit Kohlenhydraten beteiligt sind53, 54,55,56,57. Tatsächlich befinden sich diese Sequenzen in der Calcium- und Monosaccharid-Bindungsschleife des Lektins PA-IIL und sind in verschiedenen PA-IIL-ähnlichen Proteinen konserviert, die in Bakterien vorkommen55. Es ist erwähnenswert, dass der Datensatz nur 41 kohlenhydratbindende Proteine umfasst, die 3,8 % der Gesamtstrukturen ausmachen. Die übrigen Strukturen umfassen ein breites Spektrum an Proteintypen, darunter Signal- und Transportproteine. Daher nutzt das MAPSHB-Ligand-Modell effektiv die verschiedenen Proteinkategorien und Sequenzvariationen, die in den Trainingsdaten vorhanden sind, und ermöglicht so die Verbesserung der Vorhersagekapazität über die chemischen Merkmale hinaus, die mit Protein-Ligand-SHBs verbunden sind. Abgesehen von den drei oben diskutierten Faktoren ergeben die anderen Eingabemerkmale zusammen einen Wichtigkeitswert von 4,7 % (Abb. 4c), was darauf hindeutet, dass sie einen relativ geringen Einfluss auf die Modellvorhersagen haben.

In dieser Arbeit haben wir die obersten 1 % der qualitativ hochwertigsten Strukturen im PDB untersucht und das MAPSHB-Ligand-Modell entwickelt, das effektiv das Vorhandensein von SHBs erkennt, die zwischen Aminosäureseitenketten und Liganden kleiner Moleküle gebildet werden. Wir integrieren dieses Modell weiter in einen Webserver (https://wanggroup.rutgers.edu/mapshb-model/the-mapshb-model) und bieten Forschern bequemen Zugang zur Analyse dieser speziellen Interaktionen. Die Kombination der Modelle MAPSHB-Ligand und MAPSHB stellt einen effizienten Ansatz zur Untersuchung von Protein-Protein- und Protein-Ligand-Wechselwirkungen mit SHBs dar, insbesondere in Fällen, in denen die Proteinstrukturen eine mäßige oder niedrige Auflösung aufweisen. Die aus diesen Modellen gewonnenen Vorhersagen können als zusätzliche Einschränkungen bei der experimentellen und rechnerischen Verfeinerung von Proteinstrukturen dienen und bei der Aufklärung der strukturellen Grundlagen von Protein-Protein- und Protein-Ligand-Wechselwirkungen helfen. Die Modelle des maschinellen Lernens können mit den kontinuierlichen Fortschritten auf dem Gebiet der Strukturbiologie und der zunehmenden Verfügbarkeit hochwertiger Proteinstrukturen weiter verfeinert und optimiert werden. Diese und andere Modelle werden neue technische Strategien ermöglichen, um die Stabilität und Funktionen von Proteinen zu verbessern und rationale Arzneimitteldesignbemühungen zu erleichtern, um durch die Nutzung von SHB-Wechselwirkungen als wichtiger molekularer Mechanismus eine verbesserte Wirksamkeit zu erreichen.

Nachdem wir 1070 hochauflösende Strukturen aus der PDB gesammelt hatten, fügten wir H-Atome zu den Aminosäureresten hinzu und analysierten die Protein-Ligand-Komplexe mit dem Softwarepaket Amber 201658. Die Ligandenstrukturen wurden anhand ihrer Crystallographic Information Files (CIF) bestimmt. Anschließend modellierten wir die Proteine und Liganden mithilfe des Amber14SB-Kraftfelds59,60 bzw. des allgemeinen Amber-Kraftfelds (GAFF)61 und optimierten die Komplexe, während wir die Nicht-H-Atome an ihren Positionen in den Kristallstrukturen hielten. Wir haben drei geometrische Kriterien verwendet, um eine Wasserstoffbindung zu identifizieren: Die Heteroatome sind O- oder N-Atome; 2,3 Å \(\le\) R \(\le\) 3,2 Å; der Donor-H-Akzeptor-Winkel \(\ge\) 135\(^\circ\). Für jede Wasserstoffbrücke haben wir die Ladung, den Rest und das Heteroatom der Aminosäure, die Ladung des Liganden und die relevanten Sequenzinformationen aus dem Programm Amber 201658 erhalten. \(pK_a\), \(pK_b\) und logP der Liganden wurden mithilfe der Molecular Operating Environment (MOE)-Software62 geschätzt. Die funktionellen Gruppen der Liganden wurden anhand ihrer Atomverbindungen bestimmt.

Wir haben die Programmiersprache R verwendet, um das MAPSHB-Ligand-Modell zu entwickeln. Für jeden ausgeglichenen Datensatz wurde ein Gradientenverstärkungsmodell erstellt, indem die GBM-Funktion63 mit einer exponentiellen Verlustfunktion aufgerufen wurde, wobei 5000 Entscheidungsbäume und eine Schrumpfung von 0,01 verwendet wurden. Wir haben die Interaktionstiefe als Hyperparameter behandelt und durch 10-fache Kreuzvalidierung bestimmt. Konkret haben wir jeden ausgeglichenen Datensatz zufällig in 10 gleich große Teilmengen aufgeteilt, von denen 9 Teilmengen für das Training des Gradientenverstärkungsmodells zugewiesen wurden und die verbleibende Teilmenge zur Validierung verwendet wurde. Dieser Vorgang wurde zehnmal wiederholt, wobei jede Teilmenge einmal als Validierungssatz diente. Jede Trainings-Validierungs-Kombination wurde als Falte bezeichnet. In jeder Falte haben wir das Modell mit einer Kandidateninteraktionstiefe zwischen 1 und 12 trainiert, seine Leistung durch Anwendung auf den Validierungssatz bewertet und den Verlust aufgezeichnet. Anschließend haben wir den endgültigen Verlust der möglichen Interaktionstiefe als Durchschnitt der aus allen Falten erhaltenen Verluste berechnet. Wir haben die optimale Interaktionstiefe als diejenige mit dem geringsten Endverlust ermittelt und das Gradientenverstärkungsmodell unter Verwendung des gesamten ausgeglichenen Datensatzes neu trainiert. Die varImp-Funktion im Caret-Paket64 wurde verwendet, um die Wichtigkeitswerte für jedes Gradienten-Boosting-Modell zu berechnen, und die Gesamtwichtigkeitswerte für das MAPSHB-Ligand-Modell wurden durch Mittelung der Werte der 10 Boosting-Modelle ermittelt. Die Daten der ROC-Kurve wurden mit dem plotROC-Paket65 generiert und der AUC-Score wurde mit der auc-Funktion aus dem pROC-Paket66 berechnet. Weitere Einzelheiten zur Wasserstoffbrückenbindungsanalyse sowie zur Entwicklung und Bewertung der Modelle für maschinelles Lernen finden Sie in den Zusatzinformationen.

Alle während dieser Studie generierten oder analysierten Daten sind in diesem veröffentlichten Artikel und seiner Zusatzinformationsdatei enthalten. Strukturen der Protein-Ligand-Komplexe und die Quellcodes, die zum Training und zur Bewertung des MAPSHB-Ligand-Modells verwendet werden, sind auf der Webseite https://wanggroup.rutgers.edu/mapshb-model/source-codes-for-models verfügbar. Das MAPSHB-Ligand-Modell ist auch als Colab-Notebook unter https://colab.research.google.com/drive/1CJS0pDvSaKibSigDWAxkVTif_uQKZ2cX implementiert.

Baker, EN & Hubbard, RE Wasserstoffbrückenbindung in globulären Proteinen. Prog. Biophys. Mol. Biol. 44, 97–179 (1984).

Artikel CAS PubMed Google Scholar

Flocco, MM & Mowbray, SL Seltsame Bettgenossen: Wechselwirkungen zwischen sauren Seitenketten in Proteinen. J. Mol. Biol. 254, 96–105 (1995).

Artikel CAS PubMed Google Scholar

Rajagopal, S. & Vishveshwara, S. Kurze Wasserstoffbrückenbindungen in Proteinen. FEBS J. 272, 1819–1832 (2005).

Artikel CAS PubMed Google Scholar

Panigrahi, SK & Desiraju, GR Starke und schwache Wasserstoffbrückenbindungen in der Protein-Ligand-Grenzfläche. Proteinstruktur. Funktion. Bioinf. 67, 128–141 (2007).

Artikel CAS Google Scholar

Qi, HW & Kulik, HJ Bewertung unerwartet kurzer nichtkovalenter Abstände in Röntgenkristallstrukturen von Proteinen mit elektronischer Strukturanalyse. J. Chem. Inf. Modell. 59, 2199–2211 (2019).

Artikel CAS PubMed Google Scholar

Zhou, S. & Wang, L. Entschlüsselung der strukturellen und chemischen Merkmale biologischer kurzer Wasserstoffbrückenbindungen. Chem. Wissenschaft. 10, 7734–7745 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Huggins, ML 50 Jahre Wasserstoffbrückenbindungstheorie. Angew. Chem. Int. Ed. 10, 147–152 (1971).

Artikel CAS Google Scholar

Hibbert, F. & Emsley, J. Wasserstoffbrückenbindung und chemische Reaktivität. Adv. Physik. Org. Chem. 26, 255–379 (1990).

CAS Google Scholar

Perrin, CL & Nielson, JB „Starke“ Wasserstoffbrückenbindungen in Chemie und Biologie. Annu. Rev. Phys. Chem. 48, 511–544 (1997).

Artikel ADS CAS PubMed Google Scholar

Tuckerman, ME, Marx, D., Klein, ML & Parrinello, M. Zur Quantennatur des gemeinsamen Protons in Wasserstoffbrückenbindungen. Science 275, 817–820 (1997).

Artikel CAS PubMed Google Scholar

Steiner, T. Die Wasserstoffbrücke im Festkörper. Angew. Chem. Int. Ed. 41, 48–76 (2002).

3.0.CO;2-U" data-track-action="article reference" href="https://doi.org/10.1002%2F1521-3773%2820020104%2941%3A1%3C48%3A%3AAID-ANIE48%3E3.0.CO%3B2-U" aria-label="Article reference 11" data-doi="10.1002/1521-3773(20020104)41:13.0.CO;2-U">Artikel CAS Google Scholar

Raugei, S. & Klein, ML Kernquanteneffekte und Wasserstoffbrückenbindungen in Flüssigkeiten. Marmelade. Chem. Soc. 125, 8992–8993 (2003).

Artikel CAS PubMed Google Scholar

Grabowski, SJ Was ist die Kovalenz der Wasserstoffbrückenbindung? Chem. Rev. 111, 2597–2625 (2011).

Artikel CAS PubMed Google Scholar

Li, X.-Z., Walker, B. & Michaelides, A. Quantennatur der Wasserstoffbindung. Proz. Natl. Acad. Wissenschaft. USA 108, 6369–6373 (2011).

Artikel ADS CAS PubMed Central Google Scholar

Ceriotti, M. et al. Kernquanteneffekte in Wasser und wässrigen Systemen: Experiment, Theorie und aktuelle Herausforderungen. Chem. Rev. 116, 7529–7550 (2016).

Artikel CAS PubMed Google Scholar

Dereka, B. et al. Übergang von Wasserstoff zur chemischen Bindung. Wissenschaft 371, 160–164 (2021).

Artikel ADS CAS PubMed Google Scholar

Cleland, WW Wasserstoffbrückenbindungen mit niedriger Barriere und Basen mit niedrigem Fraktionierungsfaktor in enzymatischen Reaktionen. Biochemistry 31, 317–319 (1992).

Artikel CAS PubMed Google Scholar

Frey, P., Whitt, S. & Tobin, J. Eine Wasserstoffbindung mit niedriger Barriere in der katalytischen Triade von Serinproteasen. Wissenschaft 264, 1927–1930 (1994).

Artikel ADS CAS PubMed Google Scholar

Cleland, W. & Kreevoy, M. Wasserstoffbrückenbindungen mit niedriger Barriere und enzymatische Katalyse. Science 264, 1887–1890 (1994).

Artikel ADS CAS PubMed Google Scholar

Cleland, WW, Frey, PA & Gerlt, JA Die Wasserstoffbindung mit niedriger Barriere in der enzymatischen Katalyse. J. Biol. Chem. 273, 25529–25532 (1998).

Artikel CAS PubMed Google Scholar

Mildvan, A. et al. Kurze, starke Wasserstoffbrückenbindungen an Enzymen: NMR- und mechanistische Studien. J. Mol. Struktur. 615, 163–175 (2002).

Artikel ADS CAS Google Scholar

Yamaguchi, S. et al. Wasserstoffbrückenbindung mit niedriger Barriere in photoaktivem gelbem Protein. Proz. Natl. Acad. Wissenschaft. USA 106, 440–444.

Artikel ADS CAS PubMed PubMed Central Google Scholar

Dajnowicz, S. et al. Direkte Visualisierung kritischer Wasserstoffatome in einem Pyridoxal-5\(^\prime\)-Phosphat-Enzym. Nat. Komm. 8, 955 (2017).

Artikel ADS PubMed PubMed Central Google Scholar

Agback, P. & Agback, T. Direkter Nachweis einer Wasserstoffbindung mit niedriger Barriere in der katalytischen Triade einer Serinprotease. Wissenschaft. Rep. 8, 10078 (2018).

Artikel ADS PubMed PubMed Central Google Scholar

Kumar, P., Serpersu, EH & Cuneo, MJ Eine Wasserstoffbrücke mit niedriger Barriere vermittelt Antibiotikaresistenz in einer nichtkanonischen katalytischen Triade. Wissenschaft. Adv. 4, eaas8667 (2018).

Artikel ADS PubMed PubMed Central Google Scholar

Kumar, P. et al. Niedrigbarriere- und kanonische Wasserstoffbrücken modulieren die Aktivität und Spezifität einer katalytischen Triade. Angew. Chem. Int. Ed. 58, 16260–16266 (2019).

Artikel CAS Google Scholar

Dai, S. et al. Wasserstoffbrückenbindungen mit niedriger Barriere bei der Enzymkooperativität. Natur 573, 609–613 (2019).

Artikel ADS CAS PubMed Google Scholar

Kemp, MT, Lewandowski, EM & Chen, Y. Wasserstoffbrückenbindungen mit geringer Barriere in Proteinstruktur und -funktion. Biochim. Biophys. Acta-Proteine-Proteom. 1869, 140557 (2021).

Artikel CAS PubMed Google Scholar

Drago, VN et al. Eine n\(\cdot \cdot \cdot\)h\(\cdot \cdot \cdot\)n-Wasserstoffbindung mit niedriger Barriere präorganisiert die katalytische Stelle der Aspartataminotransferase, um die zweite Halbreaktion zu erleichtern. Chem. Wissenschaft. 13, 10057–10065 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Warshel, A., Papazyan, A. & Kollman, P. Über Wasserstoffbrückenbindungen mit niedriger Barriere und Enzymkatalyse. Science 269, 102–106 (1995).

Artikel ADS CAS PubMed Google Scholar

Ash, EL, Sudmeier, JL, De Fabo, EC & Bachovchin, WW Eine Wasserstoffbrücke mit niedriger Barriere in der katalytischen Triade von Serinproteasen? Theorie versus Experiment. Science 278, 1128 (1997).

Artikel ADS CAS PubMed Google Scholar

Schutz, CN & Warshel, A. Der Vorschlag für eine Wasserstoffbindung mit niedriger Barriere (LBHB) überarbeitet: Der Fall des asp-his-Paares in Serinproteasen. Proteins 55, 711–723 (2004).

Artikel CAS PubMed Google Scholar

Fuhrmann, CN, Daugherty, MD & Agard, DA Subangstrom-Kristallographie zeigt, dass kurze ionische Wasserstoffbrückenbindungen und nicht eine His-Asp-Wasserstoffbindung mit niedriger Barriere den Übergangszustand in der Serinprotease-Katalyse stabilisieren. Marmelade. Chem. Soc. 128, 9086–9102 (2006).

Artikel CAS PubMed Google Scholar

Perrin, CL Sind kurze Wasserstoffbrückenbindungen mit niedriger Barriere ungewöhnlich stark? Acc. Chem. Res. 43, 1550–1557 (2010).

Artikel CAS PubMed Google Scholar

Oltrogge, LM & Boxer, SG Kurze Wasserstoffbrückenbindungen und Protonendelokalisierung in grün fluoreszierendem Protein. ACS Cent. Wissenschaft. 1, 148–156 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Lin, C.-Y. & Boxer, SG Ungewöhnliche spektroskopische und elektrische Feldempfindlichkeit von Chromophoren mit kurzen Wasserstoffbrückenbindungen: GFP und PYP als Modellsysteme. J. Phys. Chem. B 124, 9513–9525 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Pinney, M. et al. Strukturelle Kopplung im gesamten aktiven Zentrum der Wasserstoffbrückenbindungsnetzwerke der Ketosteroidisomerase und des photoaktiven gelben Proteins. Marmelade. Chem. Soc. 140, 9827–9843 (2018).

Artikel CAS PubMed Google Scholar

Zhou, S., Liu, Y., Wang, S. & Wang, L. Effektive Vorhersage kurzer Wasserstoffbrückenbindungen in Proteinen mittels maschineller Lernmethode. Wissenschaft. Rep. 12, 469 (2022).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Zhou, S. & Wang, L. Kurze Wasserstoffbrückenbindungen in Proteinen (Elsevier, 2022).

Buchen Sie Google Scholar

Gippert, GP, Yip, PF, Wright, PE & Case, DA Computermethoden zur Bestimmung von Proteinstrukturen aus NMR-Daten. Biochem. Pharmakol. 40, 15–22 (1990).

Artikel CAS PubMed Google Scholar

Feig, M. Computergestützte Verfeinerung der Proteinstruktur: Fast geschafft und doch noch so weit entfernt. WIRES Comput. Mol. Wissenschaft. 7, e1307 (2017).

Artikel Google Scholar

Moriarty, NW et al. Verbesserte chemische Beschränkungen für die kristallographische Verfeinerung durch Integration des bernsteinfarbenen Kraftfeldes in Phenix. Acta Crystallogr. D 76, 51–62 (2020).

Artikel CAS Google Scholar

Berman, HM et al. Die Proteindatenbank. Nukleinsäuren Res. 28, 235–242 (2000).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Jin, Y. et al.\(\alpha\)-Fluorphosphonate zeigen, wie eine Phosphomutase in ihrer zweistufigen Reaktion die Übergangszustandskonformation gegenüber der Hexoseerkennung beibehält. Proz. Natl. Acad. Wissenschaft. USA 111, 12384–12389 (2014).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Khare, D. et al. Strukturelle Grundlage für die Cyclopropanierung durch eine einzigartige Enoyl-Acyl-Trägerprotein-Reduktase. Struktur 23, 2213–2223 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Liu, F. et al. Kinetische, Stabilitäts- und Strukturveränderungen in hochauflösenden Kristallstrukturen der HIV-1-Protease mit den arzneimittelresistenten Mutationen L24I, I50V und G73S. J. Mol. Biol. 354, 789–800 (2005).

Artikel CAS PubMed PubMed Central Google Scholar

Shen, C.-H., Wang, Y.-F., Kovalevsky, AY, Harrison, RW & Weber, IT Amprenavir-Komplexe mit HIV-1-Protease und ihren arzneimittelresistenten Mutanten verändern hydrophobe Cluster. FEBS J. 277, 3699–3714 (2010).

Artikel CAS PubMed PubMed Central Google Scholar

Olajuyigbe, F., Demitri, N. & Geremia, S. Untersuchung der zweifachen Störung von Inhibitoren und der relativen Wirksamkeit durch Kristallisationen von HIV-1-Protease in Ritonavir- und Saquinavir-Mischungen. Kristall. Wachstumsdes. 11, 4378–4385 (2011).

Artikel CAS Google Scholar

Friedman, JH Greedy-Funktionsnäherung: Eine Gradientenverstärkungsmaschine. Ann. Statist. 29, 1189–1232 (2001).

Artikel MathSciNet MATH Google Scholar

Powers, D. Bewertung: Von Präzision, Erinnerung und F-Maß bis hin zu ROC, Informiertheit, Markiertheit und Korrelation. J. Mach. Lernen. Technol. 2, 37–63 (2011).

Google Scholar

Hanley, JA & McNeil, BJ Die Bedeutung und Verwendung der Fläche unter einer ROC-Kurve (Receiver Operating Characteristic). Radiology 143, 29–36 (1982).

Artikel CAS PubMed Google Scholar

Hajian-Tilaki, K. Analyse der Receiver Operating Characteristic (ROC)-Kurve für die Auswertung medizinischer Diagnosetests. Caspian J. Intern. Med. 4, 627 (2013).

PubMed PubMed Central Google Scholar

Sudakevitz, D. et al. Ein neues hochaffines Mannose-bindendes Lektin RS-IIL aus Ralstonia solanacearum, das strukturell dem Fucose-spezifischen Lektin PA-IIL von Pseudomonas aeruginosa ähnelt. Mol. Mikrobiol. 52, 691–700 (2004).

Artikel CAS PubMed Google Scholar

Perret, S. et al. Strukturelle Grundlage für die Wechselwirkung zwischen menschlichen Milch-Oligosacchariden und dem bakteriellen Lektin PA-IIL von Pseudomonas aeruginosa. Biochem. J. 389, 325–332 (2005).

Artikel CAS PubMed PubMed Central Google Scholar

Mitchell, EP et al. Hochaffine Fucosebindung von Pseudomonas aeruginosa-Lectin PA-IIL: Kristallstruktur des Komplexes mit einer Auflösung von 1,0 å, kombiniert mit Ansätzen aus Thermodynamik und Computerchemie. Proteinstruktur. Funktion. Bioinf. 58, 735–746 (2005).

Artikel CAS Google Scholar

Pokorná, M. et al. Ungewöhnliche entropiebedingte Affinität des Chromobacterium violaceum-Lektins CV-IIL gegenüber Fucose und Mannose. Biochemistry 45, 7501–7510 (2006).

Artikel PubMed Google Scholar

Marotte, K. et al. Röntgenstrukturen und Thermodynamik der Wechselwirkung von PA-IIL aus Pseudomonas aeruginosa mit Disaccharidderivaten. Chem. Med. Chem. 2, 1328–1338 (2007).

Artikel CAS PubMed Google Scholar

Case, D. et al. AMBER 2016 (University of California, 2016).

Google Scholar

Ponder, JW & Case, DA Kraftfelder für Proteinsimulationen. Adv. Proteinchemie. 66, 27–85 (2003).

Artikel CAS PubMed Google Scholar

Maier, JA et al. ff14SB: Verbesserung der Genauigkeit der Proteinseitenketten- und Rückgratparameter von ff99SB. J. Chem. Theorieberechnung. 11, 3696–3713 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Wang, J., Wolf, RM, Caldwell, JW, Kollman, PA & Case, DA Entwicklung und Test eines allgemeinen bernsteinfarbenen Kraftfeldes. J. Comput. Chem. 25, 1157–1174 (2004).

Artikel CAS PubMed Google Scholar

Molekulare Betriebsumgebung (MOE) 2022.02 Chemical Computing Group ULC, 910-1010 Sherbooke St. West, Montreal, QC H3A 2R7, Kanada (2023).

Greenwell, B., Boehmke, B., Cunningham, J. & GBM Developers. GBM: verallgemeinerte Boosted-Regressionsmodelle. R-Paketversion 2.1.8. (2020).

Kuhn, M. Erstellen von Vorhersagemodellen in R mithilfe des Caret-Pakets. J. Stat. Softw. 28, 1–26. (2008).

Sachs, MC plotROC: Ein Werkzeug zum Zeichnen von ROC-Kurven. J. Stat. Softw. 79, 1–19 (2017).

Artikel Google Scholar

Robin, X. et al. pROC: ein Open-Source-Paket für R und S+ zum Analysieren und Vergleichen von ROC-Kurven. BMC Bioinf. 12, 77 (2011).

Artikel Google Scholar

Referenzen herunterladen

Die Autoren danken Dario Minetti und Edward Konczal im SAS-IT-Team für die Einrichtung des Webservers für das MAPSHB-Ligand-Modell. LW würdigt die Unterstützung der National Science Foundation durch die Auszeichnung CHE-1904800. SW würdigt die Unterstützung der National Institutes of Health durch die Auszeichnung R01 HG007377. Die Autoren danken dem Office of Advanced Research Computing der Rutgers University für die Bereitstellung des Zugriffs auf den Amarel-Server.

Diese Autoren trugen gleichermaßen bei: Shengmin Zhou und Yuanhao Liu.

YDS Pharmatech, Inc., Albany, NY, 12226, USA

Shengmin Zhou

Abteilung für Statistik, Institut für quantitative Biomedizin, Rutgers University, Piscataway, NJ, 08854, USA

Yuanhao Liu & Sijian Wang

Abteilung für Chemie und Chemische Biologie, Institut für quantitative Biomedizin, Rutgers University, Piscataway, NJ, 08854, USA

Lu Wang

Sie können diesen Autor auch in PubMed Google Scholar suchen

SZ, YL, SW und LW gestalteten Forschung; SZ und YL führten Untersuchungen durch; SZ, YL, SW und LW analysierten die Ergebnisse. Alle Autoren haben das Manuskript geschrieben und überprüft.

Korrespondenz mit Sijian Wang oder Lu Wang.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative-Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Zhou, S., Liu, Y., Wang, S. et al. Chemische Merkmale und maschinelles Lernen unterstützten Vorhersagen über kurze Wasserstoffbrücken zwischen Proteinen und Liganden. Sci Rep 13, 13741 (2023). https://doi.org/10.1038/s41598-023-40614-7

Zitat herunterladen

Eingegangen: 04. Mai 2023

Angenommen: 14. August 2023

Veröffentlicht: 23. August 2023

DOI: https://doi.org/10.1038/s41598-023-40614-7

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.