Sprachmodelle, wie chemische Transformer, finden zunehmend Anwendung in den Naturwissenschaften, etwa zur Vorhersage potenzieller pharmazeutischer Wirkstoffe. Eine aktuelle Studie der Universität Bonn beleuchtet die Funktionsweise dieser KI-Algorithmen und kommt zu dem Schluss, dass deren Vorhersagen nicht auf einem tiefen biochemischen Verständnis basieren.
Die Forschung um Prof. Dr. Jürgen Bajorath und seinen Doktoranden Jannik Roth untersuchte, wie chemische Sprachmodelle – die auf textbasierten Molekül-Repräsentationen wie SMILES-Strings trainiert werden – zu ihren Ergebnissen gelangen. Durch gezielte Manipulation der Trainingsdaten im Kontext des sequenzbasierten Moleküldesigns stellten die Wissenschaftler fest:
- Die Modelle konnten plausible Hemmstoffe für neue Enzyme vorschlagen, jedoch nur, wenn diese Enzyme einer bereits im Training verwendeten Familie ähnelten.
- Wurde ein Enzym aus einer völlig anderen Familie verwendet, lieferte das Modell unbrauchbare Ergebnisse.
Dies deutet darauf hin, dass die Modelle keine allgemeingültigen chemischen oder biochemischen Prinzipien erlernen, sondern ihre Schlussfolgerungen lediglich auf statistischen Zusammenhängen und Ähnlichkeiten in den Daten basieren. Sie „plappern“ somit mit leichten Variationen nach, was sie zuvor gelernt haben. Die Ergebnisse der Modelle können in der Wirkstoff-Forschung dennoch nützlich sein, beispielsweise zur Entdeckung neuer Einsatzgebiete bekannter Wirkstoffe, sollten aber nicht überinterpretiert werden.
Quelle: Rheinische Friedrich-Wilhelms-Universität Bonn (10/2025)
