Eine Studie der Friedrich-Schiller-Universität Jena unter Leitung von Dr. Kevin M. Jablonka hat mittels des neu entwickelten Prüfverfahrens “ChemBench” die Leistungsfähigkeit moderner KI-Modelle wie GPT-4 in der Chemie bewertet. Die im Ergebnisse zeigen, dass KI in bestimmten chemischen Aufgabenfeldern überzeugen kann, aber auch deutliche Schwächen aufweist, verglichen mit menschlichen Fachleuten.
Mehr als 2.700 Aufgaben im Vergleich zwischen Mensch und Maschine
Um die Fähigkeiten von KI in der Chemie zu bewerten, entwickelte das Team der Universität Jena das Prüfverfahren “ChemBench” mit über 2.700 Aufgaben aus verschiedenen Chemiebereichen, die sowohl Grundlagenwissen als auch komplexe Problemstellungen umfassen. Die Leistung der KI-Modelle wurde mit der von 19 erfahrenen menschlichen Fachleuten verglichen. Während die Menschen Hilfsmittel nutzen durften, mussten die KI-Modelle ihr Wissen ausschließlich aus Trainingsdaten beziehen. Zusätzlich zur Richtigkeit der Antworten bewerteten die Forschenden auch die Einschätzung der Antwortsicherheit durch die KI.
KI ist schneller und effizienter, Menschen sind reflektierter und selbstkritischer
Die Ergebnisse der Untersuchung zeigen ein gemischtes Bild, berichtet Jablonka: “Bei sogar sehr anspruchsvollen lehrbuchartigen Fragen zeigten sich einige KI-Modelle als leistungsstärker als Menschen.” Während die Chemikerinnen und Chemiker in manchen Fällen jedoch offen zugaben, eine Frage nicht sicher beantworten zu können, zeigten die besten KI-Modelle eine gegensätzliche Tendenz: Sie gaben oft mit großer Selbstsicherheit Antworten – selbst, wenn diese inhaltlich falsch waren.
“Fehlerhafte Antworten mit hoher Überzeugung können zu Problemen führen”
“Besonders auffällig war dies bei Fragen zur Interpretation chemischer Strukturen, etwa zur Vorhersage von NMR-Spektren”, stellt Jablonka fest. Hier schienen die Modelle klare Antworten zu liefern, auch wenn sie teilweise grundlegende Fehler machten. Die menschlichen Fachleute hingegen zögerten häufiger und hinterfragten ihre eigenen Schlussfolgerungen. “Diese Diskrepanz ist ein entscheidender Faktor für die praktische Anwendbarkeit von KI in der Chemie”, ordnet Jablonka ein, denn: “Ein Modell, das fehlerhafte Antworten mit hoher Überzeugung liefert, kann in sensiblen Bereichen der Forschung zu Problemen führen.”
“Unsere Forschung zeigt, dass KI eine wichtige Ergänzung für menschliche Expertise sein kann – nicht als Ersatz, sondern als wertvolles Werkzeug, das in der Arbeit unterstützt”, resümiert Kevin Jablonka. “Damit legt unsere Studie den Grundstein für eine engere Zusammenarbeit von KI und menschlicher Expertise in der Chemie.”
Den ganzen Artikel finden Sie hier:
Quelle: Friedrich-Schiller-Universität (05/2025)