Ein Team der Universität Jena hat mit dem neuen Prüfverfahren „ChemBench“ die chemische Fachkompetenz von KI-Modellen (wie GPT-4) im Vergleich zu menschlichen Experten analysiert. Für die Labordigitalisierung liefert die Studie entscheidende Erkenntnisse zur Validität automatisierter Entscheidungen.
Die wichtigsten Ergebnisse im Überblick:
- Hohe Effizienz bei Standardaufgaben: In über 2.700 Tests zeigten KI-Modelle bei komplexen Lehrbuchfragen teils bessere Leistungen als erfahrene Chemiker. Sie agieren schneller und können riesige Datenmengen als Wissensbasis nutzen.
- Defizite bei der Fehlerkultur: Während menschliche Fachleute Unsicherheiten klar benennen, neigen KI-Modelle zu „Halluzinationen mit hoher Überzeugung“. Besonders bei der Interpretation chemischer Strukturen (z. B. NMR-Spektren) lieferten sie oft falsche Antworten mit irreführender Selbstsicherheit.
- Mensch-Maschine-Kollaboration: Die Studie positioniert KI nicht als Ersatz, sondern als komplementäres Werkzeug. Für die Integration in digitale Laborumgebungen (LIMS/ELN) bedeutet dies: KI kann Prozesse beschleunigen, benötigt aber eine menschliche Validierungsschleife („Human-in-the-loop“).
Fazit für die Labordigitalisierung: KI bietet enormes Potenzial für die automatisierte Datenvorverarbeitung, erfordert jedoch robuste Kontrollmechanismen, um Fehlinterpretationen in sensiblen Forschungsbereichen zu vermeiden.
Den ganzen Artikel finden Sie hier:
Quelle: Friedrich-Schiller-Universität (05/2025)
