Zurück zur Übersicht
LifeSciBench testet KI-Modelle an realistischen Forschungs- und Laboraufgaben. Erste Auswertung zeigt: der beste Modelllauf erreicht nur rund 36 Prozent Task-Passrate, die Reife für autonome Forschung bleibt damit fraglich.
OpenAI hat LifeSciBench veröffentlicht, einen fachlich orientierten Benchmark mit 750 von Expertinnen und Experten verfassten Aufgaben aus mehreren Forschungsworkflows und biologischen Domänen. Die Ankündigung ist Teil der jüngsten Erweiterung der Modellreihe GPT-Rosalind.
Die Auswertung nutzt detaillierte Bewertungsrichtlinien und Hunderttausende Bewertungsdatenpunkte. In der veröffentlichten Auswertung erreichte der bestplatzierte getestete Modelllauf rund 36 Prozent Task-Passrate, viele Aufgaben bleiben damit auch für Spitzenmodelle ungelöst.
Die Verlagerung von einfachen Wissensabfragen zu realitätsnahen, artefaktreichen Forschungsaufgaben erhöht die Aussagekraft von Tests für Pharmafirmen, Forschungslabore und Beschaffer. Die Zahlen legen nahe, dass Modelle zwar Fortschritte zeigen, für eigenständige, unüberwachte Forschungsentscheidungen aber noch nicht verlässlich genug sind.
Weiterlesen
Die Appia Foundation will offene, modulare Spezifikationen und Prüfverfahren liefern, mit denen Anbieter die Einhaltung technischer und regulatorischer Vorgaben für KI nachweisen können. Die Initiative wurde am 17. Juni 2026 angekündigt.
IBM gab am 23. Juni 2026 bekannt, dem OpenAI Daybreak Cyber Partner Program beizutreten und ein neues Application-Security-Service zur schnellen Erkennung, Priorisierung und Behebung von Software-Schwachstellen anzubieten. OpenAI beschreibt Daybreak als Plattform, die frontier-Modelle, Codex Security und Partner verknüpft.
Mehrere US-Staatsanwaltschaften haben OpenAI Vorladungen zu Werbe- und Nutzerbindungspraktiken, zum Umgang mit Gesundheitsdaten sowie zum Schutz von Minderjährigen und verletzlichen Nutzern geschickt. Die Untersuchung ist informationsorientiert, könnte aber weitreichende Folgen für Regulierung und Haftung großer Sprachmodelle haben.
OpenAI holt mit Dean W. Ball einen früheren Politikberater aus dem Weißen Haus. Laut Ankündigung beginnt er am 6. Juli 2026 und soll Strategie- und Politikfragen des Unternehmens bündeln.
Noam Shazeer, bisher Vice President of Engineering bei Google und Co-Leiter des Gemini-Modells, wechselt laut Reuters zu OpenAI. Der Schritt erhöht den Druck im Wettbewerb um Spitzenpersonal vor dem erwarteten Börsengang von OpenAI.