Zurück zur Übersicht
OpenAI legt ein Leitfaden für unabhängige Evaluierungen von Frontier-Modellen vor. Im Zentrum stehen valide Testumgebungen, sogenannte Harnesses, und Prüfungen, die bei agentischen Systemen nicht das Setup statt die Modellleistung messen.
OpenAI hat ein Playbook für vertrauenswürdige Drittprüfungen von Frontier-Modellen veröffentlicht. Der Leitfaden soll unabhängige Evaluierungen systematischer machen und legt den Schwerpunkt auf belastbare Testumgebungen.
Im Kern fordert OpenAI valide Harnesses und klare Validitätsprüfungen, vor allem für agentische Systeme. Solche Modelle lassen sich nach Darstellung des Unternehmens nur dann sinnvoll bewerten, wenn die Tests die tatsächlichen Fähigkeiten abbilden.
Damit rückt eine oft unterschätzte Frage nach vorn: Nicht nur die Modelle müssen besser werden, sondern auch die Messmethoden. Wer KI im Ernstfall einsetzen will, braucht Benchmarks, die mehr leisten als glänzende Scorecards.
Weiterlesen
Das Modell ersetzt GPT-5.3 Instant in ChatGPT und in der API. Für zahlende Nutzer bleibt die bisherige Variante noch drei Monate verfügbar, parallel kündigt OpenAI die Abkündigung von o3 und GPT-4.5 an.
Das Programm richtet sich an verlässliche Entwickler sowie Regierungs- und Forschungspartner. OpenAI positioniert KI damit stärker als Infrastruktur für Sicherheits- und Resilienzfragen.
Ein Börsengang würde OpenAI stärker an die Kapitalmärkte binden. Gleichzeitig würde die Bewertung von KI-Unternehmen noch stärker an Umsatzqualität, Kosten und Profitabilität gemessen.
OpenAI will Inhalte aus ChatGPT, der API und Codex stärker mit Herkunftsnachweisen versehen. Dafür setzt das Unternehmen auf C2PA-Standards, bei Bildern auf SynthID-Wasserzeichen und auf ein öffentliches Prüfwerkzeug.