1 Schlagzeile
OpenAI legt ein Leitfaden für unabhängige Evaluierungen von Frontier-Modellen vor. Im Zentrum stehen valide Testumgebungen, sogenannte Harnesses, und Prüfungen, die bei agentischen Systemen nicht das Setup statt die Modellleistung messen.