Thema

Evaluation

1 Schlagzeile

30. Mai 2026

OpenAI veröffentlicht Playbook für belastbare Drittprüfungen von KI-Modellen

OpenAI legt ein Leitfaden für unabhängige Evaluierungen von Frontier-Modellen vor. Im Zentrum stehen valide Testumgebungen, sogenannte Harnesses, und Prüfungen, die bei agentischen Systemen nicht das Setup statt die Modellleistung messen.

OpenAI

Evaluation (Global) - KI-Schlagzeilen | KI Weekly