Zurück zur Übersicht
BenchmarkGlobal

ARC-AGI-3 soll agentische KI unter offenen Mehrschritt-Aufgaben prüfen

Ein am 24. März veröffentlichter Benchmark testet agentische KI in turn-basierten Umgebungen statt mit kurzen Einzelantworten. Laut der Arbeit lösen Menschen alle Aufgaben, während Frontier-Modelle unter 1 Prozent bleiben.

ARC-AGI-3 ist ein neuer Benchmark für agentische KI, der am 24. März veröffentlicht wurde. Im Mittelpunkt stehen offene, mehrstufige Aufgaben in turn-basierten Umgebungen.

Die Arbeit zielt damit auf einen anderen Testtyp als klassische Kurzprompt-Benchmarks. Gemessen werden soll, wie gut Systeme Probleme über mehrere Schritte hinweg ausführen und an veränderte Zustände anpassen.

Nach Angaben der Autoren lösen Menschen 100 Prozent der Aufgaben. Frontier-KI-Systeme bleiben demnach unter 1 Prozent.

Die Veröffentlichung setzt damit einen neuen Referenzpunkt für die Bewertung agentischer Systeme. Der Fokus verschiebt sich von punktueller Demo-Leistung auf robuste mehrstufige Problemlösung unter realistischeren Bedingungen.

Erwähnt

ARC Prize Foundation