Zurück zur Übersicht
Ein am 24. März veröffentlichter Benchmark testet agentische KI in turn-basierten Umgebungen statt mit kurzen Einzelantworten. Laut der Arbeit lösen Menschen alle Aufgaben, während Frontier-Modelle unter 1 Prozent bleiben.
ARC-AGI-3 ist ein neuer Benchmark für agentische KI, der am 24. März veröffentlicht wurde. Im Mittelpunkt stehen offene, mehrstufige Aufgaben in turn-basierten Umgebungen.
Die Arbeit zielt damit auf einen anderen Testtyp als klassische Kurzprompt-Benchmarks. Gemessen werden soll, wie gut Systeme Probleme über mehrere Schritte hinweg ausführen und an veränderte Zustände anpassen.
Nach Angaben der Autoren lösen Menschen 100 Prozent der Aufgaben. Frontier-KI-Systeme bleiben demnach unter 1 Prozent.
Die Veröffentlichung setzt damit einen neuen Referenzpunkt für die Bewertung agentischer Systeme. Der Fokus verschiebt sich von punktueller Demo-Leistung auf robuste mehrstufige Problemlösung unter realistischeren Bedingungen.
Weiterlesen
Die Einordnung im Magic Quadrant stärkt Codex als Infrastruktur für Softwareteams. OpenAI verweist auf Millionen Nutzer und mehrere große Unternehmenskunden.
Microsoft weitet seine Sicherheits- und Governance-Funktionen über eigene KI-Angebote hinaus aus. Für Unternehmen wird damit wichtiger, wie sich Drittanbieter-KI und Agenten im Betrieb überwachen und absichern lassen.
Das verschiebt den Engpass in der Cybersicherheit: Entscheidend wird nicht mehr nur das Finden, sondern das Prüfen, Offenlegen und Schließen der Lücken.
Der US-KI-Anbieter setzt seine Expansion in Europa fort. Nach Paris und München ist Mailand der nächste Standort im Rennen um Unternehmenskunden.
Das estnische Unternehmen ist laut Tech.eu das erste in einem EU-Mitgliedstaat mit einer solchen Genehmigung. Bliq.ai betreibt bereits eine Flotte von zwölf Fahrzeugen und plant die Expansion in weitere EU-Märkte.