1 Schlagzeile
Der neue Forschungsbenchmark prüft agentische KI in komplexen, mehrstufigen Analyse- und Entscheidungsaufgaben der Genomik und Medizin. OpenAIs bestes Modell erreicht auf dem höchsten Reasoning-Level nur 28,7 Prozent und bleibt damit deutlich hinter menschlichen Expert:innen zurück.