1 Schlagzeile
LifeSciBench testet KI-Modelle an realistischen Forschungs- und Laboraufgaben. Erste Auswertung zeigt: der beste Modelllauf erreicht nur rund 36 Prozent Task-Passrate, die Reife für autonome Forschung bleibt damit fraglich.