Guten Morgen, 🌞
eine Woche ist vergangen, und KI WEEKLY hält Dich auf dem neuesten Stand des KI-Universums.
In dieser Ausgabe
KI-Tools der Woche
🪞 HeyGen Digital Twin - Erstellt interaktive KI-Avatare
🎨 Adobe Firefly - Designplattform jetzt auch mit Gemini 2.5 Flash Image
🗣️ Google Translate - Neue KI-gestützte Live-Übersetzungen für über 70 Sprachen
🗣️ VibeVoice - Das neue Open-Source-Modell von Microsoft für text to speech
🌎 Mirage 2 - Erzeugt in Echtzeit spielbare Welt-Engines aus Text oder Bildern.
⚙️ Qoder - Alibabas Coding-Plattform für Entwickler
🌱 Seed-OSS - ByteDances Open Source-Reasoner-Familie
📧 Beehiiv - Kostenlos Newsletter wie KI Weekly erstellen | 30 Tage das Plusprogramm testen + 20 % Rabatt für 3 Monate!*
#Bonus: 📒 Notion - Jetzt mit der zweiten Generation von Notion AI: Dein smarter Partner für alles. 30 Tage kostenlos testen mit KI Weekly*
Find out why 1M+ professionals read Superhuman AI daily.
In 2 years you will be working for AI
Or an AI will be working for you
Here's how you can future-proof yourself:
Join the Superhuman AI newsletter – read by 1M+ people at top companies
Master AI tools, tutorials, and news in just 3 minutes a day
Become 10X more productive using AI
Join 1,000,000+ pros at companies like Google, Meta, and Amazon that are using AI to get ahead.
👉 Genug von Werbung? Hol dir kostenlos KI Weekly Plus — werbefrei und mit Extra-Inhalten.
- 01 -
📱Apple prüft Googles Gemini für Siri-Neustart
Bildquelle: Unsplash
Apple führt laut Bloomberg Gespräche mit Google, um Gemini für eine komplett überarbeitete Siri einzusetzen; nachdem Verzögerungen den großen Siri-Upgrade-Plan auf 2026 verschoben haben.
Die Details:
Apple ließ Google ein spezielles Gemini-Modell entwickeln, das ausschließlich auf Apples privaten Servern läuft. Eine Testversion wird bereits trainiert.
Gleichzeitig arbeitet Apple intern an zwei Siri-Varianten: „Linwood“ mit eigenen Modellen und „Glenwood“ mit externer Technologie.
Auch Gespräche mit Anthropic und OpenAI liefen. Teile von Siri greifen heute schon auf ChatGPT zurück, um Antworten zu verbessern.
Laut Bloomberg liegt eine Entscheidung über interne vs. externe Modelle sowie den endgültigen Partner noch „mehrere Wochen“ entfernt.
Warum das wichtig ist: Trotz aller Kritik an Apples schleppendem KI-Fortschritt könnte ein externer Partner wie Google die beste Lösung für iPhone-Nutzer sein. Die Alternative wäre, auf Apples Eigenentwicklungen zu setzen, doch mit Abwanderung von Fachkräften und wiederholten Rückschlägen dürfte dieser Weg noch ein langer sein.
- 02 -
🍌 Googles „Flash 2.5 Image“ hebt KI-Editing auf ein neues Level

Bildquelle: Getty Images / 2.5 Flash Image Preview
Google hat mit Gemini Flash 2.5 Image (unter dem Testnamen „Nano-Banana“ bekannt) ein neues KI-Modell veröffentlicht, das präzise, mehrstufige Bildbearbeitung ermöglicht, inklusive besserer Kontrolle für Nutzer und hoher Konsistenz bei Personen.
Die Details:
Das Modell wurde als „Nano-Banana“ viral und erreichte auf LM Arenas Image-Edit-Leaderboard Platz 1, mit großem Abstand vor Flux-Kontext und GPT-image-1 (OpenAI).
Flash 2.5 Image unterstützt mehrstufige Bearbeitung: Nutzer können Änderungen Schritt für Schritt aufbauen, ohne dass die Konsistenz im Bild verloren geht.
Das Modell beherrscht zudem das Mischen und Überblenden von Stilen und Szenen, bis hin zur Kombination ganzer Bilder.
Der Preis liegt bei 0,039 US-Dollar pro Bild über die API und Google AI Studio – etwas günstiger als OpenAIs gpt-image oder BFLs Flux-Kontext.
Warum das wichtig ist: Noch ersetzt KI keine Photoshop-Workflows, doch Googles Modell bringt uns spürbar näher. Mit besserer Charaktertreue und Bildkonsistenz könnte Flash 2.5 eine neue Welle an Kreativ-Apps lostreten – ein „Studio-Ghibli-Moment“ für Gemini?
- 03 -
🖥️ Anthropic testet „Claude für Chrome“ für agentisches Browsing

Bildquelle: Anthropic
Anthropic hat eine Chrome-Erweiterung vorgestellt, mit der Claude eigenständig den Browser steuern kann. Ziel ist es, Sicherheitsprobleme zu untersuchen, die andere KI-Browser und Plattformen bereits getroffen haben.
Die Details:
Die Erweiterung wird in einer limitierten Vorschau getestet, zugänglich nur über eine Warteliste für 1.000 Claude-Max-Abonnenten.
Zentrales Risiko bleibt die sogenannte Prompt-Injection: Prompts, die z.B. im Text oder Source Code einer Webseite stehen und die KI auffordern, eine unerwünschte Handlung zu treffen. Claude soll dies über Berechtigungen und Sicherheitsmaßnahmen eindämmen.
Brave stieß auf ähnliche Probleme bei Perplexitys Comet-Browser-Agent, wo manipulierte Inhalte gefährliche Befehle auslösten.
Im Vergleich zu „Computer Use“, einem früheren agentischen Tool von Anthropic, zeigt die Erweiterung deutliche Fortschritte in Sicherheit und Funktionalität.
Warum das wichtig ist: Agentisches Browsing steckt noch in den Kinderschuhen und die Tests verdeutlichen: Sicherheit ist hier noch lange nicht gelöst. Mit der Chrome-Erweiterung wählt Anthropic bewusst einen anderen Ansatz als Plattformen wie Comet oder Dia – und bringt die Funktion direkt in den beliebtesten Browser.
- 04 -
🗣️ OpenAI's gpt-realtime für Sprachagenten

Bildquelle: OpenAI
OpenAI hat seine Realtime-API aus der Beta-Phase herausgenommen und gleichzeitig ein neues gpt-realtime-Sprachmodell sowie neue Entwicklertools wie Bild-Input und Model Context Protocol-Serverintegrationen eingeführt.
Die Details:
gpt-realtime verfügt über nuancierte Fähigkeiten wie das Erkennen nonverbaler Signale und das Wechseln zwischen Sprachen, während eine natürlich fließende Konversation aufrechterhalten wird.
Das Modell erreicht eine Genauigkeit von 82,8 % bei Audio-Reasoning-Benchmarks, was eine massive Steigerung gegenüber den 65,6 % seines Vorgängers darstellt.
OpenAI hat außerdem MCP-Unterstützung hinzugefügt, sodass Sprachagenten ohne benutzerdefinierte Integrationen mit externen Datenquellen und Tools verbunden werden können.
gpt-realtime kann auch Bildeingaben wie Fotos oder Screenshots verarbeiten, sodass der Sprachagent neben der Konversation auch visuelle Elemente berücksichtigen kann.
Warum das wichtig ist: Die allgemeine Verbreitung von Sprachagenten scheint unvermeidlich zu sein, und die von OpenAI hinzugefügten verbesserten menschlichen Konversationsfähigkeiten und Integrationen wie MCP und Bildverständnis bieten Unternehmen und Entwicklern noch mehr Funktionen, die sie direkt in Kundensupportkanäle oder maßgeschneiderte Sprachanwendungen einbinden können.
- 05 -
🤖 Microsoft’s selbst entwickelte KI

Bildquelle: Microsoft
Microsoft hat MAI-Voice-1 und MAI-1-Preview vorgestellt, seine ersten vollständig selbst entwickelten KI-Modelle, nachdem das Unternehmen jahrelang in einer turbulenten Partnerschaft auf die Technologie von OpenAI gesetzt hatte.
Die Details:
MAI-Voice-1 ist ein Sprachgenerierungsmodell, das in weniger als einer Sekunde eine Minute Sprache generieren kann und bereits in Copilot Daily und Podcasts integriert ist.
MAI-1-preview ist ein textbasiertes Modell, das auf einem Bruchteil der GPUs der Konkurrenz trainiert wurde und sich auf die Befolgung von Anweisungen und alltägliche Abfragen spezialisiert hat.
CEO Mustafa Suleyman sagte, MAI-1 sei „mit einigen der besten Modelle der Welt auf Augenhöhe“, obwohl Benchmarks noch nicht öffentlich veröffentlicht wurden.
Das Textmodell wird derzeit auf LM Arena und über API getestet. Microsoft kündigte an, es in den kommenden Wochen in „bestimmten Textanwendungsfällen“ einzuführen.
Warum das wichtig ist: Microsofts Umstellung auf die Entwicklung eigener Modelle bringt eine neue Dynamik in seine OAI-Partnerschaft und versetzt das Unternehmen in die Lage, seine eigene KI-Zukunft besser zu kontrollieren. Während wir auf Benchmarks und weitere Tests in der Praxis warten, um ein besseres Verständnis zu erlangen, scheint der Technologieriese bereit zu sein, seinen eigenen Weg zu gehen, anstatt als Sidekick von OAI angesehen zu werden.
⭐ Wöchentliches KI-Ranking
And the Winner is...
Gemini-2.5-Pro von Google — verfügbar kostenlos unter Google AI Studio und in der Google Gemini App.
Hinweis: In dem Ranking werden lediglich die API-Modelle gerankt — dies kann sich von der Performance in z.B. ChatGPT oder Google Gemini unterscheiden. Bei GPT-5-high handelt es sich um das Modell mit hohem Reasoning Aufwand.
🗞️ In aller Kürze
1️⃣ OpenAI verschärft Sicherheitsmaßnahmen
OpenAI veröffentlichte einen Blogpost mit zusätzlichen Safety-Vorkehrungen – vor dem Hintergrund einer Klage von Eltern, die der KI eine Mitverantwortung am Tod ihres Sohnes vorwerfen.
2️⃣ Google Vids: Neue KI-Features für Videos
Bild-zu-Video, KI-Avatare, automatisches Kürzen von Transkripten und weitere Updates rollen für die Video-Editing-Plattform Vids aus.
3️⃣ Google Translate mit Live-On-Screen-Übersetzung
Echtzeit-Overlay für 70+ Sprachen und interaktive Lern-Tools machen Übersetzen und Üben direkt auf dem Bildschirm möglich.
4️⃣ xAI öffnet Grok 2.5 – Grok 3 soll folgen
Grok 2.5 wird Open Source; Elon Musk kündigt an, Grok 3 in „rund 6 Monaten“ ebenfalls offenzulegen.
5️⃣ Brave meldet Sicherheitslücke bei Perplexity Comet
Eine Schwachstelle erlaubte bösartige Prompt-Injections, mit denen Angreifer Kontrolle über den agentischen Browser erlangen konnten.
📚 Lernen mit ChatGPTs Study-Mode

Mit dem Studieren & Lernen-Tool übst du komplexe Themen durch geführtes, schrittweises Problemlösen und interaktive Quizzes, statt bloß „die Lösung abzuschreiben“.
Schritt für Schritt
Modus aktivieren
In ChatGPT „GPT-5“ wählen → „+“ → „Studieren & Lernen“ einschalten.Antwortzeit festlegen
Auto (Standard)
Sofort (für einfache Prompts)
Denken (für detaillierte Herleitungen/Scaffolding)
Prompt-Struktur verwenden
„Hilf mir, [Thema] Schritt für Schritt zu lösen. Frage mich nach jedem Zwischenwert, bevor du weitermachst.“
„Teste mich in [Fach] mit Multiple-Choice und Kurzantworten.“
Geführt üben
Arbeite die Schritte durch. ChatGPT agiert als Tutor, prüft jede Antwort und gibt erst dann den nächsten Hinweis frei.
👥 Bevorstehende KI-Events
10.09 - 11.09.2025 BIG BANG KI FESTIVAL 2025 | Berlin
16.09 - 17.09.2025 AI & Data Summit and Quantum Summit 2025 | Berlin
19.09.2025 Neulandpro – Connect 2025 | Berlin
24.09 - 26.09.2025 TED AI Conference | Wien
24.09 - 26.09.2025 droidcon Berlin 2025 | Berlin
Du möchtest ein Event bewerben? Kontaktiere uns hier.
Das war’s schon! 😔
Mehr davon? Hol dir jetzt KI Weekly Plus (kostenlos testen!).
Wurde diese E-Mail Dir weitergeleitet? Jetzt anmelden! 👋
📣 Erreiche mit Deiner Werbung tausende KI-Enthusiasten!
Unser Newsletter wird von Tausenden Tech-Enthusiasten und Top-Unternehmern in Deutschland, Österreich und der Schweiz gelesen. Antworte einfach auf diese E-Mail, um Deine Anfrage zur richtigen Zielgruppe zu bringen.

© Deutsches Institut für Service-Qualität (DISQTrust)
Nur bei mit einem Sternchen (*) gekennzeichneten Links handelt es sich um Affiliate-Links. Wir erhalten für jeden Kauf eine Provision. Dies hat keinen Einfluss darauf, wie wir ein Tool oder einen Anbieter bewerten.