Du sitzt wahrscheinlich gerade in genau so einer Diskussion: Das Data-Team will mehr Rechenleistung für ein neues Modell. Das Produktteam will wissen, warum Experimente so lange dauern. Finance fragt, warum die Cloud-Rechnung steigt. Und irgendwo im Raum fällt der Satz: „Brauchen wir vielleicht TPUs statt GPUs?“

Genau an dem Punkt lohnt es sich, die google tensor processing unit nüchtern anzuschauen. Nicht als Marketingbegriff, sondern als Infrastrukturentscheidung.

Ich erklär dir das so, wie ich es einem Produktmanager im MLOps-Alltag erklären würde. Nicht chip-romantisch, sondern praktisch. Was ist eine TPU? Wofür ist sie stark? Wo ist sie die falsche Wahl? Und woran erkennst du, ob dein Projekt in der DACH-Realität wirklich davon profitiert?

Wenn GPUs an ihre Grenzen stoßen

Ein typisches Muster in Teams sieht so aus: Das erste Modell läuft auf einer GPU sauber. Dann wächst der Anspruch. Mehr Daten, größere Modelle, häufigere Retrainings, mehr A/B-Tests, zusätzlich Inferenz in Produktion.

Plötzlich kippt die Lage.

Die Trainingsläufe dauern zu lang. Die Queue auf den Instanzen wird voller. Jeder neue Versuch blockiert Ressourcen, die eigentlich schon für andere Teams eingeplant sind. Für das Produkt fühlt sich das wie eine simple Frage an. „Können wir die Qualität noch verbessern?“ Für das Platform-Team ist es eine Kapazitätsfrage.

Woran du die Grenze erkennst

Du brauchst nicht sofort eine TPU, nur weil ein Training langsam ist. Erstmal musst du unterscheiden, wo dein Engpass sitzt.

  • Compute-Engpass: Dein Modell rechnet lange an dichten Matrix-Operationen. Genau da werden spezialisierte Beschleuniger interessant.
  • Daten-Engpass: Deine Pipeline liefert Daten zu langsam nach. Dann hilft dir neue Hardware deutlich weniger.
  • Experiment-Engpass: Zu viele Varianten, zu wenig Priorisierung. Das ist ein Produktproblem, kein Hardwareproblem.
  • Produktions-Engpass: Das Training läuft noch okay, aber die Inferenzkosten steigen mit jeder neuen Nutzung.

Viele Teams schauen zu früh nur auf den Chip. In Wahrheit musst du zuerst den Workflow anschauen.

Wenn dein Modell auf Input wartet, kauft dir neue Rechenleistung vor allem eins ein: teurere Leerlaufzeit.

In der Praxis beobachte ich oft noch etwas Zweites: Teams vergleichen nur Hersteller und Modellnamen. NVIDIA hier, Google dort, neuer Chip da. Das ist selten die richtige Ebene. Wer die Infrastrukturdebatte nur als Beschaffungsfrage führt, landet schnell in einer Endlosdiskussion wie in den aktuellen Nachrichten rund um KI-Chips und Serverkapazitäten, etwa in diesem Bericht zu Hochschulen und NVIDIA-Systemen: https://www.kiweekly.de/news/reuters-chinesische-hochschulen-beschafften-trotz-us-kontrollen-server-mit-nvidia-ki-chips