Googles neuestes Open-Source-Modell ist für Consumer-Hardware optimiert – und NVIDIA zeigt, was RTX-GPUs bei lokalen KI-Workloads leisten können.
Gemma 4 trifft RTX: Was die Zusammenarbeit bedeutet
Google und NVIDIA haben gemeinsam daran gearbeitet, die Gemma-4-Modellfamilie für NVIDIAs GPU-Ökosystem zu optimieren – vom Jetson-Orin-Nano-Edge-Modul über RTX-Consumer-Grafikkarten bis hin zum DGX Spark Personal AI Supercomputer. Das Ergebnis: Gemma 4 lässt sich vollständig lokal auf handelsüblicher Hardware betreiben, ohne Cloud-Anbindung und ohne Latenz durch externe Server. Benchmarks mit llama.cpp zeigen dabei bis zu 2,7-fache Inferenzgeschwindigkeit einer RTX 5090 gegenüber Apples M3 Ultra – ein deutliches Statement in Richtung lokaler KI-Performance auf PC-Hardware.
Vier Modellgrößen für unterschiedliche Anforderungen
Die Gemma-4-Familie umfasst vier Varianten: E2B, E4B, 26B und 31B. Die kleineren E2B- und E4B-Modelle sind auf Ultra-Low-Latency-Inferenz am Edge ausgelegt – sie laufen vollständig offline, auch auf kompakten Systemen wie Jetson-Nano-Modulen, und eignen sich für Szenarien, in denen Reaktionszeit und Energieeffizienz Vorrang haben.
Die größeren 26B- und 31B-Varianten richten sich an anspruchsvollere Workloads: komplexes Reasoning, Code-Generierung und -Debugging sowie agentenbasierte KI-Anwendungen. Beide Modelle sind für NVIDIA RTX-GPUs und DGX Spark optimiert und unterstützen native Funktionsaufrufe – eine Grundvoraussetzung für den Einsatz in automatisierten Workflows und KI-Agenten-Szenarien.
Multimodal, mehrsprachig, vielseitig
Gemma 4 bringt von Haus aus multimodale Fähigkeiten mit: Bild-, Video- und Audioverarbeitung sind nativ integriert, Text und Bilder können in beliebiger Reihenfolge innerhalb eines einzelnen Prompts kombiniert werden. Sprachlich unterstützt das Modell über 35 Sprachen out-of-the-box und wurde auf mehr als 140 Sprachen vortrainiert. Für Entwickler besonders relevant: Native Tool-Use-Unterstützung für strukturierte Funktionsaufrufe ist direkt eingebaut.
So läuft Gemma 4 auf RTX-Hardware
Der Einstieg ist unkompliziert. Nutzer können Gemma 4 über Ollama lokal ausführen oder llama.cpp in Kombination mit dem offiziellen Gemma-4-GGUF-Checkpoint von Hugging Face einsetzen. Wer eigene Modelle feintunen möchte, findet bei Unsloth ab sofort optimierte und quantisierte Versionen sowie direkten Support über Unsloth Studio. Die Beschleunigung läuft über NVIDIAs Tensor Cores, die KI-Inferenz-Workloads hardwareseitig beschleunigen, kombiniert mit dem CUDA-Software-Stack für breite Framework-Kompatibilität.
Für Nutzer, die einen vollständigen lokalen KI-Assistenten aufbauen wollen, ist Gemma 4 außerdem mit OpenClaw kompatibel – einer Anwendung, die einen dauerhaft aktiven KI-Agenten auf RTX-PCs und Workstations ermöglicht, der auf persönliche Dateien, Anwendungen und Workflows zugreift.
Der Beitrag Google Gemma 4 läuft jetzt auf NVIDIA RTX-GPUs erschien zuerst auf Hardware News.

by BlackRabbitZ