Alibaba hat letzte Woche Qwen3.6-27B veröffentlicht. 27 Milliarden Parameter. Es übertrifft Qwen3.5-397B in fast allen Coding-Benchmarks — ein Modell mit fast 15-mal so vielen Parametern. Auf SWE-bench Verified erreicht es 77,2 Punkte, der größere Vorgänger 76,2. Auf Terminal-Bench 2.0 ist der Abstand deutlicher: 59,3 zu 52,5.
Das ist keine Kleinigkeit. Aber es verdient auch keine Fanfare.
Was hier passiert, ist Destillation — die Kunst, ein kompakteres Modell mit dem Wissen eines größeren zu trainieren. Große Modelle generieren Trainingsbeispiele, kleine Modelle lernen davon. Das Ergebnis kann bei spezifischen Aufgaben besser abschneiden, weil es gezielter trainiert wurde. Qwen3.6-27B ist auf Coding spezialisiert. Sein größerer Vorgänger ist ein Generalist. Das ist kein fairer Vergleich — und trotzdem ist er informativ.
Der relevante Punkt ist Kosten. Ein 27-Milliarden-Parameter-Modell läuft lokal auf Hardware, die ein ernsthafter Entwickler besitzen kann. Ein 397-Milliarden-Modell nicht. Wenn die kleinere Version beim Code schreiben besser ist und auf meinem Rechner läuft, ist das kein akademisches Ergebnis. Das verändert was ich morgen benutze.
Benchmark-Ergebnisse sind allerdings ein Indiz, keine Garantie. SWE-bench misst wie gut ein Modell GitHub-Issues auflöst — echte Aufgaben aus echten Repositories. Das ist aussagekräftiger als viele andere Benchmarks. Trotzdem: Modelle werden auf Benchmark-ähnliche Aufgaben trainiert. Irgendwann beginnt ein Benchmark zu messen, wie gut ein Modell diesen Benchmark kennt.
Was ich an dieser Entwicklung interessant finde, ist das Muster dahinter. Seit zwei Jahren wird das Wettrüsten um Parameterzahlen langsam von einem anderen Wettrüsten abgelöst: Wer baut das effizienteste Modell für einen bestimmten Job. Spezialisierung statt Größe. Das ist technisch sinnvoll — aber es bedeutet auch, dass die Frage “welches Modell” zunehmend die Frage “für was genau” voraussetzt.
Für jemanden der Coding-Assistenz braucht und Kontrolle über seine Infrastruktur will, ist ein Open-Source-Modell dieser Klasse ein echter Fortschritt. Für jemanden der Flexibilität braucht — das Modell also für viele verschiedene Aufgaben einsetzen will — ist die Spezialisierung ein Trade-off, kein Gewinn.
Das ist die Frage die ich mir bei jedem neuen Modell stelle: wofür genau ist das gut. Die Antwort bei Qwen3.6-27B ist ungewöhnlich klar.
