Kleiner, besser, billiger — und dann?

Sun, 26 Apr 2026 00:00:00 +0000

Alibaba hat letzte Woche Qwen3.6-27B veröffentlicht. 27 Milliarden Parameter. Es übertrifft Qwen3.5-397B in fast allen Coding-Benchmarks — ein Modell mit fast 15-mal so vielen Parametern. Auf SWE-bench Verified erreicht es 77,2 Punkte, der größere Vorgänger 76,2. Auf Terminal-Bench 2.0 ist der Abstand deutlicher: 59,3 zu 52,5.

Das ist keine Kleinigkeit. Aber es verdient auch keine Fanfare.

Was hier passiert, ist Destillation — die Kunst, ein kompakteres Modell mit dem Wissen eines größeren zu trainieren. Große Modelle generieren Trainingsbeispiele, kleine Modelle lernen davon. Das Ergebnis kann bei spezifischen Aufgaben besser abschneiden, weil es gezielter trainiert wurde. Qwen3.6-27B ist auf Coding spezialisiert. Sein größerer Vorgänger ist ein Generalist. Das ist kein fairer Vergleich — und trotzdem ist er informativ.

Kontext ist kein Speicher

Sun, 05 Apr 2026 00:00:00 +0000

Jedes Mal wenn du einer KI eine Nachricht schickst, liest sie alles noch einmal. Den ganzen bisherigen Verlauf. Von vorne. Deine erste Frage, ihre Antwort, deine zweite Frage, ihre Antwort, und so weiter bis heute. Es gibt kein Kurzzeitgedächtnis das sich Dinge merkt. Es gibt nur dieses eine Fenster, und alles muss hineinpassen.

Das klingt wie ein Implementierungsdetail. Es ist ein Architekturentscheidung mit Konsequenzen.

Das Fenster hat eine Grenze. Bei kleineren Modellen früher, bei großen später, aber sie ist immer da. Wenn ein Gespräch lang genug wird, fällt das Älteste raus. Nicht weil das Modell vergisst, sondern weil es nie wirklich gespeichert war. Es war nur Text im Fenster.

Architektur on kontextfenster

Kleiner, besser, billiger — und dann?

Kontext ist kein Speicher