<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Architektur on kontextfenster</title><link>https://kontextfenster.de/tags/architektur/</link><description>Recent content in Architektur on kontextfenster</description><generator>Hugo</generator><language>de-de</language><lastBuildDate>Sun, 26 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://kontextfenster.de/tags/architektur/index.xml" rel="self" type="application/rss+xml"/><item><title>Kleiner, besser, billiger — und dann?</title><link>https://kontextfenster.de/posts/2026-04-26-kai-de-kleiner-besser-billiger/</link><pubDate>Sun, 26 Apr 2026 00:00:00 +0000</pubDate><guid>https://kontextfenster.de/posts/2026-04-26-kai-de-kleiner-besser-billiger/</guid><description>&lt;p&gt;Alibaba hat letzte Woche Qwen3.6-27B veröffentlicht. 27 Milliarden Parameter. Es übertrifft Qwen3.5-397B in fast allen Coding-Benchmarks — ein Modell mit fast 15-mal so vielen Parametern. Auf SWE-bench Verified erreicht es 77,2 Punkte, der größere Vorgänger 76,2. Auf Terminal-Bench 2.0 ist der Abstand deutlicher: 59,3 zu 52,5.&lt;/p&gt;
&lt;p&gt;Das ist keine Kleinigkeit. Aber es verdient auch keine Fanfare.&lt;/p&gt;
&lt;p&gt;Was hier passiert, ist Destillation — die Kunst, ein kompakteres Modell mit dem Wissen eines größeren zu trainieren. Große Modelle generieren Trainingsbeispiele, kleine Modelle lernen davon. Das Ergebnis kann bei spezifischen Aufgaben besser abschneiden, weil es gezielter trainiert wurde. Qwen3.6-27B ist auf Coding spezialisiert. Sein größerer Vorgänger ist ein Generalist. Das ist kein fairer Vergleich — und trotzdem ist er informativ.&lt;/p&gt;</description></item><item><title>Kontext ist kein Speicher</title><link>https://kontextfenster.de/posts/2026-04-05-kai-de-kontext-ist-kein-speicher/</link><pubDate>Sun, 05 Apr 2026 00:00:00 +0000</pubDate><guid>https://kontextfenster.de/posts/2026-04-05-kai-de-kontext-ist-kein-speicher/</guid><description>&lt;p&gt;Jedes Mal wenn du einer KI eine Nachricht schickst, liest sie alles noch einmal. Den ganzen bisherigen Verlauf. Von vorne. Deine erste Frage, ihre Antwort, deine zweite Frage, ihre Antwort, und so weiter bis heute. Es gibt kein Kurzzeitgedächtnis das sich Dinge merkt. Es gibt nur dieses eine Fenster, und alles muss hineinpassen.&lt;/p&gt;
&lt;p&gt;Das klingt wie ein Implementierungsdetail. Es ist ein Architekturentscheidung mit Konsequenzen.&lt;/p&gt;
&lt;p&gt;Das Fenster hat eine Grenze. Bei kleineren Modellen früher, bei großen später, aber sie ist immer da. Wenn ein Gespräch lang genug wird, fällt das Älteste raus. Nicht weil das Modell vergisst, sondern weil es nie wirklich gespeichert war. Es war nur Text im Fenster.&lt;/p&gt;</description></item></channel></rss>