KI-Agenten 19. Mai 2025 7 Min. Lesezeit

BitNet b1.58: Microsofts Schrumpfkur für LLMs

Ternäre Quantisierung verspricht drastische Effizienzgewinne – doch hinter den Benchmarks stecken auch strategische Geschäftsinteressen.

BitNet b1.58

Microsoft hat mit BitNet b1.58 ein Konzept vorgestellt, das die Architektur großer Sprachmodelle grundlegend infrage stellt. Statt mit hochpräzisen Fließkommazahlen zu rechnen, reduziert das System die Gewichte auf nur drei mögliche Werte: minus eins, null und plus eins. Diese ternäre Quantisierung verspricht eine dramatische Senkung des Energieverbrauchs und der Rechenanforderungen – bei angeblich vergleichbarer Leistungsfähigkeit.

Das Prinzip der ternären Gewichte

Herkömmliche Large Language Models operieren mit 16- oder 32-Bit-Fließkommazahlen für ihre Modellgewichte. BitNet b1.58 komprimiert diese auf lediglich 1,58 Bit pro Gewicht. Der technische Vorteil liegt auf der Hand: Wenn jede Rechenoperation nur noch drei statt Milliarden möglicher Werte berücksichtigen muss, sinkt der Energiebedarf erheblich. Multiplikationen werden durch einfache Additionen und Subtraktionen ersetzt. Die publizierten Benchmark-Ergebnisse zeigen, dass ein derart komprimiertes Modell bei vielen Standardtests mit deutlich größeren konventionellen Modellen konkurrieren kann.

Strategische Dimension und Hardware-Pläne

BitNet ist kein rein akademisches Projekt – es steht im Zusammenhang mit Microsofts Bestrebungen, eigene KI-Chips zu entwickeln und die Abhängigkeit von NVIDIA zu reduzieren. Ein Modell, das auf spezialisierter, einfacherer Hardware effizient läuft, würde Microsofts Azure-Cloud einen erheblichen Kostenvorteil verschaffen. Die Demokratisierung von KI ist dabei ein willkommener Nebeneffekt, nicht notwendigerweise das primäre Ziel.

Offene Fragen und Grenzen

Trotz vielversprechender Benchmarks bleiben wesentliche Fragen offen. Wie verhält sich ein ternär quantisiertes Modell bei Aufgaben, die feingranulare Nuancen erfordern? Die bisherigen Tests decken vorwiegend standardisierte Szenarien ab. Zudem ist unklar, ob die Trainingsprozesse selbst ebenfalls effizient gestaltet werden können oder ob die Einsparungen erst bei der Inferenz greifen.

© 2025 Olaf Dunkel. Eigenständige Analyse; KI-Unterstützung rein sprachlich.

Weitere Beiträge

Alle Beiträge →