Skip to main content

Übersicht über lokale Modelle

ℹ️Note

Dies ist das Referenzdokument für Careti. Es basiert auf dem Merge-Stand von Careti v3.38.1. Falls es Careti-spezifische Richtlinien gibt (unterstützte lokale Runtimes, Authentifizierung/Routing, Modell-Beschränkungen), werden diese im Text mit <Note> gekennzeichnet.

Modelle lokal mit Careti ausführen

Betreiben Sie Careti komplett offline mit leistungsfähigen Modellen auf Ihrer eigenen Hardware. Keine API-Kosten, keine Daten, die Ihren Rechner verlassen, keine Internetabhängigkeit.

Lokale Modelle haben einen Wendepunkt erreicht, an dem sie nun für echte Entwicklungsarbeit praktikabel sind. Dieser Guide deckt alles ab, was Sie wissen müssen, um Careti mit lokalen Modellen zu nutzen.

Quick Start

  1. Hardware prüfen – Minimal 32GB+ RAM
  2. Runtime wählenLM Studio oder Ollama
  3. Qwen3 Coder 30B herunterladen – Das empfohlene Modell
  4. Einstellungen konfigurieren – Compact Prompts aktivieren, maximalen Context festlegen
  5. Coding starten – Komplett offline

Hardware-Anforderungen

Ihr RAM bestimmt, welche Modelle Sie effektiv ausführen können:

RAMEmpfohlenes ModellQuantizationPerformance-Level
32GBQwen3 Coder 30B4-bitEinstieg in lokales Coding
64GBQwen3 Coder 30B8-bitVolle Careti-Funktionen
128GB+GLM-4.5-Air4-bitPerformance auf Cloud-Niveau

Empfohlene Modelle

Hauptempfehlung: Qwen3 Coder 30B

Nach umfangreichen Tests ist Qwen3 Coder 30B das zuverlässigste Modell unter 70B Parametern für Careti:

  • 256K native Context Window – Verarbeitet ganze Repositories
  • Starke Tool-use-Fähigkeiten – Zuverlässige Befehlsausführung
  • Verständnis auf Repository-Ebene – Behält den Kontext über Dateien hinweg bei
  • Bewährte Zuverlässigkeit – Konsistente Ausgaben im Tool-Format von Careti

Download-Größen:

  • 4-bit: ~17GB (empfohlen für 32GB RAM)
  • 8-bit: ~32GB (empfohlen für 64GB RAM)
  • 16-bit: ~60GB (erfordert 128GB+ RAM)

Warum keine kleineren Modelle?

Die meisten Modelle unter 30B Parametern (7B-20B) scheitern mit Careti, weil sie:

  • Fehlerhafte Tool-use-Ausgaben produzieren
  • Die Ausführung von Befehlen verweigern
  • Den Konversationskontext nicht aufrechterhalten können
  • Mit komplexen Coding-Aufgaben überfordert sind

Runtime-Optionen

LM Studio

  • Vorteile: Benutzerfreundliche GUI, einfaches Modell-Management, integrierter Server
  • Nachteile: Memory-Overhead durch das UI, beschränkt auf ein Modell gleichzeitig
  • Bestens geeignet für: Desktop-Nutzer, die Einfachheit wünschen
  • Setup-Guide →

Ollama

  • Vorteile: Befehlszeilenbasiert, geringerer Memory-Overhead, scriptfähig
  • Nachteile: Erfordert Terminal-Kenntnisse, manuelles Modell-Management
  • Bestens geeignet für: Power-User und Server-Deployments
  • Setup-Guide →

Kritische Konfiguration

Erforderliche Einstellungen

In Careti:

  • ✅ "Use Compact Prompt" aktivieren – Reduziert die Prompt-Größe um 90%
  • ✅ Passendes Modell in den Einstellungen auswählen
  • ✅ Base URL entsprechend Ihrem Server konfigurieren

In LM Studio:

  • Context Length: 262144 (Maximum)
  • KV Cache Quantization: OFF (entscheidend für ordnungsgemäße Funktion)
  • Flash Attention: ON (falls auf Ihrer Hardware verfügbar)

In Ollama:

  • Context Window festlegen: num_ctx 262144
  • Flash Attention aktivieren, falls unterstützt

Quantization verstehen

Quantization reduziert die Modellpräzision, damit es auf Consumer-Hardware passt:

TypGrößenreduktionQualitätAnwendungsfall
4-bit~75%GutDie meisten Coding-Aufgaben, begrenzter RAM
8-bit~50%BesserProfessionelle Arbeit, mehr Nuancen
16-bitKeineBesteMaximale Qualität, erfordert viel RAM

Modell-Formate

GGUF (Universal)

  • Läuft auf allen Plattformen (Windows, Linux, Mac)
  • Umfangreiche Quantization-Optionen
  • Breitere Tool-Kompatibilität
  • Empfohlen für die meisten Nutzer

MLX (Nur Mac)

  • Optimiert für Apple Silicon (M1/M2/M3)
  • Nutzt Metal- und AMX-Beschleunigung
  • Schnellere Inference auf dem Mac
  • Erfordert macOS 13+

Performance-Erwartungen

Was normal ist

  • Initiale Ladezeit: 10-30 Sekunden zum Aufwärmen des Modells
  • Token-Generierung: 5-20 Tokens/Sekunde auf Consumer-Hardware
  • Kontext-Verarbeitung: Langsamer bei großen Codebases
  • Speicherverbrauch: Nahe an Ihrer Quantization-Größe

Performance-Tipps

  1. Compact Prompts nutzen – Essenziell für lokale Inference
  2. Kontext limitieren, wenn möglich – Mit kleineren Fenstern beginnen
  3. Richtige Quantization wählen – Balance zwischen Qualität und Geschwindigkeit
  4. Andere Anwendungen schließen – RAM für das Modell freigeben
  5. SSD-Speicher verwenden – Schnelleres Laden des Modells

Vergleich der Anwendungsfälle

Wann lokale Modelle nutzen

Perfekt für:

  • Offline-Entwicklungsumgebungen
  • Datenschutzsensible Projekte
  • Lernen ohne API-Kosten
  • Unbegrenztes Experimentieren
  • Air-Gapped-Umgebungen
  • Kostenbewusste Entwicklung

Wann Cloud-Modelle nutzen

☁️ Besser für:

  • Sehr große Codebases (>256K Tokens)
  • Mehrstündige Refactoring-Sessions
  • Teams, die konsistente Performance benötigen
  • Neueste Modell-Fähigkeiten
  • Zeitkritische Projekte

Fehlerbehebung

Häufige Probleme & Lösungen

"Shell integration unavailable"

  • Wechseln Sie zu bash in Careti Settings → Terminal → Default Terminal Profile
  • Löst 90% der Terminal-Integrationsprobleme

"No connection could be made"

  • Überprüfen Sie, ob der Server läuft (LM Studio oder Ollama)
  • Prüfen Sie, ob die Base URL mit der Server-Adresse übereinstimmt
  • Stellen Sie sicher, dass keine Firewall die Verbindung blockiert
  • Standard-Ports: LM Studio (1234), Ollama (11434)

Langsame oder unvollständige Antworten

  • Normal für lokale Modelle (5-20 Tokens/Sek typisch)
  • Versuchen Sie eine geringere Quantization (4-bit statt 8-bit)
  • Aktivieren Sie Compact Prompts, falls noch nicht geschehen
  • Verkleinern Sie das Context Window

Modell-Verwirrung oder Fehler

  • Sicherstellen, dass KV Cache Quantization auf OFF steht (LM Studio)
  • Sicherstellen, dass Compact Prompts aktiviert sind
  • Prüfen, ob die Context Length auf Maximum gesetzt ist
  • Ausreichend RAM für die gewählte Quantization bestätigen

Performance-Optimierung

Für schnellere Inference:

  1. 4-bit Quantization verwenden
  2. Flash Attention aktivieren
  3. Context Window reduzieren, falls nicht benötigt
  4. Unnötige Anwendungen schließen
  5. NVMe SSD für die Modell-Speicherung nutzen

Für bessere Qualität:

  1. 8-bit oder höhere Quantization verwenden
  2. Context Window maximieren
  3. Für ausreichende Kühlung sorgen
  4. Maximalen RAM für das Modell zuweisen

Fortgeschrittene Konfiguration

Multi-GPU-Setup

Wenn Sie mehrere GPUs haben, können Sie die Modell-Layer aufteilen:

  • LM Studio: Automatische GPU-Erkennung
  • Ollama: Parameter num_gpu setzen

Eigene Modelle

Obwohl Qwen3 Coder 30B empfohlen wird, können Sie experimentieren mit:

  • DeepSeek Coder V2
  • Codestral 22B
  • StarCoder2 15B

Hinweis: Diese benötigen möglicherweise zusätzliche Konfiguration und Tests.

Community & Support

Nächste Schritte

Bereit loszulegen? Wählen Sie Ihren Pfad:

LM Studio Setup

Benutzerfreundlicher GUI-Ansatz mit detailliertem Konfigurations-Guide

Ollama Setup

Kommandozeilen-Setup für Power-User und Automatisierung

Zusammenfassung

Lokale Modelle mit Careti sind mittlerweile absolut praktikabel. Auch wenn sie bei der Geschwindigkeit nicht mit Top-Tier Cloud-APIs mithalten können, bieten sie vollständige Privatsphäre, null Kosten und Offline-Fähigkeit. Mit der richtigen Konfiguration und Hardware kann Qwen3 Coder 30B die meisten Coding-Aufgaben effektiv bewältigen.

Der Schlüssel liegt im richtigen Setup: ausreichend RAM, korrekte Konfiguration und realistische Erwartungen. Folgen Sie diesem Guide, und Sie erhalten einen fähigen Coding-Assistenten, der vollständig auf Ihrer eigenen Hardware läuft.