Skip to main content

Обзор локальных моделей

ℹ️Note

Это документация для Careti. Она основана на версии Careti v3.38.1; специфические политики Careti (поддерживаемые локальные Runtime, аутентификация/маршрутизация, ограничения моделей) будут отмечены в тексте тегом <Note>.

Запуск моделей локально с помощью Careti

Запускайте Careti полностью в автономном режиме с действительно мощными моделями на собственном оборудовании. Никаких затрат на API, данные не покидают вашу машину, никакой зависимости от интернета.

Локальные модели достигли переломного момента, когда они стали практичными для реальной разработки. Это руководство охватывает все, что вам нужно знать о работе Careti с локальными моделями.

Быстрый старт

  1. Проверьте свое оборудование — минимум 32GB RAM
  2. Выберите RuntimeLM Studio или Ollama
  3. Скачайте Qwen3 Coder 30B — рекомендуемая модель
  4. Сконфигурируйте настройки — включите компактные промпты (compact prompts), установите максимальный контекст
  5. Начните кодить — полностью оффлайн

Требования к оборудованию

Ваш объем RAM определяет, какие модели вы сможете эффективно запускать:

RAMРекомендуемая модельQuantizationУровень производительности
32GBQwen3 Coder 30B4-bitНачальный уровень локального кодинга
64GBQwen3 Coder 30B8-bitПолный функционал Careti
128GB+GLM-4.5-Air4-bitПроизводительность на уровне облачных решений

Рекомендуемые модели

Основная рекомендация: Qwen3 Coder 30B

После тщательного тестирования Qwen3 Coder 30B признана самой надежной моделью с параметрами менее 70B для Careti:

  • Нативное окно контекста (context window) 256K — работа с целыми репозиториями
  • Сильные возможности использования инструментов (tool-use) — надежное выполнение команд
  • Понимание масштаба репозитория — сохранение контекста между файлами
  • Проверенная надежность — стабильные результаты с форматом инструментов Careti

Размеры для скачивания:

  • 4-bit: ~17GB (рекомендуется для 32GB RAM)
  • 8-bit: ~32GB (рекомендуется для 64GB RAM)
  • 16-bit: ~60GB (требуется 128GB+ RAM)

Почему не использовать модели меньшего размера?

Большинство моделей с параметрами менее 30B (7B-20B) не справляются с Careti, так как они:

  • Генерируют некорректные выходные данные для инструментов (tool-use)
  • Отказываются выполнять команды
  • Не могут удерживать контекст беседы
  • Испытывают трудности со сложными задачами программирования

Варианты Runtime

LM Studio

  • Плюсы: удобный GUI, простое управление моделями, встроенный сервер
  • Минусы: потребление памяти интерфейсом, ограничение одной моделью за раз
  • Лучше всего для: пользователей десктопов, ценящих простоту
  • Setup Guide →

Ollama

  • Плюсы: работа через командную строку, меньшее потребление памяти, поддержка скриптов
  • Минусы: требуется навык работы в терминале, ручное управление моделями
  • Лучше всего для: продвинутых пользователей и развертывания на серверах
  • Setup Guide →

Критически важная настройка

Обязательные настройки

В Careti:

  • ✅ Включите "Use Compact Prompt" — сокращает размер промпта на 90%
  • ✅ Выберите подходящую модель в настройках
  • ✅ Настройте Base URL в соответствии с вашим сервером

В LM Studio:

  • Context Length: 262144 (максимум)
  • KV Cache Quantization: OFF (критично для корректной работы)
  • Flash Attention: ON (если поддерживается оборудованием)

В Ollama:

  • Установите окно контекста: num_ctx 262144
  • Включите flash attention, если поддерживается

Что такое Quantization

Quantization снижает точность модели, чтобы она могла уместиться на пользовательском оборудовании:

ТипУменьшение размераКачествоСценарий использования
4-bit~75%ХорошееБольшинство задач кодинга, ограниченная RAM
8-bit~50%ЛучшеПрофессиональная работа, больше нюансов
16-bitОтсутствуетЛучшееМаксимальное качество, требуется большой объем RAM

Форматы моделей

GGUF (Universal)

  • Работает на всех платформах (Windows, Linux, Mac)
  • Широкие возможности Quantization
  • Обширная совместимость с инструментами
  • Рекомендуется для большинства пользователей

MLX (Mac only)

  • Оптимизирован для Apple Silicon (M1/M2/M3)
  • Использует ускорение Metal и AMX
  • Более быстрый Inference на Mac
  • Требуется macOS 13+

Ожидания по производительности

Что считается нормой

  • Время начальной загрузки: 10–30 секунд для прогрева модели
  • Генерация токенов: 5–20 токенов/сек на пользовательском оборудовании
  • Обработка контекста: медленнее при работе с большими кодовыми базами
  • Использование памяти: близко к размеру выбранной Quantization

Советы по производительности

  1. Используйте компактные промпты (compact prompts) — необходимо для локального Inference
  2. По возможности ограничивайте контекст — начинайте с меньших окон
  3. Выбирайте правильную Quantization — баланс качества и скорости
  4. Закройте другие приложения — освободите RAM для модели
  5. Используйте SSD — для более быстрой загрузки модели

Сравнение сценариев использования

Когда использовать локальные модели

Идеально для:

  • Оффлайн сред разработки
  • Проектов с высокими требованиями к конфиденциальности
  • Обучения без затрат на API
  • Неограниченных экспериментов
  • Изолированных (Air-gapped) сред
  • Разработки с ограниченным бюджетом

Когда использовать облачные модели

☁️ Лучше для:

  • Очень больших кодовых баз (>256K токенов)
  • Многочасовых сессий рефакторинга
  • Команд, которым нужна стабильная производительность
  • Доступа к новейшим возможностям моделей
  • Проектов с жесткими временными рамками

Устранение неполадок

Частые проблемы и решения

"Shell integration unavailable"

  • Переключитесь на bash в Careti Settings → Terminal → Default Terminal Profile
  • Это решает 90% проблем с интеграцией терминала

"No connection could be made"

  • Проверьте, запущен ли сервер (LM Studio или Ollama)
  • Убедитесь, что Base URL совпадает с адресом сервера
  • Убедитесь, что Firewall не блокирует соединение
  • Порты по умолчанию: LM Studio (1234), Ollama (11434)

Медленные или неполные ответы

  • Это нормально для локальных моделей (обычно 5–20 токенов/сек)
  • Попробуйте меньшую Quantization (4-bit вместо 8-bit)
  • Включите компактные промпты, если еще не сделали этого
  • Уменьшите размер окна контекста (context window)

Ошибки или путаница в ответах модели

  • Убедитесь, что KV Cache Quantization выключена (OFF) в LM Studio
  • Убедитесь, что включены компактные промпты
  • Проверьте, установлен ли максимальный размер контекста
  • Убедитесь, что RAM достаточно для выбранной Quantization

Оптимизация производительности

Для ускорения Inference:

  1. Используйте 4-bit Quantization
  2. Включите Flash Attention
  3. Уменьшите окно контекста, если оно не требуется в полном объеме
  4. Закройте ненужные приложения
  5. Используйте NVMe SSD для хранения моделей

Для повышения качества:

  1. Используйте 8-bit Quantization или выше
  2. Максимизируйте окно контекста
  3. Обеспечьте адекватное охлаждение
  4. Выделите максимум RAM для модели

Расширенная настройка

Конфигурация с несколькими GPU

Если у вас несколько GPU, вы можете распределить слои модели:

  • LM Studio: автоматическое определение GPU
  • Ollama: настройка параметра num_gpu

Пользовательские модели

Хотя Qwen3 Coder 30B рекомендуется, вы можете поэкспериментировать с:

  • DeepSeek Coder V2
  • Codestral 22B
  • StarCoder2 15B

Примечание: они могут потребовать дополнительной настройки и тестирования.

Сообщество и поддержка

Дальнейшие шаги

Готовы начать? Выберите свой путь:

Настройка LM Studio

Подход с использованием дружелюбного GUI и подробным руководством по настройке

Настройка Ollama

Настройка через командную строку для продвинутых пользователей и автоматизации

Резюме

Локальные модели в связке с Careti теперь стали по-настоящему практичными. Хотя они не могут сравниться с топовыми облачными API по скорости, они обеспечивают полную конфиденциальность, отсутствие затрат и возможность работы оффлайн. При правильной настройке и подходящем оборудовании Qwen3 Coder 30B эффективно справляется с большинством задач по написанию кода.

Ключ к успеху — правильная подготовка: достаточный объем RAM, верная конфигурация и реалистичные ожидания. Следуйте этому руководству, и вы получите мощного помощника для кодинга, работающего полностью на вашем железе.