Cerebras
Note
Это справочный документ для Careti. Он основан на версии Careti v3.38.1. Любые специфические политики Careti (разрешенные/заблокированные модели, региональные ограничения, аутентификация/маршрутизация) помечаются в тексте тегом <Note>.
Note
Улучшенная настройка провайдера: согласно caret-docs/features/f09-enhanced-provider-setup.md, в Careti может быть улучшена проверка настроек провайдера и UX. Обратите внимание, что список разрешенных или заблокированных моделей может меняться в зависимости от политик аккаунта/организации или использования Careti Router.
Cerebras обеспечивает самый быстрый в мире AI инференс благодаря своей революционной архитектуре чипов wafer-scale. В отличие от традиционных GPU, которые перемещают веса моделей из внешней памяти, Cerebras хранит целые модели прямо на чипе, устраняя узкие места пропускной способности и достигая скорости до 2 600 токенов в секунду — зачастую в 20 раз быстрее, чем GPU.
Website: https://cloud.cerebras.ai/
Getting an API Key
- Регистрация/Вход: Перейдите в Cerebras Cloud и создайте аккаунт или войдите в систему.
- Перейдите к API Keys: Откройте раздел API-ключей в вашей панели управления.
- Создайте ключ: Сгенерируйте новый API-ключ. Дайте ему описательное имя (например, «Careti»).
- Скопируйте ключ: Немедленно скопируйте API-ключ. Храните его в безопасном месте.
Supported Models
Careti поддерживает следующие модели Cerebras:
zai-glm-4.6— Интеллектуальная модель общего назначения со скоростью 1 500 токенов/сqwen-3-235b-a22b-instruct-2507— Продвинутая модель для следования инструкциямqwen-3-235b-a22b-thinking-2507— Модель для рассуждений (reasoning) с пошаговым мышлениемllama-3.3-70b— Модель Meta Llama 3.3, оптимизированная для скоростиqwen-3-32b— Компактная, но мощная модель для общих задач
Configuration in Careti
- Откройте настройки Careti: Нажмите на иконку настроек (⚙️) на панели Careti.
- Выберите провайдера: Выберите «Cerebras» в выпадающем списке «API Provider».
- Введите API-ключ: Вставьте ваш API-ключ Cerebras в поле «Cerebras API Key».
- Выберите модель: Выберите нужную модель в выпадающем списке «Model».
- (Опционально) Custom Base URL: Большинству пользователей не потребуется изменять этот параметр.
Преимущество Wafer-Scale архитектуры Cerebras
Cerebras фундаментально переосмыслили архитектуру аппаратного обеспечения для AI, чтобы решить проблему скорости инференса:
Wafer-Scale Architecture
Традиционные GPU используют отдельные чипы для вычислений и памяти, что заставляет их постоянно перемещать веса моделей туда и обратно. Cerebras создали самый большой в мире AI-чип — wafer-scale engine, который хранит целые модели прямо на кристалле. Никакой внешней памяти, никаких ограничений пропускной способности, никакого ожидания.
Революционная скорость
- До 2 600 токенов в секунду — зачастую в 20 раз быстрее, чем GPU
- Рассуждения за одну секунду — то, что раньше занимало минуты, теперь происходит мгновенно
- Приложения реального времени — модели рассуждения становятся практичными для интерактивного использования
- Никаких лимитов пропускной способности — хранение всей модели на чипе устраняет узкие места памяти
Закон масштабирования Cerebras (The Cerebras Scaling Law)
Cerebras обнаружили, что более быстрый инференс делает AI умнее. Современные модели рассуждения генерируют тысячи токенов в качестве «внутреннего монолога» перед ответом. На традиционном оборудовании это занимает слишком много времени для использования в реальном времени. Cerebras делает модели рассуждения достаточно быстрыми для повседневных приложений.
Качество без компромиссов
В отличие от других методов оптимизации скорости, которые жертвуют точностью, Cerebras сохраняет полное качество модели, обеспечивая при этом беспрецедентную скорость. Вы получаете интеллект передовых моделей с отзывчивостью легковесных решений.
Узнайте больше о технологиях Cerebras в их блоге:
Тарифные планы Cerebras Code
Cerebras предлагает специализированные тарифные планы для разработчиков:
Code Pro ($50/месяц)
- Доступ к Qwen3-Coder с быстрым автодополнением в большом контексте
- До 24 миллионов токенов в день
- Идеально подходит для независимых разработчиков и пет-проектов
- 3–4 часа непрерывного написания кода в день
Code Max ($200/месяц)
- Поддержка интенсивных рабочих процессов программирования
- До 120 миллионов токенов в день
- Идеально подходит для профессиональной разработки и мультиагентных систем
- Без еженедельных лимитов, без привязки к конкретной IDE
Особые возможности
Бесплатный уровень (Free Tier)
Модель qwen-3-coder-480b-free предоставляет доступ к высокопроизводительному инференсу бесплатно — уникальное предложение среди провайдеров, ориентированных на скорость.
Рассуждения в реальном времени (Real-Time Reasoning)
Модели рассуждения, такие как qwen-3-235b-a22b-thinking-2507, могут выполнять сложные многоэтапные рассуждения менее чем за секунду, что делает их практичными для интерактивных процессов разработки.
Специализация на коде
Модели Qwen3-Coder специально оптимизированы для задач программирования, демонстрируя производительность, сравнимую с Claude Sonnet 4 и GPT-4.1 в бенчмарках по кодингу.
Отсутствие привязки к IDE
Работает с любым инструментом, совместимым с OpenAI — Cursor, Continue.dev, Careti или любым другим редактором, поддерживающим эндпоинты OpenAI.
Советы и примечания
- Преимущество в скорости: Cerebras отлично справляется с тем, чтобы сделать модели рассуждения практичными для использования в реальном времени. Идеально подходит для агентных рабочих процессов, требующих множества вызовов LLM.
- Бесплатный уровень: Начните с бесплатной модели, чтобы оценить скорость Cerebras, прежде чем переходить на платные тарифы.
- Окна контекста: Модели поддерживают окна контекста от 64K до 128K токенов для работы с объемным кодом.
- Лимиты запросов: Щедрые лимиты запросов (Rate Limits), разработанные для процессов разработки. Проверьте текущие ограничения в вашей панели управления.
- Цены: Конкурентоспособная стоимость с существенным преимуществом в скорости. Посетите Cerebras Cloud для ознакомления с актуальными тарифами.
- Приложения реального времени: Идеально подходит для задач, где важна скорость ответа AI — генерация кода, отладка и интерактивная разработка.