Cerebras

ℹ️Note

Это справочный документ для Careti. Он основан на версии Careti v3.38.1. Любые специфические политики Careti (разрешенные/заблокированные модели, региональные ограничения, аутентификация/маршрутизация) помечаются в тексте тегом <Note>.

ℹ️Note

Улучшенная настройка провайдера: согласно caret-docs/features/f09-enhanced-provider-setup.md, в Careti может быть улучшена проверка настроек провайдера и UX. Обратите внимание, что список разрешенных или заблокированных моделей может меняться в зависимости от политик аккаунта/организации или использования Careti Router.

Cerebras обеспечивает самый быстрый в мире AI инференс благодаря своей революционной архитектуре чипов wafer-scale. В отличие от традиционных GPU, которые перемещают веса моделей из внешней памяти, Cerebras хранит целые модели прямо на чипе, устраняя узкие места пропускной способности и достигая скорости до 2 600 токенов в секунду — зачастую в 20 раз быстрее, чем GPU.

Website: https://cloud.cerebras.ai/

Getting an API Key

Регистрация/Вход: Перейдите в Cerebras Cloud и создайте аккаунт или войдите в систему.
Перейдите к API Keys: Откройте раздел API-ключей в вашей панели управления.
Создайте ключ: Сгенерируйте новый API-ключ. Дайте ему описательное имя (например, «Careti»).
Скопируйте ключ: Немедленно скопируйте API-ключ. Храните его в безопасном месте.

Supported Models

Careti поддерживает следующие модели Cerebras:

zai-glm-4.6 — Интеллектуальная модель общего назначения со скоростью 1 500 токенов/с
qwen-3-235b-a22b-instruct-2507 — Продвинутая модель для следования инструкциям
qwen-3-235b-a22b-thinking-2507 — Модель для рассуждений (reasoning) с пошаговым мышлением
llama-3.3-70b — Модель Meta Llama 3.3, оптимизированная для скорости
qwen-3-32b — Компактная, но мощная модель для общих задач

Configuration in Careti

Откройте настройки Careti: Нажмите на иконку настроек (⚙️) на панели Careti.
Выберите провайдера: Выберите «Cerebras» в выпадающем списке «API Provider».
Введите API-ключ: Вставьте ваш API-ключ Cerebras в поле «Cerebras API Key».
Выберите модель: Выберите нужную модель в выпадающем списке «Model».
(Опционально) Custom Base URL: Большинству пользователей не потребуется изменять этот параметр.

Преимущество Wafer-Scale архитектуры Cerebras

Cerebras фундаментально переосмыслили архитектуру аппаратного обеспечения для AI, чтобы решить проблему скорости инференса:

Wafer-Scale Architecture

Традиционные GPU используют отдельные чипы для вычислений и памяти, что заставляет их постоянно перемещать веса моделей туда и обратно. Cerebras создали самый большой в мире AI-чип — wafer-scale engine, который хранит целые модели прямо на кристалле. Никакой внешней памяти, никаких ограничений пропускной способности, никакого ожидания.

Революционная скорость

До 2 600 токенов в секунду — зачастую в 20 раз быстрее, чем GPU
Рассуждения за одну секунду — то, что раньше занимало минуты, теперь происходит мгновенно
Приложения реального времени — модели рассуждения становятся практичными для интерактивного использования
Никаких лимитов пропускной способности — хранение всей модели на чипе устраняет узкие места памяти

Закон масштабирования Cerebras (The Cerebras Scaling Law)

Cerebras обнаружили, что более быстрый инференс делает AI умнее. Современные модели рассуждения генерируют тысячи токенов в качестве «внутреннего монолога» перед ответом. На традиционном оборудовании это занимает слишком много времени для использования в реальном времени. Cerebras делает модели рассуждения достаточно быстрыми для повседневных приложений.

Качество без компромиссов

В отличие от других методов оптимизации скорости, которые жертвуют точностью, Cerebras сохраняет полное качество модели, обеспечивая при этом беспрецедентную скорость. Вы получаете интеллект передовых моделей с отзывчивостью легковесных решений.

Узнайте больше о технологиях Cerebras в их блоге:

Тарифные планы Cerebras Code

Cerebras предлагает специализированные тарифные планы для разработчиков:

Code Pro ($50/месяц)

Доступ к Qwen3-Coder с быстрым автодополнением в большом контексте
До 24 миллионов токенов в день
Идеально подходит для независимых разработчиков и пет-проектов
3–4 часа непрерывного написания кода в день

Code Max ($200/месяц)

Поддержка интенсивных рабочих процессов программирования
До 120 миллионов токенов в день
Идеально подходит для профессиональной разработки и мультиагентных систем
Без еженедельных лимитов, без привязки к конкретной IDE

Особые возможности

Бесплатный уровень (Free Tier)

Модель qwen-3-coder-480b-free предоставляет доступ к высокопроизводительному инференсу бесплатно — уникальное предложение среди провайдеров, ориентированных на скорость.

Рассуждения в реальном времени (Real-Time Reasoning)

Модели рассуждения, такие как qwen-3-235b-a22b-thinking-2507, могут выполнять сложные многоэтапные рассуждения менее чем за секунду, что делает их практичными для интерактивных процессов разработки.

Специализация на коде

Модели Qwen3-Coder специально оптимизированы для задач программирования, демонстрируя производительность, сравнимую с Claude Sonnet 4 и GPT-4.1 в бенчмарках по кодингу.

Отсутствие привязки к IDE

Работает с любым инструментом, совместимым с OpenAI — Cursor, Continue.dev, Careti или любым другим редактором, поддерживающим эндпоинты OpenAI.

Советы и примечания

Преимущество в скорости: Cerebras отлично справляется с тем, чтобы сделать модели рассуждения практичными для использования в реальном времени. Идеально подходит для агентных рабочих процессов, требующих множества вызовов LLM.
Бесплатный уровень: Начните с бесплатной модели, чтобы оценить скорость Cerebras, прежде чем переходить на платные тарифы.
Окна контекста: Модели поддерживают окна контекста от 64K до 128K токенов для работы с объемным кодом.
Лимиты запросов: Щедрые лимиты запросов (Rate Limits), разработанные для процессов разработки. Проверьте текущие ограничения в вашей панели управления.
Цены: Конкурентоспособная стоимость с существенным преимуществом в скорости. Посетите Cerebras Cloud для ознакомления с актуальными тарифами.
Приложения реального времени: Идеально подходит для задач, где важна скорость ответа AI — генерация кода, отладка и интерактивная разработка.

ℹ️Note

ℹ️Note

Getting an API Key​

Supported Models​

Configuration in Careti​

Преимущество Wafer-Scale архитектуры Cerebras​

Wafer-Scale Architecture​

Революционная скорость​

Закон масштабирования Cerebras (The Cerebras Scaling Law)​

Качество без компромиссов​

Тарифные планы Cerebras Code​

Code Pro ($50/месяц)​

Code Max ($200/месяц)​

Особые возможности​

Бесплатный уровень (Free Tier)​

Рассуждения в реальном времени (Real-Time Reasoning)​

Специализация на коде​

Отсутствие привязки к IDE​

Советы и примечания​

Getting an API Key

Supported Models

Configuration in Careti

Преимущество Wafer-Scale архитектуры Cerebras

Wafer-Scale Architecture

Революционная скорость

Закон масштабирования Cerebras (The Cerebras Scaling Law)

Качество без компромиссов

Тарифные планы Cerebras Code

Code Pro ($50/месяц)

Code Max ($200/месяц)

Особые возможности

Бесплатный уровень (Free Tier)

Рассуждения в реальном времени (Real-Time Reasoning)

Специализация на коде

Отсутствие привязки к IDE

Советы и примечания