Skip to main content

Cerebras

Cerebras 通过其革命性的晶圆级芯片架构提供世界上最快的 AI 推理。与从外部内存传输模型权重的传统 GPU 不同,Cerebras 将整个模型存储在芯片上,消除了带宽瓶颈,实现每秒高达 2,600 个 token 的速度——通常比 GPU 快 20 倍。

网站: https://cloud.cerebras.ai/

获取 API 密钥

  1. 注册/登录: 前往 Cerebras Cloud 创建账户或登录。
  2. 导航到 API 密钥: 在您的仪表板中访问 API 密钥部分。
  3. 创建密钥: 生成新的 API 密钥。给它一个描述性名称(例如"Careti")。
  4. 复制密钥: 立即复制 API 密钥。安全存储。

支持的模型

Careti 支持以下 Cerebras 模型:

  • qwen-3-coder-480b-free(免费层)- 免费的高性能编程模型
  • qwen-3-coder-480b - 旗舰 480B 参数编程模型
  • qwen-3-235b-a22b-instruct-2507 - 高级指令跟随模型
  • qwen-3-235b-a22b-thinking-2507 - 具有逐步思考的推理模型
  • llama-3.3-70b - Meta 的 Llama 3.3 模型,针对速度优化
  • qwen-3-32b - 紧凑而强大的通用任务模型

Careti 中配置

  1. 打开 Careti 设置: 点击 Careti 面板中的设置图标(⚙️)。
  2. 选择提供商: 从"API 提供商"下拉菜单中选择"Cerebras"。
  3. 输入 API 密钥: 将您的 Cerebras API 密钥粘贴到"Cerebras API Key"字段中。
  4. 选择模型: 从"模型"下拉菜单中选择您想要的模型。
  5. (可选)自定义基本 URL: 大多数用户不需要调整此设置。

Cerebras 的晶圆级优势

Cerebras 从根本上重新构想了 AI 硬件架构,以解决推理速度问题:

晶圆级架构

传统 GPU 使用单独的芯片进行计算和内存,迫使它们不断来回传输模型权重。Cerebras 构建了世界上最大的 AI 芯片——一个晶圆级引擎,可将整个模型存储在芯片上。无外部内存,无带宽瓶颈,无等待。

革命性速度

  • 每秒高达 2,600 个 tokens - 通常比 GPU 快 20 倍
  • 单秒推理 - 过去需要几分钟的现在瞬间完成
  • 实时应用 - 推理模型在交互使用中变得实用
  • 无带宽限制 - 芯片上存储的整个模型消除了内存瓶颈

Cerebras 扩展定律

Cerebras 发现 更快的推理能够实现更智能的 AI。现代推理模型在回答之前会生成数千个 tokens 作为"内部独白"。在传统硬件上,这对于实时使用来说太慢了。Cerebras 使推理模型足够快,可用于日常应用。

质量无妥协

与其他牺牲准确性的速度优化不同,Cerebras 在提供前所未有的速度的同时保持完整的模型质量。您可以获得前沿模型的智能和轻量级模型的响应能力。

在他们的博客文章中了解更多关于 Cerebras 技术的信息:

Cerebras Code 计划

Cerebras 为开发者提供专门的计划:

Code Pro(50 美元/月)

  • 访问 Qwen3-Coder,具有快速、高上下文补全
  • 每天最多 2400 万 tokens
  • 适合独立开发者和周末项目
  • 每天 3-4 小时不间断编程

Code Max(200 美元/月)

  • 重度编程工作流支持
  • 每天最多 1.2 亿 tokens
  • 完美适用于全职开发和多智能体系统
  • 无每周限制,无 IDE 锁定

特殊功能

免费层

qwen-3-coder-480b-free 模型免费提供对高性能推理的访问——在专注于速度的提供商中是独一无二的。

实时推理

qwen-3-235b-a22b-thinking-2507 这样的推理模型可以在不到一秒的时间内完成复杂的多步推理,使其适用于交互式开发工作流。

编程专业化

Qwen3-Coder 模型专门针对编程任务进行了优化,在编程基准测试中提供与 Claude Sonnet 4 和 GPT-4.1 相当的性能。

无 IDE 锁定

适用于任何 OpenAI 兼容工具——Cursor、Continue.dev、Careti 或任何其他支持 OpenAI 端点的编辑器。

提示和注意事项

  • 速度优势: Cerebras 在使推理模型实际用于实时使用方面表现出色。完美适用于需要多次 LLM 调用的智能体工作流。
  • 免费层: 从免费模型开始体验 Cerebras 速度,然后再升级到付费计划。
  • 上下文窗口: 模型支持从 64K 到 128K tokens 的上下文窗口,以包含大量代码上下文。
  • 速率限制: 为开发工作流设计的慷慨速率限制。查看您的仪表板了解当前限制。
  • 定价: 具有显著速度优势的竞争性定价。访问 Cerebras Cloud 了解当前费率。
  • 实时应用: 适合 AI 响应时间很重要的应用——代码生成、调试和交互式开发。