Skip to main content

ローカルモデル概要

ℹ️Note

キャレット(Careti)基準の文書です。Careti v3.38.1 マージ版に準拠し、ローカルランタイム/認証/ルーティング差異があれば <Note> で示します。

Careti でローカルモデルを実行

インターネット不要でローカル環境だけで実行できます。API コスト不要、データ外部送信なし。

クイックスタート

  1. ハードウェア確認 - 32GB RAM 以上
  2. ランタイム選択 - LM Studio / Ollama
  3. Qwen3 Coder 30B をダウンロード
  4. 設定 - コンパクトプロンプト、コンテキスト長
  5. オフラインで開始

ハードウェア要件

RAM推奨モデル量子化パフォーマンス
32GBQwen3 Coder 30B4-bit入門ローカルコーディング
64GBQwen3 Coder 30B8-bitCareti の全機能
128GB+GLM-4.5-Air4-bitクラウド並み

推奨モデル

Qwen3 Coder 30B

  • 256K コンテキスト
  • ツール使用が安定
  • リポジトリ規模の理解

ダウンロードサイズ:

  • 4-bit: 約 17GB
  • 8-bit: 約 32GB
  • 16-bit: 約 60GB

小さいモデルが不向きな理由

  • ツール出力が壊れる
  • コマンド実行を拒否
  • コンテキスト保持が弱い

ランタイム選択

LM Studio

  • 長所: GUI、モデル管理が簡単
  • 短所: メモリオーバーヘッド
  • ガイド

Ollama

  • 長所: CLI、軽量、スクリプト向き
  • 短所: 手動管理
  • ガイド

重要設定

必須設定

Careti:

  • "Use Compact Prompt" を有効化
  • 適切なモデル選択
  • Base URL を設定

LM Studio:

  • Context Length: 262144
  • KV Cache Quantization: OFF
  • Flash Attention: ON

Ollama:

  • num_ctx 262144

量子化

種類サイズ削減品質用途
4-bit約 75%RAM 制限環境
8-bit約 50%専門用途
16-bitなし最良高 RAM

モデル形式

GGUF

  • 全プラットフォーム
  • 量子化選択肢が多い

MLX

  • Mac 専用
  • Apple Silicon 最適化

パフォーマンス目安

  • 初回ロード: 10〜30秒
  • 生成速度: 5〜20 tokens/s
  • コンテキスト処理: 大規模ほど遅い
  • メモリ使用量: 量子化サイズに近い