音声入力 (Dictation)
音声入力はAIと作業する方法を変革します。複雑な考えをタイピングする代わりに、自然に話して完全な意図を共有しましょう。これは単に速度の問題ではありません - もちろん音声の方が速いですが - タイピングでは不可能な流動的なコラボレーションを実現することです。
Note
Clineアカウント必要: 音声入力機能はClineアカウントが必要です。音声転写(transcription)サービスはClineのサーバーを通じて提供されます。
音声がすべてを変える理由
タイピングするとき、あなたは自分自身を編集します。複雑なアイデアを単純化し、コンテキストをスキップし、ニュアンスを失います。話すとき、あなたは心の中のすべてを共有します - 問題全体、制約、心配しているエッジケースまで。
Agentモードで素早い往復ディスカッションのために音声入力を継続的に使用してください。慎重に構造化されたプロンプトをタイピングする代わりに、問題について考えてください。Caretが明確な質問をしたら即座に応答し、確固たる計画が出るまで繰り返してください。
タイピングの摩擦が真のコラボレーションを妨げていました。音声はその摩擦を取り除きます。
はじめに
音声入力を有効化:
- 設定 → 機能 → Dictationに移動
- "音声入力を有効化" トグルをオン
- プロンプトが表示されたらClineアカウントでログイン
- まだインストールしていない場合はFFmpegをインストール (Caretがガイドします)
有効化されると、チャット入力エリアにマイクボタンが表示されます。
音声入力を使用:
- マイクボタンをクリックして録音開始
- 自然に話す
- 再度クリックして録音停止
- 転写がチャットに表示されるまで待機
Tip
音声入力は設定したすべてのAIモデルと動作します。転写はClineサービスを通じて行われますが、会話は使用中のモデルと続きます。
システム要件
音声入力はすべてのプラットフォームでFFmpegを使用して音声をキャプチャします:
- macOS: FFmpeg (Homebrewを使用:
brew install ffmpeg) - Linux: FFmpeg (aptを使用:
sudo apt-get install ffmpeg) - Windows: FFmpeg (wingetを使用:
winget install Gyan.FFmpeg)
FFmpegがインストールされていない場合、Caretが自動的に検出し、ワンクリックインストールをガイドします。
音声入力が輝く場面
Agentモード会話
音声入力はAgentモードディスカッションに完璧です。プロンプトを慎重に作成する代わりに:
- 問題全体のコンテキストを一度に音声で伝える
- Caretの質問に即座に応答
- タイピングの摩擦なしにアイデアを反復
- Caretが聞いている間に声に出して考える
2-3分間話し続けながら全体のコンテキストを説明してプランニングセッションを開始してください。何を構築しようとしているか、どんな制約があるか、直面している特定の課題は何かを説明してください。
複雑な問題の説明
一部の問題はタイピングが難しいです。以下のような場合:
- エッジケースがある多段階ワークフロー
- 複数のシステムにまたがる統合課題
- 特定の再現手順がある性能問題
- 詳細なコンテキストが必要なUI/UX問題
話すことで「あ、それと...」のような重要な詳細を含めて全体の状況を自然に説明できます。
コードレビューとデバッグ
コードをレビューしたりバグを説明するとき、音声を通じて思考プロセスをたどることができます:
- "この関数は大丈夫そうだけど、こんな場合どうなるか心配..."
- "問題はこのセクションにあるかもしれないし、この別のエリアかもしれない..."
- "XとYを試したけど、どちらも動作しなかった、なぜなら..."
最終的な質問だけでなく、デバッグの旅全体を共有できます。
技術要件
システム要件:
- システムにFFmpegをインストール
- アクティブなインターネット接続
- 転写クレジットがあるClineアカウント
オーディオ品質:
- OpusコーデックでWebM形式で録音
- 16kHzサンプルレートのモノラルオーディオ
- 音声認識に最適化
プライバシー:
- オーディオはローカルマシンで録音
- 転写のためにオーディオファイルのみ送信
- 転写後オーディオは保存されない
- 一時ファイルは自動クリーンアップ
コストとクレジット
音声転写はClineアカウントを通じて分あたり$0.006のコストがかかります。ほとんどのユーザーにとってセッションあたり数セントにすぎません。
典型的な5分間のプランニング会話は約3セントです。ヘビー音声ユーザーでも月に数ドルを超えることは稀です。
Note
価格は実験的であり、サービスを改善しながら変更される可能性があります。
ベストプラクティス
自然に話してください タイピングするように話そうとしないでください。通常の会話トーンを使用し、完璧な文法は心配しないでください。
コンテキストを先に提供 大きな絵から始めて、次に具体的な内容に入ってください。「リアルタイムデータを処理する必要があるReactアプリを作っているんだけど、WebSocket接続でパフォーマンス問題が発生していて...」
探索に音声を使用 音声入力は正確に何が必要かわからないときの探索的な会話に完璧です。問題について話し始めて、会話が発展するようにしてください。
テキストと組み合わせる すべてに音声を使う必要はありません。複雑な説明とコンテキストには音声を使用し、素早いフォローアップやコードスニペットにはテキストに切り替えてください。
トラブルシューティング
マイクが動作しない
- IDEのマイクアクセス権限を確認
- FFmpegが正しくインストールされているか確認
- VSCode/エディタを再起動してみる
転写品質が良くない
- 明確で適度な音量で話す
- 可能な限り背景ノイズを減らす
- マイク設定を確認
接続問題
- インターネット接続を確認
- ファイアウォールがClineサーバーをブロックしているか確認
- Clineアカウントをログアウトして再度ログイン
認証問題
- 認証エラーが見える場合、Clineアカウントをログアウトして再度ログイン
- アカウントに十分な転写クレジットがあるか確認
- インターネット接続が安定しているか確認
オーディオ録音問題
- FFmpegが正しくインストールされアクセス可能か確認
- ブラウザ/IDEにマイク権限があるか確認
- オーディオキャプチャ失敗時はエディタを再起動
AIコラボレーションの未来
考える速度と同じくらい速く考えを話せるとき、自己検閲を止めます。全体のコンテキスト、エッジケース、重要な「もし」シナリオを共有します。これはより良いソリューションと少ない往復の明確化につながります。
質問やフィードバックはありますか?GitHub Discussionsでご連絡ください。