Skip to main content

음성 입력 (Dictation)

음성 입력은 AI와 작업하는 방식을 변화시킵니다. 복잡한 생각을 타이핑하는 대신, 자연스럽게 말하고 완전한 의도를 공유하세요. 이것은 단순히 속도의 문제가 아닙니다 - 물론 음성이 더 빠르긴 하지만 - 타이핑으로는 불가능한 유동적인 협업을 실현하는 것입니다.

ℹ️Note

Cline 계정 필요: 음성 입력 기능은 Cline 계정이 필요합니다. 음성 전사(transcription) 서비스는 Cline의 서버를 통해 제공됩니다.

음성이 모든 것을 바꾸는 이유

타이핑할 때는 자신을 편집합니다. 복잡한 아이디어를 단순화하고, 맥락을 건너뛰고, 뉘앙스를 잃습니다. 말할 때는 마음속의 모든 것을 공유합니다 - 전체 문제, 제약 조건, 걱정하는 엣지 케이스까지.

Agent 모드에서 빠른 왕복 토론을 위해 음성 입력을 지속적으로 사용하세요. 신중하고 구조화된 프롬프트를 타이핑하는 대신, 문제에 대해 생각하세요. Caret이 명확한 질문을 하면 즉시 응답하고, 탄탄한 계획이 나올 때까지 반복하세요.

타이핑의 마찰이 진정한 협업을 방해했습니다. 음성은 그 마찰을 제거합니다.

시작하기

음성 입력 활성화:

  1. 설정 → 기능 → Dictation으로 이동
  2. "음성 입력 활성화" 토글 켜기
  3. 메시지가 표시되면 Cline 계정으로 로그인
  4. 아직 설치하지 않았다면 FFmpeg 설치 (Caret이 안내합니다)

활성화되면 채팅 입력 영역에 마이크 버튼이 표시됩니다.

음성 입력 사용:

  • 마이크 버튼을 클릭하여 녹음 시작
  • 자연스럽게 말하기
  • 다시 클릭하여 녹음 중지
  • 전사가 채팅에 나타날 때까지 대기
💡Tip

음성 입력은 설정한 모든 AI 모델과 작동합니다. 전사는 Cline 서비스를 통해 이루어지지만, 대화는 사용 중인 모델과 계속됩니다.

시스템 요구사항

음성 입력은 모든 플랫폼에서 FFmpeg를 사용하여 음성을 캡처합니다:

  • macOS: FFmpeg (Homebrew 사용: brew install ffmpeg)
  • Linux: FFmpeg (apt 사용: sudo apt-get install ffmpeg)
  • Windows: FFmpeg (winget 사용: winget install Gyan.FFmpeg)

FFmpeg가 설치되어 있지 않으면 Caret이 자동으로 감지하고 원클릭 설치를 안내합니다.

음성 입력이 빛을 발하는 곳

Agent 모드 대화

음성 입력은 Agent 모드 토론에 완벽합니다. 프롬프트를 신중하게 작성하는 대신:

  • 전체 문제 맥락을 한 번에 음성으로 전달
  • Caret의 질문에 즉시 응답
  • 타이핑 마찰 없이 아이디어 반복
  • Caret이 듣는 동안 소리 내어 생각하기

2-3분 동안 계속 말하면서 전체 맥락을 설명하여 계획 세션을 시작하세요. 무엇을 구축하려고 하는지, 어떤 제약 조건이 있는지, 직면한 특정 과제는 무엇인지 설명하세요.

복잡한 문제 설명

일부 문제는 타이핑하기 어렵습니다. 다음과 같은 경우:

  • 엣지 케이스가 있는 다단계 워크플로우
  • 여러 시스템에 걸친 통합 과제
  • 특정 재현 단계가 있는 성능 문제
  • 상세한 맥락이 필요한 UI/UX 문제

말하기는 "아, 그리고..." 같은 중요한 세부사항을 포함하여 전체 상황을 자연스럽게 설명할 수 있게 합니다.

코드 리뷰 및 디버깅

코드를 검토하거나 버그를 설명할 때, 음성을 통해 사고 과정을 따라갈 수 있습니다:

  • "이 함수는 괜찮아 보이는데, 다음과 같은 경우 어떻게 될지 걱정돼..."
  • "문제는 이 섹션에 있을 수도 있고, 아니면 이 다른 영역일 수도 있어..."
  • "X와 Y를 시도했는데, 둘 다 작동하지 않았어 왜냐하면..."

최종 질문만이 아니라 전체 디버깅 여정을 공유할 수 있습니다.

기술 요구사항

시스템 요구사항:

  • 시스템에 FFmpeg 설치
  • 활성 인터넷 연결
  • 전사 크레딧이 있는 Cline 계정

오디오 품질:

  • Opus 코덱으로 WebM 형식으로 녹음
  • 16kHz 샘플 레이트의 모노 오디오
  • 음성 인식에 최적화됨

개인정보:

  • 오디오는 로컬 머신에서 녹음
  • 전사를 위해 오디오 파일만 전송
  • 전사 후 오디오 저장 안 함
  • 임시 파일 자동 정리

비용 및 크레딧

음성 전사는 Cline 계정을 통해 분당 $0.006의 비용이 듭니다. 대부분의 사용자에게 세션당 몇 센트에 불과합니다.

일반적인 5분 계획 대화는 약 3센트입니다. 헤비 음성 사용자도 월 몇 달러를 초과하는 경우는 드뭅니다.

ℹ️Note

가격은 실험적이며 서비스를 개선하면서 변경될 수 있습니다.

모범 사례

자연스럽게 말하세요 타이핑하듯이 말하려고 하지 마세요. 일반적인 대화 톤을 사용하고 완벽한 문법은 걱정하지 마세요.

맥락을 먼저 제공하세요 큰 그림에서 시작한 다음 구체적인 내용으로 들어가세요. "실시간 데이터를 처리해야 하는 React 앱을 만들고 있는데, WebSocket 연결에서 성능 문제가 발생하고 있어..."

탐색에 음성 사용 음성 입력은 정확히 무엇이 필요한지 확실하지 않을 때 탐색적 대화에 완벽합니다. 문제에 대해 이야기하기 시작하고 대화가 발전하도록 하세요.

텍스트와 결합 모든 것에 음성을 사용할 필요는 없습니다. 복잡한 설명과 맥락에는 음성을 사용하고, 빠른 후속 조치나 코드 스니펫에는 텍스트로 전환하세요.

문제 해결

마이크가 작동하지 않음

  • IDE의 마이크 액세스 권한 확인
  • FFmpeg가 제대로 설치되었는지 확인
  • VSCode/편집기 새로 고침 시도

전사 품질이 좋지 않음

  • 명확하고 정상적인 음량으로 말하기
  • 가능하면 배경 소음 줄이기
  • 마이크 설정 확인

연결 문제

  • 인터넷 연결 확인
  • 방화벽이 Cline 서버를 차단하는지 확인
  • Cline 계정 로그아웃 후 다시 로그인 시도

인증 문제

  • 인증 오류가 보이면 Cline 계정 로그아웃 후 다시 로그인
  • 계정에 충분한 전사 크레딧이 있는지 확인
  • 인터넷 연결이 안정적인지 확인

오디오 녹음 문제

  • FFmpeg가 제대로 설치되고 액세스 가능한지 확인
  • 브라우저/IDE에 마이크 권한이 있는지 확인
  • 오디오 캡처 실패 시 편집기 재시작 시도

AI 협업의 미래

생각하는 속도만큼 빠르게 생각을 말할 수 있을 때, 자기 검열을 멈춥니다. 전체 맥락, 엣지 케이스, 중요한 "만약" 시나리오를 공유합니다. 이는 더 나은 솔루션과 적은 왕복 명확화로 이어집니다.


질문이나 피드백이 있으신가요? GitHub Discussions에서 연락주세요.