语音输入 (Dictation)
语音输入改变了与 AI 协作的方式。无需打字输入复杂的想法,您可以自然地说话并分享完整的意图。这不仅仅是速度问题——虽然语音确实更快——而是实现打字无法实现的流畅协作。
Note
需要 Cline 账户: 语音输入功能需要 Cline 账户。语音转录服务通过 Cline 的服务器提供。
语音改变一切的原因
打字时,您会编辑自己。您简化复杂的想法,跳过上下文,失去细微差别。说话时,您分享脑海中的一切——完整的问题、约束条件,甚至是您担心的边缘情况。
在 Agent 模式中持续使用语音输入进行快速往返讨论。无需打字输入经过深思熟虑的结构化提示,直接思考问题。当 Caret 提出明确的问题时立即回应,不断迭代直到得出可靠的计划。
打字的摩擦阻碍了真正的协作。语音消除了这种摩擦。
快速开始
启用语音输入:
- 前往设置 → 功能 → Dictation
- 开启"启用语音输入"开关
- 提示时使用 Cline 账户登录
- 如果尚未安装,请安装 FFmpeg(Caret 会引导您完成)
启用后,聊天输入区域将显示麦克风按钮。
使用语音输入:
- 点击麦克风按钮开始录音
- 自然说话
- 再次点击停止录音
- 等待转录内容显示在聊天中
Tip
语音输入适用于您配置的任何 AI 模型。转录通过 Cline 服务完成,但对话继续使用您正在使用的模型。
系统要求
语音输入在所有平台上使用 FFmpeg 捕获音频:
- macOS: FFmpeg(使用 Homebrew:
brew install ffmpeg) - Linux: FFmpeg(使用 apt:
sudo apt-get install ffmpeg) - Windows: FFmpeg(使用 winget:
winget install Gyan.FFmpeg)
如果未安装 FFmpeg,Caret 会自动检测并引导您完成一键安装。
语音输入的优势场景
Agent 模式对话
语音输入非常适合 Agent 模式讨论。无需精心编写提示:
- 一次性用语音传达完整的问题上下文
- 立即回应 Caret 的问题
- 无打字摩擦地迭代想法
- 在 Caret 倾听时大声思考
通过持续说话 2-3 分钟来开始计划会话,解释完整的上下文。说明您要构建什么、有哪些约束条件,以及面临哪些具体挑战。
复杂问题说明
有些问题难以打字表达,例如:
- 具有边缘情况的多步骤工作流
- 跨多个系统的集成挑战
- 具有特定重现步骤的性能问题
- 需要详细上下文的 UI/UX 问题
说话让您自然地描述整个情况,包括"哦,还有..."这样的重要细节。
代码审查和调试
审查代码或解释错误时,语音让您跟随思维过程:
- "这个函数看起来不错,但我担心如果遇到以下情况会怎样..."
- "问题可能在这个部分,或者可能在另一个区域..."
- "我尝试了 X 和 Y,但都不起作用,因为..."
您可以分享整个调试过程,而不仅仅是最终问题。
技术要求
系统要求:
- 系统已安装 FFmpeg
- 活动的互联网连接
- 有转录点数的 Cline 账户
音频质量:
- 使用 Opus 编解码器的 WebM 格式录音
- 16kHz 采样率的单声道音频
- 针对语音识别优化
隐私:
- 音频在本地机器上录制
- 仅传输音频文件进行转录
- 转录后不存储音频
- 自动清理临时文件
费用和点数
语音转录通过 Cline 账户按每分钟 $0.006 计费。对于大多数用户来说,每次会话仅需几美分。
典型的 5 分钟计划对话约需 3 美分。即使是重度语音用户,每月也很少超过几美元。
Note
定价是实验性的,可能随着服务改进而变化。
最佳实践
自然说话 不要试图像打字一样说话。使用您通常的对话语气,不必担心完美的语法。
先提供上下文 从大局开始,然后深入具体内容。"我正在构建一个需要处理实时数据的 React 应用,WebSocket 连接出现了性能问题..."
使用语音探索 当您不确定具体需要什么时,语音输入非常适合探索性对话。开始谈论问题,让对话自然发展。
结合文本 您不需要对所有内容都使用语音。复杂的解释和上下文使用语音,快速后续或代码片段切换到文本。
故障排除
麦克风不工作
- 检查 IDE 的麦克风访问权限
- 确认 FFmpeg 已正确安装
- 尝试刷新 VSCode/编辑器
转录质量差
- 清晰地以正常音量说话
- 尽可能减少背景噪音
- 检查麦克风设置
连接问题
- 检查互联网连接
- 确认防火墙未阻止 Cline 服务器
- 尝试退出并重新登录 Cline 账户
认证问题
- 如果看到认证错误,请退出并重新登录 Cline 账户
- 确认账户有足够的转录点数
- 确保互联网连接稳定
音频录制问题
- 确认 FFmpeg 已正确安装且可访问
- 检查浏览器/IDE 是否有麦克风权限
- 音频捕获失败时尝试重启编辑器
AI 协作的未来
当您能以思考的速度说出想法时,就会停止自我审查。您会分享完整的上下文、边缘情况以及重要的"假如"场景。这会带来更好的解决方案和更少的往返澄清。
有问题或反馈吗?请在 GitHub Discussions 联系我们。