VocoType 语音输入：0.1秒极速响应，支持中英混合的离线语音识别工具

语音输入：把“说话”变成可编辑的文字

这篇文档介绍的是 VocoType 的“语音输入”能力：你按下快捷键开始说话，松开/再次按键结束，文本会在光标处上屏，之后仍然可以像普通文字一样编辑。

提醒：延迟/准确率会受到硬件性能、环境噪声、麦克风质量、所用模型等因素影响。下文更关注“能否稳定工作、如何设置、遇到问题怎么排查”。

VocoType 的识别在本地完成（无需把语音上传到云端处理）。如果你的工作内容涉及敏感信息（例如法律、医疗、商业机密），或是你经常在不稳定网络环境下工作，离线方案通常更合适。

在语音输入场景里，体验往往比参数更重要：你说完一句话后，文字能否及时出现、能否保持稳定、会不会频繁丢字/断句。VocoType 的目标是让上屏尽可能接近实时，并把不确定性（网络/云端排队）从链路里移除。

如果你经常夹杂英文、缩写或产品名（例如开发者/运营/内容创作者），中英混合输入能显著减少切换输入法与手动修正的次数。

语音识别难免会有固定误差（同音词、人名、项目代号、行业术语）。VocoType 提供本地替换词典：你把“经常被识别错的词”配置成规则，后续自动替换，减少重复修正。

示例（仅用于说明思路，你可以换成自己的高频错词）：

相关文档：如果你需要更完整的配置步骤，请看自定义词典。

适合在写注释、补充 Issue 信息、快速沟通时使用；术语类错词可以通过替换词典逐步收敛。

适合“先把内容说出来”，再用键盘做二次编辑。对于长文，建议分段说，减少一次性长串口语带来的断句成本。

适合把口头表达快速变成可复制的文字，后续再按需要做格式整理。

如果你的目标不是“上屏即可用”，而是“把口语变成更正式的文本”，可以开启 AI 优化：

Q：没有上屏/快捷键没反应？
A：优先检查快捷键是否冲突、是否授予了系统所需权限（macOS 的辅助功能/麦克风权限等），以及光标是否在可输入区域。

Q：Windows 下有录音动效和统计增加，但没有文字输出？
A：这通常是因为 360 等安全软件静默拦截了模拟输入操作。请参考 360 安全卫士拦截处理。

Q：错词很多怎么办？
A：先把 5-10 个最高频错词加进替换词典，再观察效果；噪声环境下建议换更近距离的麦克风或更安静的环境。