语音输入
介绍 VocoType 的语音输入功能:离线识别、低延迟上屏、中英混合输入与自定义替换词典。本文包含上手步骤、适用场景、常见问题与隐私说明,帮助你判断是否适合将语音作为日常输入方式。
语音输入:把“说话”变成可编辑的文字
这篇文档介绍的是 VocoType 的“语音输入”能力:你按下快捷键开始说话,松开/再次按键结束,文本会在光标处上屏,之后仍然可以像普通文字一样编辑。
提醒:延迟/准确率会受到硬件性能、环境噪声、麦克风质量、所用模型等因素影响。下文更关注“能否稳定工作、如何设置、遇到问题怎么排查”。
为什么要用 VocoType 的语音输入?
1)离线识别:隐私与可用性更可控
VocoType 的识别在本地完成(无需把语音上传到云端处理)。如果你的工作内容涉及敏感信息(例如法律、医疗、商业机密),或是你经常在不稳定网络环境下工作,离线方案通常更合适。
2)低延迟上屏:减少“等待感”
在语音输入场景里,体验往往比参数更重要:你说完一句话后,文字能否及时出现、能否保持稳定、会不会频繁丢字/断句。VocoType 的目标是让上屏尽可能接近实时,并把不确定性(网络/云端排队)从链路里移除。
3)中英混合与术语输入:减少切换成本
如果你经常夹杂英文、缩写或产品名(例如开发者/运营/内容创作者),中英混合输入能显著减少切换输入法与手动修正的次数。
4)自定义替换词典:把“常错词”变成“一次性问题”
语音识别难免会有固定误差(同音词、人名、项目代号、行业术语)。VocoType 提供本地替换词典:你把“经常被识别错的词”配置成规则,后续自动替换,减少重复修正。
示例(仅用于说明思路,你可以换成自己的高频错词):
- “子进程” → “紫禁城”(同音误识别)
- 人名、项目代号、缩写词
- 你所在行业的专有名词
相关文档:如果你需要更完整的配置步骤,请看 自定义词典。
上手步骤(推荐)
- 在任意可输入的地方(聊天框、文档、IDE 注释等)把光标放到目标位置。
- 触发 VocoType 的开始/结束录音快捷键(默认通常是
F2,以你的设置为准)。 - 先用 2-3 句短句测试:观察是否会漏字、是否会频繁插入错误标点。
- 把“高频错词”补进替换词典,让识别结果更稳定。
- 如果你需要把口语整理成书面语,再考虑开启 AI 优化(可选)。
常见使用场景
开发者:注释、Issue、聊天沟通
适合在写注释、补充 Issue 信息、快速沟通时使用;术语类错词可以通过替换词典逐步收敛。
内容创作者:记录灵感与草稿
适合“先把内容说出来”,再用键盘做二次编辑。对于长文,建议分段说,减少一次性长串口语带来的断句成本。
办公沟通:消息回复与会议记录
适合把口头表达快速变成可复制的文字,后续再按需要做格式整理。
可选:AI 优化(把口语整理成可发布文本)
如果你的目标不是“上屏即可用”,而是“把口语变成更正式的文本”,可以开启 AI 优化:
- 纠错/润色:修正口语化表达、错别字与断句
- 翻译:将中文内容翻译成英文输出
- 自定义提示词:按你的工作流定制输出格式(例如“会议纪要/待办清单/代码注释”)
相关文档:AI 深度优化。
开源可信
常见问题(快速排查)
Q:没有上屏/快捷键没反应?
A:优先检查快捷键是否冲突、是否授予了系统所需权限(macOS 的辅助功能/麦克风权限等),以及光标是否在可输入区域。
Q:错词很多怎么办?
A:先把 5-10 个最高频错词加进替换词典,再观察效果;噪声环境下建议换更近距离的麦克风或更安静的环境。