开源故事
阅读 VocoType 的开发故事:源于对隐私泄露的焦虑,始于对极致效率的追求。了解独立开发者为何打造并开源这款完全离线、永久免费的语音输入法,以及它如何成为 Vibe Coding 语音编程、会议纪要整理和游戏语音沟通的最佳搭档。从"冰箱广告"事件到拒绝数据上传的信念,每一行代码都是对隐私保护的承诺。
我为什么开发并开源了 VocoType
「既然市面上的语音输入法要么费钱,要么费隐私,那我为什么不自己做一个?」
这就是 VocoType-CLI 诞生的初衷。
一切源于那个关于「冰箱」的视频
说实话,我一开始只是个重度语音输入用户。
作为一个程序员,我每天只有两件事:写代码、喷...啊不,和产品经理讲道理。长期敲键盘让我手指确实有点吃不消,于是我开始尝试语音输入。
但很快我发现了一个问题:
有一次我刷到一个视频,视频主做了一个测试:他在家里大声聊了几句关于「想买新冰箱」的话题,结果没过多久,打开某电商 App,首页赫然出现了冰箱的推荐广告。
虽然这可能是巧合,但那一刻我确实产生了一种模糊的、不太舒服的感受——
「只要麦克风权限打开,我是不是就在『裸奔』?」
我们习惯了用隐私换便利,但这种交换真的公平吗?看着主流语音服务隐私条款里那种「为了优化服务可能会使用您的数据」的模糊措辞,我决定不想再做这种交换了。
我需要一个工具:它必须是活的(识别准),但必须是哑巴(绝不告密)。
市面上找不到,那就自己造。
VocoType 是什么?
经过几个月的折腾,VocoType 诞生了。它简单粗暴地解决了我的三个痛点:
- 离线识别:识别在本地完成,不依赖云端排队。
- 定价透明:我看够了那些「免费试用 5 分钟」的套路,所以把规则写清楚、尽量让核心能力可用。
- 低延迟上屏:尽量减少等待感(具体体验会受设备性能与环境影响)。
我自己的真实使用场景
作为一个开发者,我开发它不仅仅是为了「情怀」,更是因为我真的每天都在用它偷懒。
1. Vibe Coding 的最佳搭档
现在写代码,我基本是「动口不动手」。
比如我要写一个正则表达式,我直接按快捷键说:「写一个匹配邮箱的正则,要求支持子域名」。
VocoType 配合现在的 AI 编程助手,简直是绝配。而且最爽的是,它支持中英混合识别。
我说:「把这个 Kubernetes Pod 重启一下,检查 Docker 日志。」 它识别:「把这个 Kubernetes Pod 重启一下,检查 Docker 日志。」
不用频繁切换输入法,这种流畅感谁用谁知道。
2. 游戏里的「祖安文科状元」
打游戏的时候,手指都在操作键盘鼠标,哪有空打字?
被队友坑了,我直接按快捷键一顿输出。配合 VocoType 的 AI 优化 功能(我自己写了个「文明人」提示词模板),我说的一堆...语气助词,直接被它转写成了:
「亲爱的队友,建议您在操作时稍微注意一下走位呢~」
既释放了情绪,又把表达控制在更克制的范围内。
3. 会议纪要整理
开那些又臭又长的会,或者是看几十个小时的网课视频。我直接把录音或者视频文件拖进 VocoType。
它用本地 CPU 跑完转写,输出带时间轴的字幕和纯文本。关键是不用上传几个 G 的文件;同时如果你不启用 AI 优化,文本整理也不会被发送到第三方模型服务商。
为什么要开源?
既然做得这么好用(自认为),为什么要把核心引擎 vocotype-cli 开源?
其实理由很务实:
- 隐私需要「自证清白」:我说我不上传数据,你凭什么信?代码开源了,大家自己看。没有任何网络请求的代码,才是最硬的信任证书。
- 想借助社区一起改进:我现在用的模型虽然已经能用,但肯定还有优化空间。开源出来,有更多人一起改进,我也能跟着受益。
试试看?
如果你也是个:
- 手指想退休的懒人
- 对隐私有洁癖的极客
- 想要提升效率的打工人
- 峡谷的祖安人
欢迎来试试 VocoType。
- 硬核玩家:去 GitHub 玩 CLI 版 -> github.com/233stone/vocotype-cli
- 普通用户:去官网下桌面版(带 GUI,开箱即用) -> vocotype.com
如果这个项目帮到了你,去 GitHub 给个 Star 呗?不仅是鼓励,更是我不跑路的动力!