VocoType

本地语音转文字Skills

VocoType 语音转文字 Skill

VocoType 是一个强大的本地语音转文字工具,能够将任何主流格式的音视频文件精准转换为文本。作为一项“技能(Skill)”集成到 AI Agent 中后,AI 可以通过调用该 Skill,直接理解并分析用户上传的录音、访谈或视频内容。

VocoType 是一个本地语音转文字应用,可将音视频文件转换为文字。你可以将其作为一个 Skill 集成到支持该协议的 AI Agent 中。

以下是完整的 Skill 配置内容,请直接通过下方代码块右上角的"复制"按钮一键获取:

## 触发场景

用户请求涉及以下情况时,AI 应自动触发此 Skill:
- 转换音频/视频文件为文字(录音、会议、播客、访谈等)
- 提取音视频中的语音内容
- 生成音视频的文字稿

## 异步执行指南

本技能采用“提交 -> 轮询 -> 获取”的异步模式,AI 应利用 MCP 协议内置的工具元数据进行调用。

1. **提交任务**:使用 `transcribe_file` 发起转录。
2. **状态轮询**:使用 `get_transcription_status` 观察进度。
3. **获取结果**:仅在任务为 `completed` 时,使用 `get_transcription_result` 获取文本。

支持格式:mp4, mp3, wav, flac, aac, m4a, ogg, mkv, webm, mov

## 异步查询策略 (推荐)

由于语音转文字是长耗时操作,请严格遵循 **指数退避 (Exponential Backoff)** 策略查询状态,以最大程度减少 Token 消耗:

1. **初始等待**:获取 `job_id` 后,建议初始等待 **10 秒**
2. **状态轮询**:调用 `get_transcription_status`。若状态为 `pending``running`,下一次查询的间隔时间应**翻倍**(例如:10s -> 20s -> 40s...)。
3. **获取结果**:仅在 `get_transcription_status` 返回 `completed` 时,才调用 `get_transcription_result` 获取最终文本。
4. **最大间隔**:单次轮询的最大间隔建议不超过 **60 秒**

## 关键约束

1. **必须使用绝对路径**
   -`/Users/leilei/Downloads/meeting.mp3`
   -`~/Downloads/meeting.mp3`
   -`./meeting.mp3`

2. **不支持并发**
   - 一次只能转录一个文件
   - 多个文件需依次处理

3. **免费版限制 10 分钟**
   - 超长文件会返回"时长超限"错误

## 前置条件

工具调用前,需确保:
- VocoType 应用正在运行
- 已登录 VocoType 账户
- MCP开关已打开
- ASR 模型已下载

## 错误恢复指南

| 错误 | 用户引导 |
|------|----------|
| 文件不存在 | 确认路径是否正确,注意使用绝对路径 |
| 格式不支持 | 确认是支持的音视频格式 |
| 未登录 | 请打开 VocoType 应用并登录 |
| 时长超限 | 免费版限制 10 分钟,建议升级或分割文件 |
| 转录繁忙 | 有其他转录任务进行中,请稍后重试 |
| 模型未下载 | 请在 VocoType 设置中下载语音模型 |