语音转文字Skills

VocoType 语音转文字 Skill

VocoType 是一个强大的本地语音转文字工具，能够将任何主流格式的音视频文件精准转换为文本。作为一项“技能（Skill）”集成到 AI Agent 中后，AI 可以通过调用该 Skill，直接理解并分析用户上传的录音、访谈或视频内容。

VocoType 是一个本地语音转文字应用，可将音视频文件转换为文字。你可以将其作为一个 Skill 集成到支持该协议的 AI Agent 中。

以下是完整的 Skill 配置内容，请直接通过下方代码块右上角的"复制"按钮一键获取：

## 触发场景

用户请求涉及以下情况时，AI 应自动触发此 Skill：
- 转换音频/视频文件为文字（录音、会议、播客、访谈等）
- 提取音视频中的语音内容
- 生成音视频的文字稿

## 异步执行指南

本技能采用“提交 -> 轮询 -> 获取”的异步模式，AI 应利用 MCP 协议内置的工具元数据进行调用。

1. **提交任务**：使用 `transcribe_file` 发起转录。
2. **状态轮询**：使用 `get_transcription_status` 观察进度。
3. **获取结果**：仅在任务为 `completed` 时，使用 `get_transcription_result` 获取文本。

支持格式：mp4, mp3, wav, flac, aac, m4a, ogg, mkv, webm, mov

## 异步查询策略 (推荐)

由于语音转文字是长耗时操作，请严格遵循 **指数退避 (Exponential Backoff)** 策略查询状态，以最大程度减少 Token 消耗：

1. **初始等待**：获取 `job_id` 后，建议初始等待 **10 秒**。
2. **状态轮询**：调用 `get_transcription_status`。若状态为 `pending` 或 `running`，下一次查询的间隔时间应**翻倍**（例如：10s -> 20s -> 40s...）。
3. **获取结果**：仅在 `get_transcription_status` 返回 `completed` 时，才调用 `get_transcription_result` 获取最终文本。
4. **最大间隔**：单次轮询的最大间隔建议不超过 **60 秒**。

## 关键约束

1. **必须使用绝对路径**
   - ✅ `/Users/leilei/Downloads/meeting.mp3`
   - ❌ `~/Downloads/meeting.mp3`
   - ❌ `./meeting.mp3`

2. **不支持并发**
   - 一次只能转录一个文件
   - 多个文件需依次处理

3. **免费版限制 10 分钟**
   - 超长文件会返回"时长超限"错误

## 前置条件

工具调用前，需确保：
- VocoType 应用正在运行
- 已登录 VocoType 账户
- MCP开关已打开
- ASR 模型已下载

## 错误恢复指南

| 错误 | 用户引导 |
|------|----------|
| 文件不存在 | 确认路径是否正确，注意使用绝对路径 |
| 格式不支持 | 确认是支持的音视频格式 |
| 未登录 | 请打开 VocoType 应用并登录 |
| 时长超限 | 免费版限制 10 分钟，建议升级或分割文件 |
| 转录繁忙 | 有其他转录任务进行中，请稍后重试 |
| 模型未下载 | 请在 VocoType 设置中下载语音模型 |

语音转文字Skills

VocoType 语音转文字 Skill

On this page