本地语音转文字Skills
为你的 AI Agent 配置 VocoType 语音转文字 Skill,使其能够通过 Agent 协议自动执行音视频转换任务。
VocoType 语音转文字 Skill
VocoType 是一个强大的本地语音转文字工具,能够将任何主流格式的音视频文件精准转换为文本。作为一项“技能(Skill)”集成到 AI Agent 中后,AI 可以通过调用该 Skill,直接理解并分析用户上传的录音、访谈或视频内容。
VocoType 是一个本地语音转文字应用,可将音视频文件转换为文字。你可以将其作为一个 Skill 集成到支持该协议的 AI Agent 中。
以下是完整的 Skill 配置内容,请直接通过下方代码块右上角的"复制"按钮一键获取:
## 触发场景
用户请求涉及以下情况时,AI 应自动触发此 Skill:
- 转换音频/视频文件为文字(录音、会议、播客、访谈等)
- 提取音视频中的语音内容
- 生成音视频的文字稿
## 工具能力
**transcribe_file**:转录音视频文件
| 参数 | 类型 | 说明 |
|------|------|------|
| file_path | string | 文件的**绝对路径**(必填) |
支持格式:mp4, mp3, wav, flac, aac, m4a, ogg, mkv, webm, mov
## 关键约束
1. **必须使用绝对路径**
- ✅ `/Users/leilei/Downloads/meeting.mp3`
- ❌ `~/Downloads/meeting.mp3`
- ❌ `./meeting.mp3`
2. **不支持并发**
- 一次只能转录一个文件
- 多个文件需依次处理
3. **免费版限制 10 分钟**
- 超长文件会返回"时长超限"错误
## 前置条件
工具调用前,需确保:
- VocoType 应用正在运行
- 已登录 VocoType 账户
- ASR 模型已下载
## 错误恢复指南
| 错误 | 用户引导 |
|------|----------|
| 文件不存在 | 确认路径是否正确,注意使用绝对路径 |
| 格式不支持 | 确认是支持的音视频格式 |
| 未登录 | 请打开 VocoType 应用并登录 |
| 时长超限 | 免费版限制 10 分钟,建议升级或分割文件 |
| 转录繁忙 | 有其他转录任务进行中,请稍后重试 |
| 模型未下载 | 请在 VocoType 设置中下载语音模型 |