VocoType

本地语音转文字Skills

为你的 AI Agent 配置 VocoType 语音转文字 Skill,使其能够通过 Agent 协议自动执行音视频转换任务。

VocoType 语音转文字 Skill

VocoType 是一个强大的本地语音转文字工具,能够将任何主流格式的音视频文件精准转换为文本。作为一项“技能(Skill)”集成到 AI Agent 中后,AI 可以通过调用该 Skill,直接理解并分析用户上传的录音、访谈或视频内容。

VocoType 是一个本地语音转文字应用,可将音视频文件转换为文字。你可以将其作为一个 Skill 集成到支持该协议的 AI Agent 中。

以下是完整的 Skill 配置内容,请直接通过下方代码块右上角的"复制"按钮一键获取:

## 触发场景

用户请求涉及以下情况时,AI 应自动触发此 Skill:
- 转换音频/视频文件为文字(录音、会议、播客、访谈等)
- 提取音视频中的语音内容
- 生成音视频的文字稿

## 工具能力

**transcribe_file**:转录音视频文件

| 参数 | 类型 | 说明 |
|------|------|------|
| file_path | string | 文件的**绝对路径**(必填) |

支持格式:mp4, mp3, wav, flac, aac, m4a, ogg, mkv, webm, mov

## 关键约束

1. **必须使用绝对路径**
   -`/Users/leilei/Downloads/meeting.mp3`
   -`~/Downloads/meeting.mp3`
   -`./meeting.mp3`

2. **不支持并发**
   - 一次只能转录一个文件
   - 多个文件需依次处理

3. **免费版限制 10 分钟**
   - 超长文件会返回"时长超限"错误

## 前置条件

工具调用前,需确保:
- VocoType 应用正在运行
- 已登录 VocoType 账户
- ASR 模型已下载

## 错误恢复指南

| 错误 | 用户引导 |
|------|----------|
| 文件不存在 | 确认路径是否正确,注意使用绝对路径 |
| 格式不支持 | 确认是支持的音视频格式 |
| 未登录 | 请打开 VocoType 应用并登录 |
| 时长超限 | 免费版限制 10 分钟,建议升级或分割文件 |
| 转录繁忙 | 有其他转录任务进行中,请稍后重试 |
| 模型未下载 | 请在 VocoType 设置中下载语音模型 |