语音服务

语音识别、语音合成、声纹识别等语音 AI 能力

语音服务 API

艾塔达克语音服务 API 提供专业的语音 AI 能力,包括语音识别(ASR)、语音合成(TTS)和声纹识别等功能。

功能概览

语音识别 (ASR)

将语音转换为文字,支持实时流式和文件上传。

语音合成 (TTS)

将文字转换为自然语音,支持多种音色。

声纹识别

识别说话人身份,用于身份验证。

语音识别

将音频转换为文字,支持多种语言和方言。

请求示例

curl -X POST https://api.atdak.com/v1/speech/transcribe \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F "file=@audio.mp3" \
  -F "language=zh-CN"

请求参数

参数类型必填说明
filefile音频文件,支持 mp3、wav、m4a 等格式
languagestring语言代码,默认自动检测
timestampsboolean是否返回时间戳,默认 false

响应示例

{
  "text": "欢迎使用艾塔达克语音识别服务。",
  "language": "zh-CN",
  "duration": 3.5,
  "segments": [
    {
      "text": "欢迎使用艾塔达克语音识别服务。",
      "start": 0.0,
      "end": 3.5
    }
  ]
}

语音合成

将文字转换为自然流畅的语音。

请求示例

curl -X POST https://api.atdak.com/v1/speech/synthesize \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "欢迎使用艾塔达克 AI 服务平台",
    "voice": "zh-CN-XiaoxiaoNeural",
    "format": "mp3"
  }' \
  --output output.mp3

请求参数

参数类型必填说明
textstring要转换的文本,最大 5000 字符
voicestring音色 ID,默认 zh-CN-XiaoxiaoNeural
formatstring输出格式,可选 mp3wavogg
speednumber语速,0.5-2.0,默认 1.0

可用音色

音色 ID语言性别风格
zh-CN-XiaoxiaoNeural中文温柔甜美
zh-CN-YunxiNeural中文沉稳专业
zh-CN-XiaoyiNeural中文活泼可爱
en-US-JennyNeural英文自然流畅
en-US-GuyNeural英文专业播报

实时语音识别

支持 WebSocket 连接进行实时语音转写。

连接示例

const ws = new WebSocket('wss://api.atdak.com/v1/speech/stream');

ws.onopen = () => {
  ws.send(JSON.stringify({
    type: 'config',
    language: 'zh-CN',
    api_key: 'YOUR_API_KEY'
  }));
};

ws.onmessage = (event) => {
  const result = JSON.parse(event.data);
  console.log('识别结果:', result.text);
};

// 发送音频数据
ws.send(audioChunk);

定价

功能价格
语音识别¥0.02/分钟
语音合成¥0.01/千字符
实时语音识别¥0.03/分钟
声纹识别¥0.05/次

相关链接