语音服务

语音识别、语音合成、声纹识别等语音 AI 能力

语音服务 API

艾塔达克语音服务 API 提供专业的语音 AI 能力，包括语音识别（ASR）、语音合成（TTS）和声纹识别等功能。

功能概览

语音识别 (ASR)

将语音转换为文字，支持实时流式和文件上传。

语音合成 (TTS)

将文字转换为自然语音，支持多种音色。

声纹识别

识别说话人身份，用于身份验证。

语音识别

将音频转换为文字，支持多种语言和方言。

请求示例

curl -X POST https://api.atdak.com/v1/speech/transcribe \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F "file=@audio.mp3" \
  -F "language=zh-CN"

请求参数

参数	类型	必填	说明
file	file	是	音频文件，支持 mp3、wav、m4a 等格式
language	string	否	语言代码，默认自动检测
timestamps	boolean	否	是否返回时间戳，默认 false

响应示例

{
  "text": "欢迎使用艾塔达克语音识别服务。",
  "language": "zh-CN",
  "duration": 3.5,
  "segments": [
    {
      "text": "欢迎使用艾塔达克语音识别服务。",
      "start": 0.0,
      "end": 3.5
    }
  ]
}

语音合成

将文字转换为自然流畅的语音。

请求示例

curl -X POST https://api.atdak.com/v1/speech/synthesize \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "欢迎使用艾塔达克 AI 服务平台",
    "voice": "zh-CN-XiaoxiaoNeural",
    "format": "mp3"
  }' \
  --output output.mp3

请求参数

参数	类型	必填	说明
text	string	是	要转换的文本，最大 5000 字符
voice	string	否	音色 ID，默认 `zh-CN-XiaoxiaoNeural`
format	string	否	输出格式，可选 `mp3`、`wav`、`ogg`
speed	number	否	语速，0.5-2.0，默认 1.0

可用音色

音色 ID	语言	性别	风格
zh-CN-XiaoxiaoNeural	中文	女	温柔甜美
zh-CN-YunxiNeural	中文	男	沉稳专业
zh-CN-XiaoyiNeural	中文	女	活泼可爱
en-US-JennyNeural	英文	女	自然流畅
en-US-GuyNeural	英文	男	专业播报

实时语音识别

支持 WebSocket 连接进行实时语音转写。

连接示例

const ws = new WebSocket('wss://api.atdak.com/v1/speech/stream');

ws.onopen = () => {
  ws.send(JSON.stringify({
    type: 'config',
    language: 'zh-CN',
    api_key: 'YOUR_API_KEY'
  }));
};

ws.onmessage = (event) => {
  const result = JSON.parse(event.data);
  console.log('识别结果:', result.text);
};

// 发送音频数据
ws.send(audioChunk);

定价

功能	价格
语音识别	¥0.02/分钟
语音合成	¥0.01/千字符
实时语音识别	¥0.03/分钟
声纹识别	¥0.05/次