艾塔达克语音服务 API 提供专业的语音 AI 能力,包括语音识别(ASR)、语音合成(TTS)和声纹识别等功能。
语音识别 (ASR)
将语音转换为文字,支持实时流式和文件上传。
语音合成 (TTS)
将文字转换为自然语音,支持多种音色。
声纹识别
识别说话人身份,用于身份验证。
将音频转换为文字,支持多种语言和方言。
curl -X POST https://api.atdak.com/v1/speech/transcribe \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: multipart/form-data" \
-F "file=@audio.mp3" \
-F "language=zh-CN"
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
| file | file | 是 | 音频文件,支持 mp3、wav、m4a 等格式 |
| language | string | 否 | 语言代码,默认自动检测 |
| timestamps | boolean | 否 | 是否返回时间戳,默认 false |
{
"text": "欢迎使用艾塔达克语音识别服务。",
"language": "zh-CN",
"duration": 3.5,
"segments": [
{
"text": "欢迎使用艾塔达克语音识别服务。",
"start": 0.0,
"end": 3.5
}
]
}
将文字转换为自然流畅的语音。
curl -X POST https://api.atdak.com/v1/speech/synthesize \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "欢迎使用艾塔达克 AI 服务平台",
"voice": "zh-CN-XiaoxiaoNeural",
"format": "mp3"
}' \
--output output.mp3
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
| text | string | 是 | 要转换的文本,最大 5000 字符 |
| voice | string | 否 | 音色 ID,默认 zh-CN-XiaoxiaoNeural |
| format | string | 否 | 输出格式,可选 mp3、wav、ogg |
| speed | number | 否 | 语速,0.5-2.0,默认 1.0 |
| 音色 ID | 语言 | 性别 | 风格 |
|---|---|---|---|
| zh-CN-XiaoxiaoNeural | 中文 | 女 | 温柔甜美 |
| zh-CN-YunxiNeural | 中文 | 男 | 沉稳专业 |
| zh-CN-XiaoyiNeural | 中文 | 女 | 活泼可爱 |
| en-US-JennyNeural | 英文 | 女 | 自然流畅 |
| en-US-GuyNeural | 英文 | 男 | 专业播报 |
支持 WebSocket 连接进行实时语音转写。
const ws = new WebSocket('wss://api.atdak.com/v1/speech/stream');
ws.onopen = () => {
ws.send(JSON.stringify({
type: 'config',
language: 'zh-CN',
api_key: 'YOUR_API_KEY'
}));
};
ws.onmessage = (event) => {
const result = JSON.parse(event.data);
console.log('识别结果:', result.text);
};
// 发送音频数据
ws.send(audioChunk);
| 功能 | 价格 |
|---|---|
| 语音识别 | ¥0.02/分钟 |
| 语音合成 | ¥0.01/千字符 |
| 实时语音识别 | ¥0.03/分钟 |
| 声纹识别 | ¥0.05/次 |