图像智能

图像识别、目标检测、OCR 等视觉 AI 能力

图像智能 API

艾塔达克图像智能 API 提供强大的视觉 AI 能力，包括图像识别、目标检测、OCR 文字识别、图像生成等功能。

功能概览

图像识别

识别图像中的物体、场景、人物等内容。

目标检测

检测图像中的目标位置并返回边界框坐标。

OCR 识别

识别图像中的文字内容，支持多语言。

图像生成

根据文字描述生成高质量图像。

图像识别

请求示例

curl -X POST https://api.atdak.com/v1/vision/recognize \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "image": "https://example.com/image.jpg",
    "features": ["labels", "objects", "text"]
  }'

请求参数

参数	类型	必填	说明
image	string	是	图像 URL 或 Base64 编码
features	array	否	识别特征，可选 `labels`、`objects`、`text`、`faces`
language	string	否	OCR 识别语言，默认 `zh-CN`

响应示例

{
  "labels": [
    { "name": "建筑", "confidence": 0.95 },
    { "name": "天空", "confidence": 0.92 }
  ],
  "objects": [
    {
      "name": "汽车",
      "confidence": 0.88,
      "bounding_box": { "x": 100, "y": 200, "width": 150, "height": 100 }
    }
  ],
  "text": [
    { "content": "停车场", "confidence": 0.96 }
  ]
}

图像生成

使用先进的扩散模型，根据文字描述生成高质量图像。

请求示例

curl -X POST https://api.atdak.com/v1/vision/generate \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "一只在雪地中奔跑的金毛犬，阳光明媚",
    "size": "1024x1024",
    "style": "realistic"
  }'

请求参数

参数	类型	必填	说明
prompt	string	是	图像描述文本
size	string	否	图像尺寸，默认 `1024x1024`
style	string	否	风格，可选 `realistic`、`artistic`、`anime`
n	integer	否	生成数量，1-4，默认 1

响应示例

{
  "images": [
    {
      "url": "https://cdn.atdak.com/generated/abc123.png",
      "revised_prompt": "一只金毛寻回犬在覆盖着白雪的地面上奔跑..."
    }
  ]
}

定价

功能	价格
图像识别	¥0.01/次
目标检测	¥0.02/次
OCR 识别	¥0.01/次
图像生成 (1024x1024)	¥0.10/张