图像智能

图像识别、目标检测、OCR 等视觉 AI 能力

图像智能 API

艾塔达克图像智能 API 提供强大的视觉 AI 能力,包括图像识别、目标检测、OCR 文字识别、图像生成等功能。

功能概览

图像识别

识别图像中的物体、场景、人物等内容。

目标检测

检测图像中的目标位置并返回边界框坐标。

OCR 识别

识别图像中的文字内容,支持多语言。

图像生成

根据文字描述生成高质量图像。

图像识别

请求示例

curl -X POST https://api.atdak.com/v1/vision/recognize \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "image": "https://example.com/image.jpg",
    "features": ["labels", "objects", "text"]
  }'

请求参数

参数类型必填说明
imagestring图像 URL 或 Base64 编码
featuresarray识别特征,可选 labelsobjectstextfaces
languagestringOCR 识别语言,默认 zh-CN

响应示例

{
  "labels": [
    { "name": "建筑", "confidence": 0.95 },
    { "name": "天空", "confidence": 0.92 }
  ],
  "objects": [
    {
      "name": "汽车",
      "confidence": 0.88,
      "bounding_box": { "x": 100, "y": 200, "width": 150, "height": 100 }
    }
  ],
  "text": [
    { "content": "停车场", "confidence": 0.96 }
  ]
}

图像生成

使用先进的扩散模型,根据文字描述生成高质量图像。

请求示例

curl -X POST https://api.atdak.com/v1/vision/generate \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "一只在雪地中奔跑的金毛犬,阳光明媚",
    "size": "1024x1024",
    "style": "realistic"
  }'

请求参数

参数类型必填说明
promptstring图像描述文本
sizestring图像尺寸,默认 1024x1024
stylestring风格,可选 realisticartisticanime
ninteger生成数量,1-4,默认 1

响应示例

{
  "images": [
    {
      "url": "https://cdn.atdak.com/generated/abc123.png",
      "revised_prompt": "一只金毛寻回犬在覆盖着白雪的地面上奔跑..."
    }
  ]
}

定价

功能价格
图像识别¥0.01/次
目标检测¥0.02/次
OCR 识别¥0.01/次
图像生成 (1024x1024)¥0.10/张

相关链接