Skip to content
Request
Response

创建视频生成任务 API

本文介绍创建视频生成任务 API 的输入输出参数,供您使用接口时查阅字段含义。模型会依据传入的图片及文本信息生成视频,待生成完成后,您可以按条件查询任务并获取生成的视频。

模型能力

Doubao Seedance 2.0 系列(有声视频/无声视频)
多模态参考生视频:输入参考图片(0~9)+参考视频(0~3)+ 参考音频(0~3)+ 文本提示词(可选)生成 1 个目标视频。注意不可单独输入音频,应至少包含 1 个参考视频或图片。支持生成全新视频、编辑视频、延长视频,阅读教程 获取详细代码示例。
图生视频-首尾帧:输入首帧图片+尾帧图片+文本提示词(可选)生成 1 个目标视频。
图生视频-首帧:输入首帧图片+文本提示词(可选)生成 1 个目标视频。
文生视频:输入文本提示词生成 1 个目标视频。

注意
图生视频 - 首帧、图生视频 - 首尾帧、多模态参考生视频为三种互斥场景。若需同时使用参考图和首尾帧控制,可在多模态参考模式下通过提示词指定首帧 / 尾帧;若需严格保证首尾帧与指定图片完全一致,请优先使用图生视频 - 首尾帧模式

请求参数

请求信息

请求方法POST
官方请求地址https://ai-tokenhub.com/api/v2/contents/generations/tasks
Content-Typeapplication/json
鉴权方式API Key 鉴权(Bearer Token)
任务数据保留期7 天(从任务创建时间开始计算)

请求头

字段名必填说明
Authorization格式: Bearer <your_api_key>,其中<your_api_key>为您在天枢平台获取的长效 API 密钥
Content-Type固定值: application/json

请求体


model string 必选

您需要调用的模型的 ID(Model ID),开通模型服务,并查询 Model ID。


content object 必选

输入给模型、生成视频的信息,支持文本、图片、音频、视频。

支持的输入组合

  • 文本
  • 文本(可选)+ 图片
  • 文本(可选)+ 视频
  • 文本(可选)+ 图片 + 视频
  • 文本(可选)+ 图片 + 视频
  • 文本(可选)+ 视频 + 音频
  • 文本(可选)+ 图片 + 音频
  • 文本(可选)+ 图片 + 视频 + 音频

信息类型

文本信息 object

输入给模型的提示词信息。

  • content.type string 必选:输入内容的类型,此处应为 text
  • content.text string 必选:输入给模型的文本提示词,描述期望生成的视频。
说明
  • 提示词语言支持:所有模型均支持中英文提示词、日语、印尼语、西班牙语、葡萄牙语。
  • 提示词字数建议:中文提示词不超过 500 字,英文提示词不超过 1000 词。字数过多易导致信息分散,模型可能忽略细节、仅关注重点,进而造成视频缺失部分元素。
  • 更多使用技巧:提示词的详细使用技巧,请参见 seedance 提示词指南
图片信息 object

输入给模型的图片信息。

属性:

  • content.type string 必选:输入内容的类型,此处应为 image_url
  • content.image_url object 必选:输入给模型的图片对象。
  • content.image_url.url string 必选:图片 URL、图片 Base64 编码、素材 ID。
  • 图片 URL:填入图片的公网 URL。
  • Base64 编码:将本地文件转换为 Base64 编码字符串,然后提交给大模型。遵循格式: data:image/<图片格式>;base64,<Base64编码>,注意 <图片格式> 需小写,如 data:image/png;base64,<Base64 image>
  • 素材 ID:用于视频生成的预置素材及虚拟人像的 ID,遵循格式:asset://< ASSET_ID >。详情见素材库使用指南。
传入单张图片要求
  • 格式:jpegpngwebpbmptiffgifheicheif
  • 宽高比(宽/高):(0.4, 2.5)
  • 宽高长度(px):(300, 6000)
  • 大小:单张图片小于 30 MB。请求体大小不超过 64 MB。大文件请勿使用 Base64 编码。

图片数量:

  • 图生视频-首帧:1 张
  • 图生视频-首尾帧:2 张
  • Seedance 2.0 系列多模态参考生视频:1-9 张
  • content.role string 条件必填:图片的位置或用途。

注意

  • 图生视频-首帧、图生视频-首尾帧、多模态参考生视频(包括参考图、视频、音频)为 3 种互斥场景,不可混用。
  • 多模态参考生视频可通过提示词指定参考图图片作为首帧/尾帧,间接实现"首尾帧+多模态参考"效果。若需严格保障首尾帧和指定图片一致,优先使用图生视频-首尾帧(配置 role 为 first_frame / last_frame)。
  • 图生视频-首帧_字段 role 取值:需要传入 1 个 image_url 对象,字段 role 为 first_frame 或不填。

    图生视频-首尾帧_字段 role 取值:需要传入 2 个 image_url 对象,且字段 role 必填。

    • 首帧图片对应的字段 role 为:first_frame
    • 尾帧图片对应的字段 role 为:last_frame

    图生视频-参考图_字段 role 取值:必填,每张参考图对应的字段 role 均为:reference_image

    说明

    传入的首尾帧图片可相同。首尾帧图片的宽高比不一致时,以首帧图片为主,尾帧图片会自动裁剪适配。

    视频信息 object

    输入给模型的视频信息。

    属性:

    • content.type string 必选:输入内容的类型,此处应为 video_url
    • content.video_url object 必选:输入给模型的视频对象。
    • content.video_url.url string 必选:视频 URL、素材 ID。

    视频 URL:

    • 填入视频的公网 URL。

      传入单个视频要求
      • 视频格式:`mp4`、`mov`,支持编码格式见下表。
      • 帧率:480p、720p、1080p。
      • 分辨率:单个视频时长 [2, 15]s,最多传入 3 个参考视频,所有视频总时长不超过 15s。
      • 时长:单个视频时长 [2, 15]s,最多传入 3 个参考视频,所有视频总时长不超过 15s。
      • 尺寸:
        • 宽高比(宽/高):[0.4, 2.5]
        • 宽高长度(px):[300, 6000]
        • 总像素数:(640×640=409600, 2206×2046=2086876),即宽和高的乘积符合 [409600, 2086876] 的区间要求。
      • 大小:单个视频不超过 50 MB。
      • 帧率(FPS):[24, 60]

    容器格式

    容器格式常用文件扩展名MIME支持编码
    MP4mp4video/mp4视频:H.264/AVC、H.265/HEVC;音频:AAC、MP3
    QuickTimemovvideo/quicktime视频:H.264/AVC、H.265/HEVC;音频:AAC、MP3
    • content.role string 条件必选:视频的位置或用途。当前仅支持 reference_video(参考视频)。
    音频信息 object

    注意:不可单独输入音频,应至少包含 1 个参考视频或图片。

    输入给模型的音频信息。

    属性:

    • content.type string 必选:输入内容的类型,此处应为 audio_url
    • content.audio_url object 必选:输入给模型的音频对象。
    • content.audio_url.url string 必选:音频 URL、音频 Base64 编码、素材 ID。
    • 音频 URL:填入音频的公网 URL。
    • Base64 编码:将本地文件转换为 Base64 编码字符串,然后提交给大模型。遵循格式: data:audio/< 音频格式 >;base64,< Base64编码 >,注意 < 音频格式 > 需小写,如 data:audio/wav;base64,< base64 audio >。
    • 素材 ID:用于视频生成的预置素材及虚拟人像的 ID,遵循格式:asset://< ASSET_ID >。
    传入单个音频要求
    • 格式:`wav`、`mp3`
    • 时长:单个音频时长 [2, 15]s,最多传入 3 段参考音频,所有音频总时长不超过 15s。
    • 大小:单个音频不超过 15 MB,请求体大小不超过 64 MB。大文件请勿使用 Base64 编码。
    • content.role string 条件必选:音频的位置或用途。当前仅支持 reference_audio(参考音频)。

    callback_url string

    填写本次生成任务结果的回调通知地址。当视频生成任务有状态变化时,将向此地址推送 POST 请求。

    回调请求内容结构与查询任务 API 的返回体一致。

    回调返回的 status 包括以下状态:

    • queued:排队中
    • running:任务运行中
    • succeeded:任务成功(如发送失败,即 5 秒内没有接收到成功发送的信息,回调三次)
    • failed:任务失败(如发送失败,即 5 秒内没有接收到成功发送的信息,回调三次)
    • expired:任务超时,即任务处于运行中或排队中状态超过过期时间。可通过 execution_expires_after 字段设置过期时间。

    return_last_frame boolean

    默认值: false

    • true:返回生成视频的尾帧图像。设置为 true 后,可通过查询视频生成任务接口获取视频的尾帧图像。尾帧图像的格式为 png,宽高像素值与生成的视频保持一致,无水印。使用该参数可实现多个连续视频:以上一个生成视频的尾帧作为下一个视频任务的首帧,快速生成多个连续视频,调用示例详见火山引擎官方教程。
    • false:不返回生成视频的尾帧图像。

    execution_expires_after integer

    默认值: 172800

    任务超时阈值。指定任务提交后的过期时间(单位:秒),从 created_at 时间戳开始计算。默认值 172800 秒,即 48 小时。建议范围:[3600, 259200]。

    不论使用哪种 service tier,都建议根据业务场景设置合适的超时时间。超过该时间后任务会被自动终止,并标记为 expired 状态。


    generate_audio boolean

    默认值: true

    控制生成的视频是否包含与画面同步的声音。

    • true:模型输出的视频包含同步声音。模型会基于文本提示词与视觉内容,自动生成与之匹配的人声、音效及背景音乐。建议将对话部分置于双引号内,以优化音频生成效果。例如:男人叫住女人说:"你记住,以后不可以用手指指月亮。"
    • false:模型输出的视频为无声视频。
    注意:生成的有声视频均为单声道,和传入的音频声道数无关。

    tools object

    配置模型要调用的工具。

    属性:

    • tools.type string:指定使用的工具类型。

      • web_search:联网搜索工具。
      说明
      • 开启联网搜索后,模型会根据用户的提示词自主判断是否搜索互联网内容(如商品、天气等)。可提升生成视频的时效性,但也会增加一定的时延。
      • 实际搜索次数可通过查询视频生成任务 API 返回的 `usage.tool_usage.web_search` 字段获取,如果为 0 表示未搜索。

    safety_identifier string

    终端用户的唯一标识符,用于协助平台检测您的应用中可能违反火山方舟使用政策的用户。

    该标识符为英文字符串,需保证对单个用户固定且唯一,长度不超过 64 个字符。推荐传入对用户名、用户 ID 或邮箱进行哈希处理后生成的字符串,避免泄露用户隐私信息。


    priority integer

    默认值: 0

    设置当前请求的执行优先级,决定其在队列中的排序位置。取值范围:0-9,数值越大,优先级越高。

    默认情况下,请求将按 FIFO(First In, First Out,先进先出)顺序执行。设置较高优先级后,该请求将插队到同一 Endpoint(推理接入点)下所有低优先级请求之前。

    示例:

    某 Endpoint 当前队列中有 3 个排队中(status=queued)任务,优先级均为 0(默认)。 队列:[请求 A:priority=0] → [任务 B:priority=0] → [任务 C:priority=0] 此时提交一个 priority=5 的新请求,该请求将直接被排到队首: 队列:[新请求:priority=5] → [任务 A:priority=0] → [任务 B:priority=0] → [任务 C:priority=0]

    说明
    • 相同优先级的请求之间仍按 FIFO 排序
    • 优先级仅影响排队顺序,不会中断正在执行中(status=running)的任务
    • 优先级仅在同一 Endpoint 内生效,不影响其他 Endpoint 的任务
    • 离线推理模式(service_tier=flex)不支持配置优先级

    部分参数升级说明
    • 对于 `resolution`、`ratio`、`duration`、`frames`、`seed`、`camera_fixed`、`watermark` 参数,平台升级了参数传入方式,示例如下。所有模型依然兼容老传参方式。
    • 不同模型,可能对应支持不同的参数与取值。详见输出视频格式。当输入的参数或取值不符合所选的模型时,该参数将被忽略或触发报错。
    • 新方式:在 request body 中直接传入参数。此方式为强校验,若参数填写错误,模型会返回错误提示。
    • 旧方式:在文本提示词后追加 `--[parameters]`。此方式为弱校验,若参数填写错误,该参数将被忽略或触发报错。

    新方式(推荐): 在 request body 中直接传入参数

    json
    // Specify the aspect ratio of the generated video as 16:9, duration as 5 seconds,
    // resolution as 720p, seed as 11, and include a watermark. The camera is not fixed.
    {
      "model": "doubao-seedance-1-5-pro-251215",
      "content": [
        {
          "type": "text",
          "text": "小猫对着镜头打哈欠"
        }
      ],
      // All parameters must be written in full; abbreviations are not supported
      "resolution": "720p",
      "ratio": "16:9",
      "duration": 5,
      // "frames": 20, Either duration or frames is required
      "seed": 11,
      "camera_fixed": false,
      "watermark": true
    }

    旧方式:在文本提示词后追加 --[parameters]

    json
    {
        "id": "019e640a-348e-74f8-8aff-9f7520b76359",
        "upstreamTaskId": "cgt-20260526192731-qjwzf",
        "status": "submitted",
        "model": "doubao-seedance-2-0-260128",
        "createdAt": "2026-05-26T11:27:30.95832Z"
    }

    resolution string

    默认值: 720p

    视频分辨率。枚举值:

    • 480p
    • 720p
    • 1080p:Seedance 2.0 fast 不支持

    ratio string

    默认值: adaptive

    生成视频的宽高比例。不同宽高比对应的宽高像素值见下方表格。

    枚举值:

    • 16:9

    • 4:3

    • 1:1

    • 3:4

    • 9:16

    • 21:9

    • adaptive:根据输入自动选择最合适的宽高比(详见下文说明)

      adaptive 适配规则

      当配置 ratio 为 adaptive 时,模型会根据生成场景自动适配宽高比;实际生成的视频宽高比可通过查询视频生成任务 API 返回的 ratio 字段获取。

      取值规则:

      • 文生视频:根据输入的提示词,智能选择最合适的宽高比。
      • 首帧 / 首尾帧生视频:根据上传的首帧图片比例,自动选择最接近的宽高比。
      • 多模态参考生视频:根据用户提示词意图判断,如果是首帧生视频/编辑视频/延长视频,以该图片/视频为准选择最接近的宽高比;否则,以传入的第一个媒体文件为准(优先级:视频 > 图片)选择最接近的宽高比。

    不同宽高比对应的宽高像素值

    分辨率宽高比宽高像素值宽高像素值
    480p16:9864×480864×486
    4:3736×544752×560
    1:1640×640640×640
    3:4544×736560×752
    9:16480×864486×864
    21:9960×416992×432
    720p16:91248×7041280×720
    4:31120×8321112×834
    1:1960×960960×960
    3:4832×1120834×1112
    9:16704×1248720×1280
    21:91504×6401470×630
    1080p
    Seedance 2.0 fast 不支持
    16:91920×10881920×1080
    4:31664×12481664×1248
    1:11440×14401440×1440
    3:41248×16641248×1664
    9:161088×19201080×1920
    21:92176×9282206×946

    duration integer

    默认值: 5

    duration 和 frames 二选一即可,frames 的优先级高于 duration。如果您希望生成整数秒的视频,建议指定 duration。

    生成视频时长,仅支持整数,单位:秒。

    • Seedance 1.0 pro,Seedance 1.0 pro fast:[2, 12]

    • Seedance 2.0 系列:[4, 15]或设置为 -1

    注意:Seedance 2.0 系列支持两种配置方法

    • 指定具体时长:支持表 1 显示的任一整数
    • 智能时长:设置为 -1,由模型在有效范围内自动选择合适的视频长度(整数秒)。实际生成视频的时长可通过查询视频生成任务 API 返回的 duration 字段获取。注意视频时长与语境相关,请谨慎设置。

    seed integer

    默认值: -1

    种子整数,用于控制生成内容的随机性。

    取值范围:[-1, 2^31-1] 之间的整数。

    注意: 相同的请求下,模型收到不同的 seed 值,如:不指定 seed 值或 seed 取值为 -1(会使用随机数替代)、或手动变更 seed 值,将生成不同的结果。

    Seedance 2.0 系列,模型收到相同的 seed 值,会生成类似的结果,但不保证完全一致。

    watermark boolean

    默认值: false

    生成视频是否包含水印。枚举值:

    • true:生成视频右下角会展示 AI 生成水印。
    • false:生成视频不包含水印。

    响应参数

    id string

    视频生成任务 ID。

    • 设置 draft: true:为 Draft 视频任务 ID。
    • 设置 draft: false:为正常视频任务 ID。

    创建视频生成任务为异步接口,获取 id 后,需要通过 查询视频生成任务 API 来查询视频生成任务的状态。任务成功后,会输出生成视频的 video_url