创建视频生成任务 API

本文介绍创建视频生成任务 API 的输入输出参数，供您使用接口时查阅字段含义。模型会依据传入的图片及文本信息生成视频，待生成完成后，您可以按条件查询任务并获取生成的视频。

模型能力

Doubao Seedance 2.0 系列(有声视频/无声视频)
多模态参考生视频：输入参考图片（0~9）+参考视频（0~3）+ 参考音频（0~3）+ 文本提示词（可选）生成 1 个目标视频。注意不可单独输入音频，应至少包含 1 个参考视频或图片。支持生成全新视频、编辑视频、延长视频，阅读教程获取详细代码示例。
图生视频-首尾帧：输入首帧图片+尾帧图片+文本提示词（可选）生成 1 个目标视频。
图生视频-首帧：输入首帧图片+文本提示词（可选）生成 1 个目标视频。
文生视频：输入文本提示词生成 1 个目标视频。

注意
图生视频 - 首帧、图生视频 - 首尾帧、多模态参考生视频为三种互斥场景。若需同时使用参考图和首尾帧控制，可在多模态参考模式下通过提示词指定首帧 / 尾帧；若需严格保证首尾帧与指定图片完全一致，请优先使用图生视频 - 首尾帧模式

请求参数

请求信息

项	值
请求方法	POST
官方请求地址	https://ai-tokenhub.com/api/v2/contents/generations/tasks
Content-Type	application/json
鉴权方式	API Key 鉴权（Bearer Token）
任务数据保留期	7 天（从任务创建时间开始计算）

请求头

字段名	必填	说明
Authorization	✓	格式: `Bearer <your_api_key>`，其中`<your_api_key>`为您在天枢平台获取的长效 API 密钥
Content-Type	✓	固定值: `application/json`

请求体

model `string` 必选

您需要调用的模型的 ID（Model ID），开通模型服务，并查询 Model ID。

content `object` 必选

输入给模型、生成视频的信息，支持文本、图片、音频、视频。

支持的输入组合：

文本
文本（可选）+ 图片
文本（可选）+ 视频
文本（可选）+ 图片 + 视频
文本（可选）+ 图片 + 视频
文本（可选）+ 视频 + 音频
文本（可选）+ 图片 + 音频
文本（可选）+ 图片 + 视频 + 音频

信息类型

文本信息 object

输入给模型的提示词信息。

content.type string 必选：输入内容的类型，此处应为 text
content.text string 必选：输入给模型的文本提示词，描述期望生成的视频。

说明

提示词语言支持：所有模型均支持中英文提示词、日语、印尼语、西班牙语、葡萄牙语。
提示词字数建议：中文提示词不超过 500 字，英文提示词不超过 1000 词。字数过多易导致信息分散，模型可能忽略细节、仅关注重点，进而造成视频缺失部分元素。
更多使用技巧：提示词的详细使用技巧，请参见 seedance 提示词指南。

图片信息 object

输入给模型的图片信息。

属性：

content.type string 必选：输入内容的类型，此处应为 image_url。
content.image_url object 必选：输入给模型的图片对象。
content.image_url.url string 必选：图片 URL、图片 Base64 编码、素材 ID。

图片 URL：填入图片的公网 URL。
Base64 编码：将本地文件转换为 Base64 编码字符串，然后提交给大模型。遵循格式: data:image/<图片格式>;base64,<Base64编码>，注意 <图片格式> 需小写，如 data:image/png;base64,<Base64 image>。
素材 ID：用于视频生成的预置素材及虚拟人像的 ID，遵循格式：asset://< ASSET_ID >。详情见素材库使用指南。

传入单张图片要求

格式：jpeg、png、webp、bmp、tiff、gif、heic 、heif
宽高比（宽/高）：(0.4, 2.5)
宽高长度（px）：(300, 6000)
大小：单张图片小于 30 MB。请求体大小不超过 64 MB。大文件请勿使用 Base64 编码。

图片数量：

图生视频-首帧：1 张
图生视频-首尾帧：2 张
Seedance 2.0 系列多模态参考生视频：1-9 张

content.role string 条件必填：图片的位置或用途。

注意
图生视频-首帧、图生视频-首尾帧、多模态参考生视频（包括参考图、视频、音频）为 3 种互斥场景，不可混用。
多模态参考生视频可通过提示词指定参考图图片作为首帧/尾帧，间接实现"首尾帧+多模态参考"效果。若需严格保障首尾帧和指定图片一致，优先使用图生视频-首尾帧（配置 role 为 first_frame / last_frame）。

图生视频-首帧_字段 role 取值：需要传入 1 个 image_url 对象，字段 role 为 first_frame 或不填。

图生视频-首尾帧_字段 role 取值：需要传入 2 个 image_url 对象，且字段 role 必填。

首帧图片对应的字段 role 为：first_frame
尾帧图片对应的字段 role 为：last_frame

图生视频-参考图_字段 role 取值：必填，每张参考图对应的字段 role 均为：reference_image

说明

传入的首尾帧图片可相同。首尾帧图片的宽高比不一致时，以首帧图片为主，尾帧图片会自动裁剪适配。

视频信息 object

输入给模型的视频信息。

属性：

content.type string 必选：输入内容的类型，此处应为 video_url。
content.video_url object 必选：输入给模型的视频对象。
content.video_url.url string 必选：视频 URL、素材 ID。

视频 URL：

填入视频的公网 URL。
传入单个视频要求
- 视频格式：`mp4`、`mov`，支持编码格式见下表。
- 帧率：480p、720p、1080p。
- 分辨率：单个视频时长 [2, 15]s，最多传入 3 个参考视频，所有视频总时长不超过 15s。
- 时长：单个视频时长 [2, 15]s，最多传入 3 个参考视频，所有视频总时长不超过 15s。
- 尺寸：
  - 宽高比（宽/高）：[0.4, 2.5]
  - 宽高长度（px）：[300, 6000]
  - 总像素数：(640×640=409600, 2206×2046=2086876)，即宽和高的乘积符合 [409600, 2086876] 的区间要求。
- 大小：单个视频不超过 50 MB。
- 帧率（FPS）：[24, 60]

容器格式

容器格式	常用文件扩展名	MIME	支持编码
MP4	mp4	video/mp4	视频：H.264/AVC、H.265/HEVC；音频：AAC、MP3
QuickTime	mov	video/quicktime	视频：H.264/AVC、H.265/HEVC；音频：AAC、MP3

content.role string 条件必选：视频的位置或用途。当前仅支持 reference_video（参考视频）。

音频信息 object

注意：不可单独输入音频，应至少包含 1 个参考视频或图片。

输入给模型的音频信息。

属性：

content.type string 必选：输入内容的类型，此处应为 audio_url。
content.audio_url object 必选：输入给模型的音频对象。
content.audio_url.url string 必选：音频 URL、音频 Base64 编码、素材 ID。

音频 URL：填入音频的公网 URL。
Base64 编码：将本地文件转换为 Base64 编码字符串，然后提交给大模型。遵循格式: data:audio/< 音频格式 >;base64,< Base64编码 >，注意 < 音频格式 > 需小写，如 data:audio/wav;base64,< base64 audio >。
素材 ID：用于视频生成的预置素材及虚拟人像的 ID，遵循格式：asset://< ASSET_ID >。

传入单个音频要求

格式：`wav`、`mp3`
时长：单个音频时长 [2, 15]s，最多传入 3 段参考音频，所有音频总时长不超过 15s。
大小：单个音频不超过 15 MB，请求体大小不超过 64 MB。大文件请勿使用 Base64 编码。

content.role string 条件必选：音频的位置或用途。当前仅支持 reference_audio（参考音频）。

callback_url `string`

填写本次生成任务结果的回调通知地址。当视频生成任务有状态变化时，将向此地址推送 POST 请求。

回调请求内容结构与查询任务 API 的返回体一致。

回调返回的 status 包括以下状态：

queued：排队中
running：任务运行中
succeeded：任务成功（如发送失败，即 5 秒内没有接收到成功发送的信息，回调三次）
failed：任务失败（如发送失败，即 5 秒内没有接收到成功发送的信息，回调三次）
expired：任务超时，即任务处于运行中或排队中状态超过过期时间。可通过 execution_expires_after 字段设置过期时间。

return_last_frame `boolean`

默认值: false

true：返回生成视频的尾帧图像。设置为 true 后，可通过查询视频生成任务接口获取视频的尾帧图像。尾帧图像的格式为 png，宽高像素值与生成的视频保持一致，无水印。使用该参数可实现多个连续视频：以上一个生成视频的尾帧作为下一个视频任务的首帧，快速生成多个连续视频，调用示例详见火山引擎官方教程。
false：不返回生成视频的尾帧图像。

execution_expires_after `integer`

默认值: 172800

任务超时阈值。指定任务提交后的过期时间（单位：秒），从 created_at 时间戳开始计算。默认值 172800 秒，即 48 小时。建议范围：[3600, 259200]。

不论使用哪种 service tier，都建议根据业务场景设置合适的超时时间。超过该时间后任务会被自动终止，并标记为 expired 状态。

generate_audio `boolean`

默认值: true

控制生成的视频是否包含与画面同步的声音。

true：模型输出的视频包含同步声音。模型会基于文本提示词与视觉内容，自动生成与之匹配的人声、音效及背景音乐。建议将对话部分置于双引号内，以优化音频生成效果。例如：男人叫住女人说："你记住，以后不可以用手指指月亮。"
false：模型输出的视频为无声视频。

注意：生成的有声视频均为单声道，和传入的音频声道数无关。

tools `object`

配置模型要调用的工具。

属性：

tools.type string：指定使用的工具类型。
- web_search：联网搜索工具。
说明
- 开启联网搜索后，模型会根据用户的提示词自主判断是否搜索互联网内容（如商品、天气等）。可提升生成视频的时效性，但也会增加一定的时延。
- 实际搜索次数可通过查询视频生成任务 API 返回的 `usage.tool_usage.web_search` 字段获取，如果为 0 表示未搜索。

safety_identifier `string`

终端用户的唯一标识符，用于协助平台检测您的应用中可能违反火山方舟使用政策的用户。

该标识符为英文字符串，需保证对单个用户固定且唯一，长度不超过 64 个字符。推荐传入对用户名、用户 ID 或邮箱进行哈希处理后生成的字符串，避免泄露用户隐私信息。

priority `integer`

默认值: 0

设置当前请求的执行优先级，决定其在队列中的排序位置。取值范围：0-9，数值越大，优先级越高。

默认情况下，请求将按 FIFO（First In, First Out，先进先出）顺序执行。设置较高优先级后，该请求将插队到同一 Endpoint（推理接入点）下所有低优先级请求之前。

示例：

某 Endpoint 当前队列中有 3 个排队中（status=queued）任务，优先级均为 0（默认）。队列：[请求 A:priority=0] → [任务 B:priority=0] → [任务 C:priority=0] 此时提交一个 priority=5 的新请求，该请求将直接被排到队首：队列：[新请求:priority=5] → [任务 A:priority=0] → [任务 B:priority=0] → [任务 C:priority=0]

说明

相同优先级的请求之间仍按 FIFO 排序
优先级仅影响排队顺序，不会中断正在执行中（status=running）的任务
优先级仅在同一 Endpoint 内生效，不影响其他 Endpoint 的任务
离线推理模式（service_tier=flex）不支持配置优先级

部分参数升级说明

对于 `resolution`、`ratio`、`duration`、`frames`、`seed`、`camera_fixed`、`watermark` 参数，平台升级了参数传入方式，示例如下。所有模型依然兼容老传参方式。
不同模型，可能对应支持不同的参数与取值。详见输出视频格式。当输入的参数或取值不符合所选的模型时，该参数将被忽略或触发报错。
新方式：在 request body 中直接传入参数。此方式为强校验，若参数填写错误，模型会返回错误提示。
旧方式：在文本提示词后追加 `--[parameters]`。此方式为弱校验，若参数填写错误，该参数将被忽略或触发报错。

新方式（推荐）： 在 request body 中直接传入参数

json

// Specify the aspect ratio of the generated video as 16:9, duration as 5 seconds,
// resolution as 720p, seed as 11, and include a watermark. The camera is not fixed.
{
  "model": "doubao-seedance-1-5-pro-251215",
  "content": [
    {
      "type": "text",
      "text": "小猫对着镜头打哈欠"
    }
  ],
  // All parameters must be written in full; abbreviations are not supported
  "resolution": "720p",
  "ratio": "16:9",
  "duration": 5,
  // "frames": 20, Either duration or frames is required
  "seed": 11,
  "camera_fixed": false,
  "watermark": true
}

旧方式：在文本提示词后追加 --[parameters]

json

{
    "id": "019e640a-348e-74f8-8aff-9f7520b76359",
    "upstreamTaskId": "cgt-20260526192731-qjwzf",
    "status": "submitted",
    "model": "doubao-seedance-2-0-260128",
    "createdAt": "2026-05-26T11:27:30.95832Z"
}

resolution `string`

默认值: 720p

视频分辨率。枚举值：

480p
720p
1080p：Seedance 2.0 fast 不支持

ratio `string`

默认值: adaptive

生成视频的宽高比例。不同宽高比对应的宽高像素值见下方表格。

枚举值：

16:9
4:3
1:1
3:4
9:16
21:9
adaptive：根据输入自动选择最合适的宽高比（详见下文说明）
adaptive 适配规则
当配置 ratio 为 adaptive 时，模型会根据生成场景自动适配宽高比；实际生成的视频宽高比可通过查询视频生成任务 API 返回的 ratio 字段获取。
取值规则：
- 文生视频：根据输入的提示词，智能选择最合适的宽高比。
- 首帧 / 首尾帧生视频：根据上传的首帧图片比例，自动选择最接近的宽高比。
- 多模态参考生视频：根据用户提示词意图判断，如果是首帧生视频/编辑视频/延长视频，以该图片/视频为准选择最接近的宽高比；否则，以传入的第一个媒体文件为准（优先级：视频 > 图片）选择最接近的宽高比。

不同宽高比对应的宽高像素值

分辨率	宽高比	宽高像素值	宽高像素值
480p	16:9	864×480	864×486
	4:3	736×544	752×560
	1:1	640×640	640×640
	3:4	544×736	560×752
	9:16	480×864	486×864
	21:9	960×416	992×432
720p	16:9	1248×704	1280×720
	4:3	1120×832	1112×834
	1:1	960×960	960×960
	3:4	832×1120	834×1112
	9:16	704×1248	720×1280
	21:9	1504×640	1470×630
1080p Seedance 2.0 fast 不支持	16:9	1920×1088	1920×1080
	4:3	1664×1248	1664×1248
	1:1	1440×1440	1440×1440
	3:4	1248×1664	1248×1664
	9:16	1088×1920	1080×1920
	21:9	2176×928	2206×946

duration `integer`

默认值: 5

duration 和 frames 二选一即可，frames 的优先级高于 duration。如果您希望生成整数秒的视频，建议指定 duration。

生成视频时长，仅支持整数，单位：秒。

Seedance 1.0 pro，Seedance 1.0 pro fast：[2, 12]
Seedance 2.0 系列：[4, 15]或设置为 -1

注意：Seedance 2.0 系列支持两种配置方法

指定具体时长：支持表 1 显示的任一整数
智能时长：设置为 -1，由模型在有效范围内自动选择合适的视频长度（整数秒）。实际生成视频的时长可通过查询视频生成任务 API 返回的 duration 字段获取。注意视频时长与语境相关，请谨慎设置。

seed `integer`

默认值: -1

种子整数，用于控制生成内容的随机性。

取值范围：[-1, 2^31-1] 之间的整数。

注意：相同的请求下，模型收到不同的 seed 值，如：不指定 seed 值或 seed 取值为 -1（会使用随机数替代）、或手动变更 seed 值，将生成不同的结果。

Seedance 2.0 系列，模型收到相同的 seed 值，会生成类似的结果，但不保证完全一致。

watermark `boolean`

默认值: false

生成视频是否包含水印。枚举值：

true：生成视频右下角会展示 AI 生成水印。
false：生成视频不包含水印。

响应参数

id `string`

视频生成任务 ID。

设置 draft: true：为 Draft 视频任务 ID。
设置 draft: false：为正常视频任务 ID。

创建视频生成任务为异步接口，获取 id 后，需要通过 查询视频生成任务 API 来查询视频生成任务的状态。任务成功后，会输出生成视频的 video_url。

创建视频生成任务 API ​

模型能力 ​

请求参数 ​

请求信息 ​

请求头 ​

请求体 ​

model string 必选 ​

content object 必选 ​

信息类型 ​

callback_url string ​

return_last_frame boolean ​

execution_expires_after integer ​

generate_audio boolean ​

tools object ​

safety_identifier string ​

priority integer ​

resolution string ​

ratio string ​

duration integer ​

seed integer ​

watermark boolean ​

响应参数 ​

id string ​

创建视频生成任务 API

模型能力

请求参数

请求信息

请求头

请求体

model `string` 必选

content `object` 必选

信息类型

callback_url `string`

return_last_frame `boolean`

execution_expires_after `integer`

generate_audio `boolean`

tools `object`

safety_identifier `string`

priority `integer`

resolution `string`

ratio `string`

duration `integer`

seed `integer`

watermark `boolean`

响应参数

id `string`