创建视频生成任务 API
本文介绍创建视频生成任务 API 的输入输出参数,供您使用接口时查阅字段含义。模型会依据传入的图片及文本信息生成视频,待生成完成后,您可以按条件查询任务并获取生成的视频。
模型能力
Doubao Seedance 2.0 系列(有声视频/无声视频)
多模态参考生视频:输入参考图片(0~9)+参考视频(0~3)+ 参考音频(0~3)+ 文本提示词(可选)生成 1 个目标视频。注意不可单独输入音频,应至少包含 1 个参考视频或图片。支持生成全新视频、编辑视频、延长视频,阅读教程 获取详细代码示例。
图生视频-首尾帧:输入首帧图片+尾帧图片+文本提示词(可选)生成 1 个目标视频。
图生视频-首帧:输入首帧图片+文本提示词(可选)生成 1 个目标视频。
文生视频:输入文本提示词生成 1 个目标视频。
注意
图生视频 - 首帧、图生视频 - 首尾帧、多模态参考生视频为三种互斥场景。若需同时使用参考图和首尾帧控制,可在多模态参考模式下通过提示词指定首帧 / 尾帧;若需严格保证首尾帧与指定图片完全一致,请优先使用图生视频 - 首尾帧模式
请求参数
请求信息
| 项 | 值 |
|---|---|
| 请求方法 | POST |
| 官方请求地址 | https://ai-tokenhub.com/api/v2/contents/generations/tasks |
| Content-Type | application/json |
| 鉴权方式 | API Key 鉴权(Bearer Token) |
| 任务数据保留期 | 7 天(从任务创建时间开始计算) |
请求头
| 字段名 | 必填 | 说明 |
|---|---|---|
| Authorization | ✓ | 格式: Bearer <your_api_key>,其中<your_api_key>为您在天枢平台获取的长效 API 密钥 |
| Content-Type | ✓ | 固定值: application/json |
请求体
model string 必选
您需要调用的模型的 ID(Model ID),开通模型服务,并查询 Model ID。
content object 必选
输入给模型、生成视频的信息,支持文本、图片、音频、视频。
支持的输入组合:
- 文本
- 文本(可选)+ 图片
- 文本(可选)+ 视频
- 文本(可选)+ 图片 + 视频
- 文本(可选)+ 图片 + 视频
- 文本(可选)+ 视频 + 音频
- 文本(可选)+ 图片 + 音频
- 文本(可选)+ 图片 + 视频 + 音频
信息类型
文本信息 object
输入给模型的提示词信息。
- content.type
string必选:输入内容的类型,此处应为text - content.text
string必选:输入给模型的文本提示词,描述期望生成的视频。
- 提示词语言支持:所有模型均支持中英文提示词、日语、印尼语、西班牙语、葡萄牙语。
- 提示词字数建议:中文提示词不超过 500 字,英文提示词不超过 1000 词。字数过多易导致信息分散,模型可能忽略细节、仅关注重点,进而造成视频缺失部分元素。
- 更多使用技巧:提示词的详细使用技巧,请参见 seedance 提示词指南。
图片信息 object
输入给模型的图片信息。
属性:
- content.type
string必选:输入内容的类型,此处应为image_url。 - content.image_url
object必选:输入给模型的图片对象。 - content.image_url.url
string必选:图片 URL、图片 Base64 编码、素材 ID。
- 图片 URL:填入图片的公网 URL。
- Base64 编码:将本地文件转换为 Base64 编码字符串,然后提交给大模型。遵循格式:
data:image/<图片格式>;base64,<Base64编码>,注意<图片格式>需小写,如data:image/png;base64,<Base64 image>。 - 素材 ID:用于视频生成的预置素材及虚拟人像的 ID,遵循格式:asset://< ASSET_ID >。详情见素材库使用指南。
- 格式:
jpeg、png、webp、bmp、tiff、gif、heic、heif - 宽高比(宽/高):(0.4, 2.5)
- 宽高长度(px):(300, 6000)
- 大小:单张图片小于 30 MB。请求体大小不超过 64 MB。大文件请勿使用 Base64 编码。
图片数量:
- 图生视频-首帧:1 张
- 图生视频-首尾帧:2 张
- Seedance 2.0 系列多模态参考生视频:1-9 张
- content.role
string条件必填:图片的位置或用途。
注意
图生视频-首帧、图生视频-首尾帧、多模态参考生视频(包括参考图、视频、音频)为 3 种互斥场景,不可混用。 多模态参考生视频可通过提示词指定参考图图片作为首帧/尾帧,间接实现"首尾帧+多模态参考"效果。若需严格保障首尾帧和指定图片一致,优先使用图生视频-首尾帧(配置 role 为 first_frame/last_frame)。
图生视频-首帧_字段 role 取值:需要传入 1 个 image_url 对象,字段 role 为 first_frame 或不填。
图生视频-首尾帧_字段 role 取值:需要传入 2 个 image_url 对象,且字段 role 必填。
- 首帧图片对应的字段 role 为:
first_frame - 尾帧图片对应的字段 role 为:
last_frame
图生视频-参考图_字段 role 取值:必填,每张参考图对应的字段 role 均为:reference_image
传入的首尾帧图片可相同。首尾帧图片的宽高比不一致时,以首帧图片为主,尾帧图片会自动裁剪适配。
视频信息 object
输入给模型的视频信息。
属性:
- content.type
string必选:输入内容的类型,此处应为video_url。 - content.video_url
object必选:输入给模型的视频对象。 - content.video_url.url
string必选:视频 URL、素材 ID。
视频 URL:
填入视频的公网 URL。
传入单个视频要求- 视频格式:`mp4`、`mov`,支持编码格式见下表。
- 帧率:480p、720p、1080p。
- 分辨率:单个视频时长 [2, 15]s,最多传入 3 个参考视频,所有视频总时长不超过 15s。
- 时长:单个视频时长 [2, 15]s,最多传入 3 个参考视频,所有视频总时长不超过 15s。
- 尺寸:
- 宽高比(宽/高):[0.4, 2.5]
- 宽高长度(px):[300, 6000]
- 总像素数:(640×640=409600, 2206×2046=2086876),即宽和高的乘积符合 [409600, 2086876] 的区间要求。
- 大小:单个视频不超过 50 MB。
- 帧率(FPS):[24, 60]
容器格式
| 容器格式 | 常用文件扩展名 | MIME | 支持编码 |
|---|---|---|---|
| MP4 | mp4 | video/mp4 | 视频:H.264/AVC、H.265/HEVC;音频:AAC、MP3 |
| QuickTime | mov | video/quicktime | 视频:H.264/AVC、H.265/HEVC;音频:AAC、MP3 |
- content.role
string条件必选:视频的位置或用途。当前仅支持reference_video(参考视频)。
音频信息 object
注意:不可单独输入音频,应至少包含 1 个参考视频或图片。
输入给模型的音频信息。
属性:
- content.type
string必选:输入内容的类型,此处应为audio_url。 - content.audio_url
object必选:输入给模型的音频对象。 - content.audio_url.url
string必选:音频 URL、音频 Base64 编码、素材 ID。
- 音频 URL:填入音频的公网 URL。
- Base64 编码:将本地文件转换为 Base64 编码字符串,然后提交给大模型。遵循格式: data:audio/< 音频格式 >;base64,< Base64编码 >,注意 < 音频格式 > 需小写,如 data:audio/wav;base64,< base64 audio >。
- 素材 ID:用于视频生成的预置素材及虚拟人像的 ID,遵循格式:asset://< ASSET_ID >。
- 格式:`wav`、`mp3`
- 时长:单个音频时长 [2, 15]s,最多传入 3 段参考音频,所有音频总时长不超过 15s。
- 大小:单个音频不超过 15 MB,请求体大小不超过 64 MB。大文件请勿使用 Base64 编码。
- content.role
string条件必选:音频的位置或用途。当前仅支持reference_audio(参考音频)。
callback_url string
填写本次生成任务结果的回调通知地址。当视频生成任务有状态变化时,将向此地址推送 POST 请求。
回调请求内容结构与查询任务 API 的返回体一致。
回调返回的 status 包括以下状态:
queued:排队中running:任务运行中succeeded:任务成功(如发送失败,即 5 秒内没有接收到成功发送的信息,回调三次)failed:任务失败(如发送失败,即 5 秒内没有接收到成功发送的信息,回调三次)expired:任务超时,即任务处于运行中或排队中状态超过过期时间。可通过execution_expires_after字段设置过期时间。
return_last_frame boolean
默认值: false
true:返回生成视频的尾帧图像。设置为true后,可通过查询视频生成任务接口获取视频的尾帧图像。尾帧图像的格式为png,宽高像素值与生成的视频保持一致,无水印。使用该参数可实现多个连续视频:以上一个生成视频的尾帧作为下一个视频任务的首帧,快速生成多个连续视频,调用示例详见火山引擎官方教程。false:不返回生成视频的尾帧图像。
execution_expires_after integer
默认值: 172800
任务超时阈值。指定任务提交后的过期时间(单位:秒),从 created_at 时间戳开始计算。默认值 172800 秒,即 48 小时。建议范围:[3600, 259200]。
不论使用哪种 service tier,都建议根据业务场景设置合适的超时时间。超过该时间后任务会被自动终止,并标记为 expired 状态。
generate_audio boolean
默认值: true
控制生成的视频是否包含与画面同步的声音。
true:模型输出的视频包含同步声音。模型会基于文本提示词与视觉内容,自动生成与之匹配的人声、音效及背景音乐。建议将对话部分置于双引号内,以优化音频生成效果。例如:男人叫住女人说:"你记住,以后不可以用手指指月亮。"false:模型输出的视频为无声视频。
注意:生成的有声视频均为单声道,和传入的音频声道数无关。
tools object
配置模型要调用的工具。
属性:
tools.type
string:指定使用的工具类型。web_search:联网搜索工具。
说明- 开启联网搜索后,模型会根据用户的提示词自主判断是否搜索互联网内容(如商品、天气等)。可提升生成视频的时效性,但也会增加一定的时延。
- 实际搜索次数可通过查询视频生成任务 API 返回的 `usage.tool_usage.web_search` 字段获取,如果为 0 表示未搜索。
safety_identifier string
终端用户的唯一标识符,用于协助平台检测您的应用中可能违反火山方舟使用政策的用户。
该标识符为英文字符串,需保证对单个用户固定且唯一,长度不超过 64 个字符。推荐传入对用户名、用户 ID 或邮箱进行哈希处理后生成的字符串,避免泄露用户隐私信息。
priority integer
默认值: 0
设置当前请求的执行优先级,决定其在队列中的排序位置。取值范围:0-9,数值越大,优先级越高。
默认情况下,请求将按 FIFO(First In, First Out,先进先出)顺序执行。设置较高优先级后,该请求将插队到同一 Endpoint(推理接入点)下所有低优先级请求之前。
示例:
某 Endpoint 当前队列中有 3 个排队中(status=queued)任务,优先级均为 0(默认)。 队列:[请求 A:priority=0] → [任务 B:priority=0] → [任务 C:priority=0] 此时提交一个 priority=5 的新请求,该请求将直接被排到队首: 队列:[新请求:priority=5] → [任务 A:priority=0] → [任务 B:priority=0] → [任务 C:priority=0]
- 相同优先级的请求之间仍按 FIFO 排序
- 优先级仅影响排队顺序,不会中断正在执行中(status=running)的任务
- 优先级仅在同一 Endpoint 内生效,不影响其他 Endpoint 的任务
- 离线推理模式(service_tier=flex)不支持配置优先级
- 对于 `resolution`、`ratio`、`duration`、`frames`、`seed`、`camera_fixed`、`watermark` 参数,平台升级了参数传入方式,示例如下。所有模型依然兼容老传参方式。
- 不同模型,可能对应支持不同的参数与取值。详见输出视频格式。当输入的参数或取值不符合所选的模型时,该参数将被忽略或触发报错。
- 新方式:在 request body 中直接传入参数。此方式为强校验,若参数填写错误,模型会返回错误提示。
- 旧方式:在文本提示词后追加 `--[parameters]`。此方式为弱校验,若参数填写错误,该参数将被忽略或触发报错。
新方式(推荐): 在 request body 中直接传入参数
// Specify the aspect ratio of the generated video as 16:9, duration as 5 seconds,
// resolution as 720p, seed as 11, and include a watermark. The camera is not fixed.
{
"model": "doubao-seedance-1-5-pro-251215",
"content": [
{
"type": "text",
"text": "小猫对着镜头打哈欠"
}
],
// All parameters must be written in full; abbreviations are not supported
"resolution": "720p",
"ratio": "16:9",
"duration": 5,
// "frames": 20, Either duration or frames is required
"seed": 11,
"camera_fixed": false,
"watermark": true
}旧方式:在文本提示词后追加 --[parameters]
{
"id": "019e640a-348e-74f8-8aff-9f7520b76359",
"upstreamTaskId": "cgt-20260526192731-qjwzf",
"status": "submitted",
"model": "doubao-seedance-2-0-260128",
"createdAt": "2026-05-26T11:27:30.95832Z"
}resolution string
默认值: 720p
视频分辨率。枚举值:
- 480p
- 720p
- 1080p:Seedance 2.0 fast 不支持
ratio string
默认值: adaptive
生成视频的宽高比例。不同宽高比对应的宽高像素值见下方表格。
枚举值:
16:9
4:3
1:1
3:4
9:16
21:9
adaptive:根据输入自动选择最合适的宽高比(详见下文说明)
adaptive 适配规则当配置 ratio 为 adaptive 时,模型会根据生成场景自动适配宽高比;实际生成的视频宽高比可通过查询视频生成任务 API 返回的 ratio 字段获取。
取值规则:
- 文生视频:根据输入的提示词,智能选择最合适的宽高比。
- 首帧 / 首尾帧生视频:根据上传的首帧图片比例,自动选择最接近的宽高比。
- 多模态参考生视频:根据用户提示词意图判断,如果是首帧生视频/编辑视频/延长视频,以该图片/视频为准选择最接近的宽高比;否则,以传入的第一个媒体文件为准(优先级:视频 > 图片)选择最接近的宽高比。
不同宽高比对应的宽高像素值
| 分辨率 | 宽高比 | 宽高像素值 | 宽高像素值 |
|---|---|---|---|
| 480p | 16:9 | 864×480 | 864×486 |
| 4:3 | 736×544 | 752×560 | |
| 1:1 | 640×640 | 640×640 | |
| 3:4 | 544×736 | 560×752 | |
| 9:16 | 480×864 | 486×864 | |
| 21:9 | 960×416 | 992×432 | |
| 720p | 16:9 | 1248×704 | 1280×720 |
| 4:3 | 1120×832 | 1112×834 | |
| 1:1 | 960×960 | 960×960 | |
| 3:4 | 832×1120 | 834×1112 | |
| 9:16 | 704×1248 | 720×1280 | |
| 21:9 | 1504×640 | 1470×630 | |
| 1080p Seedance 2.0 fast 不支持 | 16:9 | 1920×1088 | 1920×1080 |
| 4:3 | 1664×1248 | 1664×1248 | |
| 1:1 | 1440×1440 | 1440×1440 | |
| 3:4 | 1248×1664 | 1248×1664 | |
| 9:16 | 1088×1920 | 1080×1920 | |
| 21:9 | 2176×928 | 2206×946 |
duration integer
默认值: 5
生成视频时长,仅支持整数,单位:秒。
Seedance 1.0 pro,Seedance 1.0 pro fast:[2, 12]
Seedance 2.0 系列:[4, 15]或设置为 -1
注意:Seedance 2.0 系列支持两种配置方法
- 指定具体时长:支持表 1 显示的任一整数
- 智能时长:设置为 -1,由模型在有效范围内自动选择合适的视频长度(整数秒)。实际生成视频的时长可通过查询视频生成任务 API 返回的 duration 字段获取。注意视频时长与语境相关,请谨慎设置。
seed integer
默认值: -1
种子整数,用于控制生成内容的随机性。
取值范围:[-1, 2^31-1] 之间的整数。
注意: 相同的请求下,模型收到不同的 seed 值,如:不指定 seed 值或 seed 取值为 -1(会使用随机数替代)、或手动变更 seed 值,将生成不同的结果。
watermark boolean
默认值: false
生成视频是否包含水印。枚举值:
true:生成视频右下角会展示 AI 生成水印。false:生成视频不包含水印。
响应参数
id string
视频生成任务 ID。
- 设置
draft: true:为 Draft 视频任务 ID。 - 设置
draft: false:为正常视频任务 ID。
创建视频生成任务为异步接口,获取 id 后,需要通过 查询视频生成任务 API 来查询视频生成任务的状态。任务成功后,会输出生成视频的 video_url。
