流式传输
流式传输(Streaming)允许你实时获取 AI 模型的输出,而不是等待完整响应。这对于实时对话和长文本生成场景特别有用。
启用流式传输
在请求中设置 stream: true 参数即可启用流式传输。
bash
curl https://ai-tokenhub.com/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-d '{
"model": "gpt-4o",
"messages": [{"role": "user", "content": "写一首诗"}],
"stream": true
}'流式响应格式
流式响应使用 Server-Sent Events (SSE) 格式,每个 chunk 包含部分生成内容:
data: {"id":"chatcmpl-abc","choices":[{"delta":{"content":"春"}}]}
data: {"id":"chatcmpl-abc","choices":[{"delta":{"content":"风"}}]}
data: {"id":"chatcmpl-abc","choices":[{"delta":{"content":"吹"}}]}
data: [DONE]使用 Python 处理流式响应
python
from openai import OpenAI
client = OpenAI(
base_url="https://ai-tokenhub.com/v1",
api_key="YOUR_API_KEY"
)
stream = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "写一首诗"}],
stream=True
)
for chunk in stream:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)使用 JavaScript 处理流式响应
javascript
const response = await fetch('https://ai-tokenhub.com/v1/chat/completions', {
method: 'POST',
headers: {
'Content-Type': 'application/json',
'Authorization': 'Bearer YOUR_API_KEY'
},
body: JSON.stringify({
model: 'gpt-4o',
messages: [{role: 'user', content: '写一首诗'}],
stream: true
})
});
const reader = response.body.getReader();
const decoder = new TextDecoder();
while (true) {
const { done, value } = await reader.read();
if (done) break;
const chunk = decoder.decode(value);
const lines = chunk.split('\n');
for (const line of lines) {
if (line.startsWith('data: ') && line !== 'data: [DONE]') {
const data = JSON.parse(line.slice(6));
if (data.choices[0]?.delta?.content) {
console.log(data.choices[0].delta.content);
}
}
}
}流式响应结构
每个流式 chunk 包含以下字段:
| 字段 | 说明 |
|---|---|
| id | 对话唯一标识 |
| choices[].delta.content | 本次新增的内容片段 |
| choices[].delta.role | 首个 chunk 包含角色信息 |
| choices[].finish_reason | 完成原因,最后一个 chunk 为 "stop" |
注意事项
- 流式传输时,
usage字段只在最后一个 chunk 或完整响应中返回 - 需要正确处理
[DONE]信号来结束流 - 网络中断可能导致部分数据丢失,建议实现重试机制