Skip to content

流式传输

流式传输(Streaming)允许你实时获取 AI 模型的输出,而不是等待完整响应。这对于实时对话和长文本生成场景特别有用。

启用流式传输

在请求中设置 stream: true 参数即可启用流式传输。

bash
curl https://ai-tokenhub.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{
    "model": "gpt-4o",
    "messages": [{"role": "user", "content": "写一首诗"}],
    "stream": true
  }'

流式响应格式

流式响应使用 Server-Sent Events (SSE) 格式,每个 chunk 包含部分生成内容:

data: {"id":"chatcmpl-abc","choices":[{"delta":{"content":"春"}}]}

data: {"id":"chatcmpl-abc","choices":[{"delta":{"content":"风"}}]}

data: {"id":"chatcmpl-abc","choices":[{"delta":{"content":"吹"}}]}

data: [DONE]

使用 Python 处理流式响应

python
from openai import OpenAI

client = OpenAI(
    base_url="https://ai-tokenhub.com/v1",
    api_key="YOUR_API_KEY"
)

stream = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "写一首诗"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

使用 JavaScript 处理流式响应

javascript
const response = await fetch('https://ai-tokenhub.com/v1/chat/completions', {
  method: 'POST',
  headers: {
    'Content-Type': 'application/json',
    'Authorization': 'Bearer YOUR_API_KEY'
  },
  body: JSON.stringify({
    model: 'gpt-4o',
    messages: [{role: 'user', content: '写一首诗'}],
    stream: true
  })
});

const reader = response.body.getReader();
const decoder = new TextDecoder();

while (true) {
  const { done, value } = await reader.read();
  if (done) break;
  
  const chunk = decoder.decode(value);
  const lines = chunk.split('\n');
  
  for (const line of lines) {
    if (line.startsWith('data: ') && line !== 'data: [DONE]') {
      const data = JSON.parse(line.slice(6));
      if (data.choices[0]?.delta?.content) {
        console.log(data.choices[0].delta.content);
      }
    }
  }
}

流式响应结构

每个流式 chunk 包含以下字段:

字段说明
id对话唯一标识
choices[].delta.content本次新增的内容片段
choices[].delta.role首个 chunk 包含角色信息
choices[].finish_reason完成原因,最后一个 chunk 为 "stop"

注意事项

  1. 流式传输时,usage 字段只在最后一个 chunk 或完整响应中返回
  2. 需要正确处理 [DONE] 信号来结束流
  3. 网络中断可能导致部分数据丢失,建议实现重试机制