指南：处理大模型API的流式响应 (区分思考与最终输出)

Posted 2025-05-11 Updated 2025-05- 11

By 天使

24~32 min read

本文档旨在为希望有效处理大语言模型（LLM）流式API响应的开发者提供指导，特别是当API的响应中既包含模型的"思考过程"也包含"最终用户回复"时。我们将以Python为例，探讨一种可靠的处理机制。

1. 理解流式响应 (Server-Sent Events - SSE)

许多LLM API在启用流式输出时，会采用Server-Sent Events (SSE) 格式。这种格式允许服务器持续向客户端发送数据块，而无需客户端重复请求。

典型的SSE流特征包括：

**数据行 (Data Lines)**：以 data: 开头，后接一个JSON字符串。这个JSON对象通常包含了模型生成的文本片段。

    data: {"id":"chatcmpl-xxx","object":"chat.completion.chunk","choices":[{"delta":{"content":"你好"},...}]}

**内容片段 (Content Chunks)**：在上述JSON中，实际的文本内容通常位于 choices[0].delta.content。
**空行 (Empty Lines)**：SSE流中可能包含空行，用作心跳信号或简单的分隔符，客户端处理时通常可以忽略它们。
**结束标记 (End-of-Stream Signal)**：流的结束通常由一个特殊的 data: 消息标记，例如 data: [DONE]。

2. 挑战：区分"思考"与"响应"及处理小数据块

当模型被设计为在最终回复前先输出其"思考过程"（例如，为了透明度或调试目的）时，这些思考内容通常会被特定的标记包裹，如Markdown的代码块：

```thinking

这是模型的思考过程...

模型的进一步思考...

 ```

这是模型的最终答复。

主要挑战在于：

**实时性**：用户期望尽快看到模型的输出，无论是思考还是最终回复。
**准确区分**：需要准确识别"思考块"的开始 thinking\n) 和结束 \n \n)。
**数据分片**：API可能将文本（包括标记本身）分割成非常小的数据块通过多个SSE事件发送。处理器必须能正确重组这些片段。
**可读性**：即使用户看到了思考过程，如果每个微小的文本片段都带有如 [思考中]: 的前缀，输出也会变得难以阅读。

3. 核心处理策略与Python实现概览

我们将通过两个主要的Python脚本来演示处理方法：

streaming_processor.py: 包含核心逻辑类 StreamingContentProcessor，负责解析SSE、识别思考/响应边界，并调用回调。
实际场景.py: 演示如何使用 StreamingContentProcessor 来与实际的API交互，并美化输出。

3.1. `StreamingContentProcessor` 类 - 核心解析逻辑

这个类是处理流的核心。其主要职责和设计点如下：

**初始化 __init__)**：
- 接收用于"思考内容"和"最终响应内容"的回调函数。
- 定义思考块的开始标记 (`self._thinking_marker_start = "```thinking\n) 和结束标记 (self._thinking_marker_end = "\n```"`).
- 维护一个内部缓冲区 self._buffer) 来累积接收到的文本片段，以及一个状态变量 self._is_thinking) 来跟踪当前是否在思考块内部。
**处理SSE行 process_sse_line)**：

1. 接收原始的SSE行（通常是 requests 库 iter_lines() 的输出）。

2. 去除首尾空白，忽略完全空行。

3. 检查是否为结束信号 data: [DONE]。如果是，则调用 finalize_internal_processing() 处理缓冲区剩余内容，并停止后续处理。

4. 如果行以 data: 开头，则提取后续的JSON字符串。

5. 解析JSON，并从中提取 choices[0].delta.content 的文本。

6. 如果提取到有效文本内容，则将其传递给内部的文本处理方法 _process_text_content()。

**内部文本处理 _process_text_content)**：这是区分思考和响应的关键。

1. 将传入的文本块追加到内部缓冲区 self._buffer。

2. **循环处理缓冲区**：只要缓冲区有内容或状态可能改变，就持续尝试处理：

**如果当前不在思考块 not self._is_thinking)**：
- 在缓冲区中查找思考块开始标记 self._thinking_marker_start)。
- 如果找到：将标记前的内容作为"响应"回调；更新状态为"在思考块中" self._is_thinking = True)；从缓冲区移除已处理部分和标记本身。

如果未找到完整标记：检查缓冲区内容是否 不是* 开始标记的已知前缀。如果确定不是前缀（例如，内容与标记开头不同，或内容已足够长但仍不匹配），则将整个缓冲区视为"响应"回调并清空缓冲区。否则（如果内容可能是标记的前缀），则保留缓冲区，等待更多数据。

**如果当前在思考块中 self._is_thinking)**：
- 在缓冲区中查找思考块结束标记 self._thinking_marker_end)。
- 如果找到：将标记前的内容作为"思考"回调；更新状态为"不在思考块中" self._is_thinking = False)；从缓冲区移除已处理部分和标记本身。特别注意：思考块的Markdown结束通常是 `\n```\，因此在找到 \n``` 后，还应检查并消耗紧随其后的单个 \n`。

如果未找到完整标记：同理，检查缓冲区内容是否 不是* 结束标记的已知前缀。如果确定不是，则将整个缓冲区视为"思考"回调并清空。否则，保留缓冲区等待更多数据。

3. 这种"检查是否为前缀，否则回调"的缓冲策略有助于确保在数据块被任意分割时，标记也能被正确识别，同时尽可能快地将确定的内容传递出去。

**最终处理 finalize_internal_processing)**：当收到 [DONE]信号或流意外结束时调用，确保缓冲区中任何剩余的内容根据当前状态（思考中/响应中）被正确回调。

**关键代码片段 streaming_processor.py)**

# class StreamingContentProcessor:
# ... (初始化)
    def processtext_content(self, text_chunk: str):
        if not text_chunk:
            return

        self._buffer += text_chunk
        made_progress_in_outer_loop = True
        while made_progress_in_outer_loop:
            made_progress_in_outer_loop = False
            while True:
                made_progress_this_iteration = False
                if not self._is_thinking:
                    start_marker_idx = self._buffer.find(self._thinking_marker_start)
                    if start_marker_idx != -1:
                        # ... (处理响应部分，切换到思考状态)
                        # self.response_callback(self._buffer[:start_marker_idx])
                        # self._is_thinking = True
                        # self._buffer = self._buffer[start_marker_idx + len(self._thinking_marker_start):]
                        # made_progress_this_iteration = True
                        # made_progress_in_outer_loop = True
                        # ... (示意，参照实际代码)
                        pass # 实际代码已提供
                    else:
                        # 不是思考块开始标记的前缀 -> 视为响应
                        # if self._buffer and not self._thinking_marker_start.startswith(self._buffer):
                        #    self.response_callback(self._buffer)
                        #    self._buffer = ""
                        #    made_progress_this_iteration = True
                        break # 等待更多数据
                else: # self._is_thinking is True
                    end_marker_idx = self._buffer.find(self._thinking_marker_end)
                    if end_marker_idx != -1:
                        # ... (处理思考部分，切换到响应状态)
                        # self.thinking_callback(self._buffer[:end_marker_idx])
                        # self._is_thinking = False
                        # current_pos = end_marker_idx + len(self._thinking_marker_end)
                        # if current_pos < len(self._buffer) and self._buffer[current_pos] == '\n':
                        #    current_pos += 1
                        # self._buffer = self._buffer[current_pos:]
                        # made_progress_this_iteration = True
                        # made_progress_in_outer_loop = True
                        pass # 实际代码已提供
                    else:
                        # 不是思考块结束标记的前缀 -> 视为思考
                        # if self._buffer and not self._thinking_marker_end.startswith(self._buffer):
                        #    self.thinking_callback(self._buffer)
                        #    self._buffer = ""
                        #    made_progress_this_iteration = True
                        break # 等待更多数据

                if not made_progress_this_iteration:
                    break

    def process_sse_line(self, sse_line: str):
        # ... (解析SSE, 提取content)
        # if content:
        #    self._process_text_content(content)
        # ... (处理 [DONE])
        pass # 实际代码已提供

(上述代码为简化示意，请参考仓库中 streaming_processor.py 的完整实现。)

3.2. `实际场景.py` - API交互与美化输出

这个脚本演示了如何将 StreamingContentProcessor 应用于实际的API请求，并优化终端输出的可读性。

**API客户端**：通常你会有一个API客户端类（在我们的例子中是 tig_api.py 中的 TIGModelAPI）来处理底层的HTTP请求和认证。然而，为了直接控制原始SSE行的获取实际场景.py 中直接使用了 requests.post(..., stream=True) 并通过 response.iter_lines() 迭代。
**回调函数 handle_thinking_chunk, handle_response_chunk) 的状态化**：
为了避免API发送的每个小片段都在终端打印一次 [思考中]: 或 [最终响应]:，回调函数内部维护了状态 current_block_type, first_chunk_in_block)。
只有当内容的类型（思考/响应）发生变化，或者是一个新类型块的第一个片段时，才会打印类型前缀和必要的换行符。
后续相同类型的内容片段会直接追加输出，不带前缀，从而形成连续、易读的文本块。
**处理最终响应中的Markdown标题**：
回调函数 handle_response_chunk 中包含了一个简单的逻辑，用于检测并移除最终响应内容开头的Markdown一级标题（如 # 标题）。这是一个可选的优化，取决于API是否会固定输出此类格式。

**关键代码片段 实际场景.py)**

# current_block_type = None
# first_chunk_in_block = True
# def handle_thinking_chunk(chunk):
#     global current_block_type, first_chunk_in_block
#     if current_block_type != "thinking":
#         if current_block_type is not None: print()
#         print(f"[思考中]: ", end="")
#         current_block_type = "thinking"
#         first_chunk_in_block = True
#     print(chunk, end="")
#     sys.stdout.flush()
# # handle_response_chunk 类似，并包含Markdown标题处理逻辑
# def run_real_scenario():
#     # ... (初始化API客户端, StreamingContentProcessor)
#     # ... (准备payload, 发送requests.post请求)
#     for line_bytes in response.iter_lines():
#         if line_bytes:
#             decoded_line = line_bytes.decode('utf-8')
#             sse_processor.process_sse_line(decoded_line)
#         else:
#             sse_processor.process_sse_line("")
#     # ... (流结束后确保换行)

(上述代码为简化示意，请参考仓库中 实际场景.py 的完整实现。)

4. 给模型用户的建议

当您作为用户与一个会流式输出并区分思考/响应的AI模型交互时：

**耐心等待**：流式输出意味着内容是逐步展现的。如果您看到 [思考中]: 标记，请耐心等待模型完成其内部处理。
**理解思考过程**：思考块是为了让您了解模型是如何得到答案的。它可能包含模型的计划、推理步骤、对您问题的理解等。这对于复杂问题或需要验证模型逻辑的场景特别有用。
**关注最终响应**[最终响应]: 标记后的内容才是模型希望您直接采纳的正式答复。
**API提供商的文档**：请务必查阅API提供商关于流式输出格式、特定标记（如思考块）以及如何正确终止流的官方文档。不同的模型或API版本可能在细节上有所差异。
**错误处理**：在您的客户端代码中，确保妥善处理网络错误、JSON解析错误以及API可能返回的特定错误代码或消息。

5. 总结

通过结合一个健壮的SSE行解析器 StreamingContentProcessor.process_sse_line)、一个细致的内部文本处理器 StreamingContentProcessor._process_text_content) 来准确识别思考/响应边界，以及状态化的回调函数来美化输出，我们可以有效地处理LLM的流式响应，为用户提供既实时又清晰的体验。

这种方法的核心在于对数据流的细致处理，特别是对标记的准确识别和对小数据块的正确缓冲与重组。

License: CC BY 4.0