Ollama Python SDK 调用 ollama.generate() 返回空字符串如何排查与修复？

Ollama空响应排查

问题分析

使用 Ollama Python SDK 进行本地模型推理时，开发者可能遇到一个令人困惑的现象：ollama.generate() 或 ollama.chat() 调用返回成功，但响应内容为空字符串或空列表。请求没有抛出异常，状态码也正常，但就是拿不到生成的文本。

这个问题的成因涉及多个层面。首先是 Ollama 服务端的问题。Ollama 作为本地推理引擎，其后台服务可能因为模型加载失败、显存不足、CUDA 驱动异常等原因导致推理中断。但出于健壮性设计，服务端可能返回了一个"成功但空"的响应，而非抛出错误。

其次是模型配置问题。某些模型（特别是经过量化的 GGUF 格式模型）可能存在参数配置不当的情况，例如 num_predict 被意外设置为 0，或者 stop 参数与模型输出格式冲突，导致模型"生成"了零个 token 就提前终止。

第三是 SDK 使用方式的问题。ollama.generate() 支持同步和流式两种模式，如果开发者在流式模式下期望获得完整响应，或者在回调函数中没有正确处理 done 标志，都可能得到空结果。

最后是网络层面的因素。虽然 Ollama 默认运行在本地，但某些企业环境或代理配置可能导致请求被拦截或超时，SDK 可能在连接问题下返回了默认值而非抛出异常。

解决原理

排查此类问题需要建立系统化的诊断流程：

第一阶段：验证 Ollama 服务状态

首先确认 Ollama 服务是否正常运行。通过命令行执行 ollama list 查看已安装模型，执行 ollama run <model_name> 测试交互式推理。如果命令行能正常生成内容，说明服务端没有问题，问题出在 SDK 调用层。

检查 Ollama 服务日志。在终端运行 OLLAMA_DEBUG=1 ollama serve 可以看到详细的推理日志，包括模型加载、token 生成、CUDA 调用等信息。如果日志显示"no tokens generated"或类似警告，说明模型本身存在问题。

第二阶段：检查 SDK 调用参数

审查 ollama.generate() 的参数配置。关键参数包括：

model：模型名称必须与 ollama list 输出完全一致
prompt：提示词不能为空，且需要符合模型的指令模板
options：包含 num_predict、temperature、stop 等推理参数
stream：是否启用流式输出

特别关注 options 字典中的 num_predict（或 num_ctx），如果设置为 0 或负数，模型将不生成任何 token。某些量化模型的默认配置可能包含异常值。

第三阶段：网络与连接诊断

虽然 Ollama 默认监听 http://localhost:11434，但 SDK 可能尝试连接其他地址。检查环境变量 OLLAMA_HOST，或在代码中显式指定 host 参数。使用 curl 或 requests 库直接调用 Ollama API 接口，验证底层 HTTP 通信是否正常。

第四阶段：模型特定问题

某些模型（尤其是非官方或社区微调模型）可能存在模板不匹配问题。例如，Qwen 系列模型需要特定的 <|im_start|> 格式，Llama 需要 [INST] 标签。如果提示词格式与模型期望不符，模型可能输出空内容或直接跳过生成。

程序实现与说明

import ollama
import requests
import json

# ================== 诊断函数 ==================

def diagnose_ollama_service():
    """
    第一阶段：诊断 Ollama 服务状态
    通过 HTTP 直接调用 API，绕过 SDK 检测底层问题
    """
    print("=" * 60)
    print("阶段一：Ollama 服务诊断")
    print("=" * 60)
    
    # 检查服务是否可达
    try:
        response = requests.get("http://localhost:11434/api/tags", timeout=10)
        if response.status_code == 200:
            models = response.json().get("models", [])
            print(f"✓ Ollama 服务正常运行，已安装 {len(models)} 个模型")
            for m in models:
                print(f"  - {m['name']} ({m['size'] / 1e9:.2f} GB)")
        else:
            print(f"✗ 服务响应异常：HTTP {response.status_code}")
    except requests.exceptions.ConnectionError:
        print("✗ 无法连接 Ollama 服务，请确认服务已启动：ollama serve")
        return False
    except requests.exceptions.Timeout:
        print("✗ 连接超时，检查网络或防火墙配置")
        return False
    
    return True


def test_direct_api_call(model_name: str):
    """
    第二阶段：直接调用 generate API
    绕过 SDK 层，验证 API 响应结构
    """
    print("\n" + "=" * 60)
    print("阶段二：API 直接调用测试")
    print("=" * 60)
    
    url = "http://localhost:11434/api/generate"
    payload = {
        "model": model_name,
        "prompt": "你好，请用一句话回答：1+1等于几？",
        "stream": False,  # 禁用流式，获取完整响应
        "options": {
            "num_predict": 50,  # 明确指定生成 token 数
            "temperature": 0.1   # 低温度提高确定性
        }
    }
    
    try:
        response = requests.post(
            url,
            json=payload,
            headers={"Content-Type": "application/json"},
            timeout=60
        )
        response.raise_for_status()
        data = response.json()
        
        # 解析响应结构
        print(f"API 响应状态：成功")
        print(f"响应键：{list(data.keys())}")
        print(f"done 标志：{data.get('done')}")
        print(f"生成文本长度：{len(data.get('response', ''))}")
        
        if data.get('response'):
            print(f"生成内容：{data['response'][:100]}...")
            return True
        else:
            print("✗ response 字段为空")
            print(f"完整响应：{json.dumps(data, ensure_ascii=False, indent=2)}")
            return False
            
    except Exception as e:
        print(f"✗ API 调用失败：{e}")
        return False


def diagnose_sdk_call(model_name: str):
    """
    第三阶段：SDK 调用诊断
    使用 ollama Python SDK 并捕获详细信息
    """
    print("\n" + "=" * 60)
    print("阶段三：SDK 调用诊断")
    print("=" * 60)
    
    # 测试一：最简单的同步调用
    print("\n[测试 1] 基础同步调用")
    try:
        response = ollama.generate(
            model=model_name,
            prompt="Hello",
            stream=False
        )
        print(f"响应类型：{type(response)}")
        print(f"响应键：{list(response.keys()) if isinstance(response, dict) else 'N/A'}")
        
        if 'response' in response:
            content = response['response']
            if content:
                print(f"✓ 成功获取内容：{content[:50]}...")
            else:
                print("✗ response 为空字符串")
        else:
            print(f"✗ 响应中无 'response' 字段：{response}")
            
    except Exception as e:
        print(f"✗ SDK 调用异常：{type(e).__name__}: {e}")


def diagnose_with_options(model_name: str):
    """
    第四阶段：参数配置诊断
    测试不同的 options 配置
    """
    print("\n" + "=" * 60)
    print("阶段四：参数配置诊断")
    print("=" * 60)
    
    # 常见的参数问题
    test_configs = [
        {"num_predict": 100},  # 正常配置
        {"num_predict": 0},    # 异常：不生成
        {"num_predict": -1},   # 无限生成（直到 stop 或 max）
        {"temperature": 0.0},  # 完全确定性
        {"temperature": 2.0},  # 高随机性
    ]
    
    for i, opts in enumerate(test_configs, 1):
        print(f"\n[配置 {i}] options = {opts}")
        try:
            response = ollama.generate(
                model=model_name,
                prompt="说一个数字",
                stream=False,
                options=opts
            )
            content = response.get('response', '')
            print(f"  结果：{'✓ 有内容' if content else '✗ 空响应'}")
            if content:
                print(f"  内容：{content[:30]}...")
        except Exception as e:
            print(f"  异常：{e}")


def check_model_template(model_name: str):
    """
    第五阶段：模型模板诊断
    检查模型是否需要特定提示词格式
    """
    print("\n" + "=" * 60)
    print("阶段五：模型模板诊断")
    print("=" * 60)
    
    # 尝试获取模型信息
    try:
        model_info = ollama.show(model_name)
        print(f"模型信息键：{list(model_info.keys())}")
        
        # 检查 modelfile 中的 template
        if 'modelfile' in model_info:
            modelfile = model_info['modelfile']
            if 'TEMPLATE' in modelfile:
                print(f"检测到自定义模板")
            else:
                print("使用默认模板")
                
        # 检查 parameters
        if 'parameters' in model_info:
            params = model_info['parameters']
            print(f"模型参数：{params}")
            
    except Exception as e:
        print(f"无法获取模型详情：{e}")


# ================== 修复方案 ==================

def fixed_generate_call(model_name: str, prompt: str) -> str:
    """
    经过修复的生成调用函数
    包含完整的参数配置和错误处理
    """
    try:
        # 明确指定所有关键参数
        response = ollama.generate(
            model=model_name,
            prompt=prompt,
            stream=False,  # 同步模式，获取完整响应
            options={
                "num_predict": 256,     # 明确指定生成 token 数
                "num_ctx": 2048,       # 上下文窗口大小
                "temperature": 0.7,    # 温度参数
                "top_p": 0.9,          # nucleus sampling
                "stop": [],            # 清空 stop 序列，避免误触发
            }
        )
        
        # 验证响应结构
        if not isinstance(response, dict):
            raise ValueError(f"响应类型异常：{type(response)}")
        
        if 'response' not in response:
            raise KeyError("响应中缺少 'response' 字段")
        
        content = response['response']
        
        # 额外检查：确认模型确实生成了内容
        if not content and response.get('done'):
            # done=True 但内容为空，可能是模型配置问题
            print("警告：模型返回空内容但标记为完成")
            return "[模型生成内容为空]"
        
        return content
        
    except ollama.ResponseError as e:
        print(f"Ollama 响应错误：{e}")
        return f"[错误：{e}]"
    except Exception as e:
        print(f"未知错误：{type(e).__name__}: {e}")
        return f"[错误：{e}]"


# ================== 主程序 ==================

if __name__ == "__main__":
    # 替换为你的模型名称
    MODEL_NAME = "qwen2:7b"  # 或 "llama3.1", "mistral" 等
    
    # 执行完整诊断流程
    if diagnose_ollama_service():
        test_direct_api_call(MODEL_NAME)
        diagnose_sdk_call(MODEL_NAME)
        diagnose_with_options(MODEL_NAME)
        check_model_template(MODEL_NAME)
        
        # 使用修复后的函数测试
        print("\n" + "=" * 60)
        print("修复方案验证")
        print("=" * 60)
        result = fixed_generate_call(MODEL_NAME, "请用一句话回答：天空是什么颜色？")
        print(f"最终结果：{result}")

关键代码行解析：

requests.get("http://localhost:11434/api/tags")：这是 Ollama 的标准 API 端点，用于列出已安装模型。通过 requests 库直接调用可以完全绕过 SDK，验证服务是否正常工作。
"stream": False：在 API 请求中禁用流式输出。流式模式下，Ollama 会分块返回 token，需要在客户端组装完整响应。如果开发者按非流式模式处理流式响应，可能只读取到第一个分块（恰好为空）。
"num_predict": 100：这是解决空响应问题的关键参数之一。某些模型的默认配置可能将此值设为 0 或极小的值，导致模型不生成任何 token。显式设置合理值可覆盖异常默认值。
"stop": []：清空停止序列。某些模型模板可能包含特定的停止标记（如 <|endoftext|>），如果提示词意外触发了停止序列，模型会立即终止生成。显式设为空列表可避免此问题。
if not content and response.get('done')：这是一个重要的边界条件检查。如果 Ollama 返回 done=True 但 response 为空，说明模型"成功"完成了零 token 生成。这通常指向模型配置或模板问题。

常见修复策略：

显式指定 num_predict：在每次调用中明确设置生成 token 数量，不依赖模型默认值。
检查模型名称匹配：确保 model 参数与 ollama list 输出完全一致，区分大小写。
调整提示词格式：某些模型需要特定格式。尝试在提示词前添加系统指令或使用聊天模板。
重启 Ollama 服务：ollama stop <model> 后重新加载，清除可能的缓存状态。
检查 CUDA/显存状态：执行 nvidia-smi 查看显存占用，确保模型完全加载。

旺道跨平台系统

专业铸造企业商业门户

为私域流量与商业增长提供商弈利器

商城系统

分销系统

CRM系统

智慧门店

供应链系统

订货系统
旺道商弈网课系统

超低成本扩张，赚复利的钱

在线教学+督学+裂变+社交+促销+分销于一体的网校系统，
AI应用软件开发服务

始于需求，终于品质

定制企业级AI小程序、APP与智能系统

量身订做

跨平台

独立部署

专业打造

1321519121813027920428

问题分析

解决原理

第一阶段：验证 Ollama 服务状态

第二阶段：检查 SDK 调用参数

第三阶段：网络与连接诊断

第四阶段：模型特定问题

程序实现与说明

旺道跨平台系统

专业铸造企业商业门户

为私域流量与商业增长提供商弈利器

旺道商弈网课系统

超低成本扩张，赚复利的钱

AI应用软件开发服务

始于需求，终于品质

定制企业级AI小程序、APP与智能系统

量身订做

跨平台

独立部署

专业打造

13215191218
13027920428