核心思路:使用轻量级 Web 框架,将 OpenAI API 请求转换为你现有推理脚本的输入格式,并将推理脚本的输出转换为 OpenAI API 的响应格式。
快速开发步骤列表:
-
选择合适的 Web 框架 (快速 & 简单):
- FastAPI: Python 最佳选择,高性能,易用,自带数据验证和自动文档生成 (OpenAPI)。异步支持优秀,适合现代应用。 强烈推荐。
- Flask: Python 经典轻量级框架,简单易学,社区成熟。如果你的推理脚本是同步的,Flask 也可以快速上手。
-
理解 OpenAI API 接口规范 (重点是
/chat/completions
):- 查阅 OpenAI API 文档 (官方文档是最好的资源): 重点关注
POST /v1/chat/completions
接口的请求和响应格式。你需要实现这个最核心的接口。- 请求 (Request): 理解
messages
数组(包含role
和content
),model
参数,以及其他可选参数(如temperature
,top_p
,max_tokens
等)。 - 响应 (Response): 理解
choices
数组(包含message
,finish_reason
),usage
统计,以及其他字段。
- 请求 (Request): 理解
- 简化实现 (初期): 先只实现最核心的功能,例如只支持
messages
和model
参数,以及最基本的响应结构。 逐步添加可选参数和更完善的功能。
- 查阅 OpenAI API 文档 (官方文档是最好的资源): 重点关注
-
定义 API 接口 (使用选定的框架):
-
FastAPI 示例:
from fastapi import FastAPI, Request, HTTPException from pydantic import BaseModel, Field from typing import List, Dict, Optional app = FastAPI() # --- 定义 OpenAI API 请求和响应的数据模型 (Pydantic) --- class ChatCompletionRequestMessage(BaseModel): role: str = Field(..., description="角色: 'user', 'assistant', 'system'") content: str = Field(..., description="消息内容") class ChatCompletionRequest(BaseModel): model: str = Field(..., description="模型名称 (可以忽略或自定义)") messages: List[ChatCompletionRequestMessage] = Field(..., description="对话消息列表") temperature: Optional[float] = Field(1.0, description="温度系数") # 可选参数 # ... 其他可选参数 ... class ChatCompletionResponseMessage(BaseModel): role: str = Field("assistant", description="角色 (固定为 'assistant')") content: str = Field(..., description="模型回复内容") class ChatCompletionResponseChoice(BaseModel): index: int = Field(0, description="选择索引") message: ChatCompletionResponseMessage = Field(..., description="回复消息") finish_reason: str = Field("stop", description="结束原因") # 可选,根据你的模型输出定义 class ChatCompletionResponseUsage(BaseModel): prompt_tokens: int = Field(0, description="提示词 tokens") # 假数据,可以不实现 completion_tokens: int = Field(0, description="补全 tokens") # 假数据,可以不实现 total_tokens: int = Field(0, description="总 tokens") # 假数据,可以不实现 class ChatCompletionResponse(BaseModel): id: str = Field("chatcmpl-xxxxxxxxxxxxxxxxxxxxxxxx", description="请求 ID (可以固定或随机生成)") # 假数据 object: str = Field("chat.completion", description="对象类型") # 固定值 created: int = Field(1678887675, description="创建时间戳 (可以固定或当前时间)") # 假数据 choices: List[ChatCompletionResponseChoice] = Field(..., description="回复选项列表") usage: ChatCompletionResponseUsage = Field(ChatCompletionResponseUsage(), description="使用统计 (可选)") # 可选 # --- 定义 API 路由 --- @app.post("/v1/chat/completions", response_model=ChatCompletionResponse) async def create_chat_completion(request: ChatCompletionRequest): # 1. 从 request 中提取输入 (messages, model, temperature 等) prompt_messages = request.messages temperature = request.temperature # 2. 将 OpenAI 格式的消息转换为你的推理脚本需要的输入格式 # (可能需要提取最后一个 user message 作为 prompt) prompt_text = "" for msg in prompt_messages: if msg.role == "user": prompt_text = msg.content # 假设只取最后一个 user message if not prompt_text: raise HTTPException(status_code=400, detail="No user message found in the request.") # 3. 调用你的现有推理脚本 (run_inference 函数假设已存在) try: inference_output = run_inference(prompt_text, temperature=temperature) # 假设推理脚本接受 temperature 参数 except Exception as e: raise HTTPException(status_code=500, detail=f"Inference error: {e}") # 4. 将推理脚本的输出转换为 OpenAI API 响应格式 response_message = ChatCompletionResponseMessage(content=inference_output) # 假设推理脚本直接返回文本 choice = ChatCompletionResponseChoice(message=response_message) response = ChatCompletionResponse(choices=[choice]) return response # --- 假设的推理脚本函数 (你需要替换成你实际的脚本调用) --- def run_inference(prompt: str, temperature: float = 1.0) -> str: """ 调用你的大模型推理脚本. 这里只是一个占位符,你需要替换成你的实际推理代码. """ # ... 调用你的模型推理代码 ... # 示例: (替换成你的实际模型加载和推理逻辑) return f"模型回复: {prompt} (temperature={temperature})" # --- 运行 FastAPI 应用 --- if __name__ == "__main__": import uvicorn uvicorn.run(app, host="0.0.0.0", port=8000, reload=True) # reload=True 方便开发
-
Flask 示例 (更简洁):
from flask import Flask, request, jsonify import json app = Flask(__name__) @app.route('/v1/chat/completions', methods=['POST']) def create_chat_completion(): data = request.get_json() if not data or 'messages' not in data: return jsonify({"error": "Missing 'messages' in request"}), 400 messages = data['messages'] prompt_text = "" for msg in messages: if msg.get('role') == 'user': prompt_text = msg.get('content', "") if not prompt_text: return jsonify({"error": "No user message found"}), 400 # 调用你的推理脚本 (run_inference 函数假设已存在) try: inference_output = run_inference(prompt_text) except Exception as e: return jsonify({"error": f"Inference error: {e}"}), 500 response_data = { "id": "chatcmpl-xxxxxxxxxxxxxxxxxxxxxxxx", # 假数据 "object": "chat.completion", # 固定值 "created": 1678887675, # 假数据 "choices": [ { "index": 0, "message": {"role": "assistant", "content": inference_output}, "finish_reason": "stop" } ], "usage": {"prompt_tokens": 0, "completion_tokens": 0, "total_tokens": 0} # 可选 } return jsonify(response_data) # --- 假设的推理脚本函数 (你需要替换成你实际的脚本调用) --- def run_inference(prompt: str) -> str: """ 调用你的大模型推理脚本. 这里只是一个占位符,你需要替换成你的实际推理代码. """ # ... 调用你的模型推理代码 ... return f"模型回复 (Flask): {prompt}" if __name__ == '__main__': app.run(debug=True, port=8000, host='0.0.0.0') # debug=True 方便开发
-
-
集成你的现有推理脚本:
- 替换占位符
run_inference
函数: 将示例代码中的run_inference
函数替换成你实际调用大模型推理脚本的代码。 - 输入输出适配:
- 输入适配: 你的推理脚本可能需要不同格式的输入 (例如,直接文本字符串,或者更复杂的结构)。在 API 路由函数中,你需要将从 OpenAI API 请求中提取的信息 (例如
prompt_text
) 转换成你的推理脚本能够接受的格式。 - 输出适配: 你的推理脚本的输出也可能需要转换成 OpenAI API 响应所需的格式 (
ChatCompletionResponse
中的choices
,message
,content
等)。确保你的 API 路由函数能够正确地构建这些响应对象。
- 输入适配: 你的推理脚本可能需要不同格式的输入 (例如,直接文本字符串,或者更复杂的结构)。在 API 路由函数中,你需要将从 OpenAI API 请求中提取的信息 (例如
- 替换占位符
-
测试 API:
- 使用
curl
或Postman
等工具发送 POST 请求: 按照 OpenAI API 的请求格式,发送请求到你的 API 服务地址 (例如http://localhost:8000/v1/chat/completions
)。 - 验证响应: 检查 API 返回的响应是否符合 OpenAI API 的响应格式,以及模型回复是否正确。
- 使用
-
逐步完善 (迭代开发):
- 添加更多 OpenAI API 参数支持: 根据需要,逐步实现对更多 OpenAI API 请求参数的支持,例如
temperature
,top_p
,max_tokens
,stop
,presence_penalty
,frequency_penalty
等。 - 实现流式 (Streaming) 响应 (可选但推荐): 如果你的推理脚本支持流式输出,可以考虑实现 OpenAI API 的流式响应,提高用户体验 (需要更复杂的异步处理)。
- 错误处理和日志: 完善错误处理机制,添加日志记录,方便调试和监控。
- 安全性和认证 (如果需要): 如果需要保护你的 API 服务,可以考虑添加 API 密钥认证或其他安全机制。
- 部署: 将你的 API 服务部署到服务器上,可以使用 Docker, uWSGI/Gunicorn + Nginx 等方案。
- 添加更多 OpenAI API 参数支持: 根据需要,逐步实现对更多 OpenAI API 请求参数的支持,例如
关键点总结:
- 快速上手: 选择简单易用的 Web 框架 (FastAPI 或 Flask)。
- 聚焦核心: 先实现最核心的
/chat/completions
接口和基本功能。 - OpenAI API 规范: 仔细研究 OpenAI API 文档,确保接口兼容性。
- 输入输出适配: 花时间做好 OpenAI API 格式和你现有推理脚本格式之间的转换。
- 迭代开发: 逐步添加功能,不要一开始就追求完美。
- 测试驱动: 充分测试你的 API,确保功能正确。
选择 FastAPI 的优势 (再次强调):
- 现代异步框架: 更高效地处理并发请求,尤其对于 IO 密集型任务 (如模型推理)。
- 数据验证 (Pydantic): 自动请求数据验证,减少错误,代码更清晰。
- 自动 API 文档 (OpenAPI): 自动生成 Swagger UI 和 ReDoc 文档,方便测试和文档化你的 API。
- 易用性: 上手快,开发效率高。