AI Gateway Architecture2026年7月2日Big Y

模型路由策略设计：为每个工作流匹配模型、成本、延迟和风险

设计一个模型路由策略，将 AI 工作流映射到模型路由、回退规则、成本上限、延迟 SLO、风险门控和证据检查。

每个 AI 产品最终都会超越单一默认模型的范畴。支持机器人、代码审查器、发票提取器、图像提示助手和内部研究代理，它们对延迟目标、上下文预算、推理深度、工具行为、回退规则或审批流程的需求各不相同。模型路由策略将这些权衡转化为一份操作契约，而不是一堆临时的 model= 字符串。

目标不是选择一个“最佳”模型。目标是让模型的选择变得可审查。一个好的模型路由策略会告诉工程师应该使用哪种模型类别、何时增加开销、何时优化延迟、何时阻止回退，以及在工作流投入生产前必须具备哪些证据。

Flatkey 在此讨论中至关重要，因为当模型访问、密钥、请求日志、使用分析、定价审查和操作控制集中在一处时，路由会更容易管理。请将以下策略用作设计层，然后在生产部署前验证当前的 Flatkey 模型目录和定价页面。

模型路由策略设计一览表

从工作流类别开始，而不是提供商名称。下表是模型路由策略的第一个实用版本。

工作流类别	主路由	成本规则	延迟规则	风险规则	回退规则	所需证据
快速分类	小型或低推理文本模型	通过评估的最低成本	严格的 p95 目标	低业务风险	可安全重试或降级	准确率样本、p95 延迟、每 1000 次调用的成本
客户聊天	支持工具的均衡模型	按对话或账户设置上限	低 p95 和稳定的流式传输	中等风险	仅回退到经过语气和工具行为测试的模型	对话评估、拒绝检查、工具调用成功率、对话记录 QA
代码和技术推理	强推理模型	仅在困难任务上增加开销	更宽松的延迟预算	中到高风险	回退到经过审查的对等路由，而不是弱模型	任务评估、差异正确性、工具追踪、回滚路径
结构化提取	支持模式（schema）的模型	按有效记录进行优化	批量或近实时	中等风险	回退前使用相同或更严格的路由重试	模式验证率、字段准确率、错误分类
采购或财务审查	固定的、经过审查的模型路由	成本次于可审计性	可接受异步处理	高风险	未经批准不得自动回退	来源追踪、模型版本、请求日志、审查员签字
后台摘要	成本更低或对批量处理友好的路由	最小化每个被接受摘要的成本	异步	低到中等风险	重试预算用尽后回退	样本质量、重试率、缓存令牌指标

此表并非最终策略。它是一个决策界面。在成为生产路由之前，每一行都需要设置可衡量的门槛。

模型路由策略必须决定的事项

模型路由策略是一项书面规则，它将工作流映射到模型能力、成本上限、延迟 SLO、回退行为和证据要求。对于每个生产工作流，它应该回答以下六个问题：

工作流试图优化什么：速度、质量、成本、可靠性、安全性、模态、上下文长度还是可审计性？
需要哪些能力：工具调用、结构化输出、长上下文、图像输入、流式传输、低推理、高推理或特定于提供商的端点支持？
失败预算是多少：重试、回退、降级、排队、求助人工还是停止？
哪些可以自动更改：提供商、模型大小、推理强度、超时、路由组，还是什么都不能？
必须记录哪些内容：请求的模型、服务的模型、路由、状态、使用单位、成本、回退尝试和所有者？
发布前需要什么证明：评估分数、延迟样本、配额测试、计费追踪、安全审查或采购批准？

OpenAI 当前的 GPT-5.5 指南在这里很有用，因为它将 API 配置视为模型性能的一部分，而不是事后才考虑的问题。文档中指出，Responses API 状态处理、推理强度、详细程度、结构化输出、提示缓存、工具设计、托管工具和状态管理等因素都会影响智能、可靠性、延迟和成本。这正是模型路由策略应该保留的维度。

策略维度 1：工作流风险

风险是第一个路由划分依据，因为它控制着允许的自动化程度。

低风险工作流通常可以容忍重试、更便宜的路由和广泛的回退。例如内部标记、轻量级摘要、草稿建议和非关键性分类。这些是实施积极成本控制的理想选择，因为偶尔的重试或审查样本是可以接受的。

中等风险工作流需要更严格的验收测试。客户支持、工作流自动化、代码建议和销售辅助工具可能不要求每次都进行人工审查，但在发生错误时，确实需要进行语气检查、工具调用检查和路由证据。

高风险工作流应被更严格地固定。采购审查、法律摘要、财务审批、安全决策和受监管的工作流不应仅仅因为主路由缓慢就静默回退到不同的模型或提供商。模型路由策略应要求在回退改变风险状况之前获得明确批准。

简单的规则是：如果在出现不良结果后，有人会问“这到底是哪个模型回答的？”，那么该路由就需要更强的日志记录和更弱的自动回退。

策略维度 2：延迟和用户体验

延迟应纳入策略，因为同一个模型对于异步工作流可能是可以接受的，但对于交互式产品则可能无法接受。

对于交互式聊天，设置 p50、p95、超时和流式传输的预期。如果首个令牌生成时间（time-to-first-token）很重要，应将其与总完成时间分开衡量。对于后台任务，则应定义最大排队时间和完成截止日期。

不要设置像“使用快速模型”这样模糊的规则。应将模型路由策略编写为可测试的目标：

workflow: support_chat_triage
latency:
  p95_first_token_ms: 1200
  p95_complete_ms: 7000
  timeout_ms: 10000
fallback:
  on_timeout: use_reviewed_balanced_route
  on_schema_error: retry_same_route_once
  on_safety_or_policy_error: stop_and_escalate

OpenAI 的提示词缓存文档再次提醒我们，延迟不仅仅是模型选择的问题。稳定的提示词前缀、一致的缓存键和缓存命中监控可以显著改变重复工作负载的延迟和输入令牌成本。如果缓存是计划的一部分，应将其作为策略要求，并记录缓存令牌的指标。

策略维度 3：成本上限

成本控制应按每个工作流结果来表示，而不仅仅是按每个令牌。一个经常失败的廉价路由可能比一次就成功的更强路由成本更高。

使用三个成本限制：

限制	示例	重要性
每次请求	单次请求、图像、视频任务或对话回合的最大成本	防止单次调用给财务带来意外
每个工作流	完成一个工单、提取、回答或文档的最大成本	考虑了重试和回退
每个所有者	按应用、团队、客户、环境或密钥设置预算	将支出与责任挂钩

Flatkey 的定价页面在此阶段很有用，因为它为团队提供了当前的模型和定价审查路径，而产品层面则强调了用量计量、请求日志、用量分析和成本控制。在进行生产路由之前，请检查当前的 /pricing 页面，并确认实际工作流的模型行、端点系列和使用单位。

策略维度 4：能力匹配

模型路由策略设计应从所需能力开始。只有在路由能够完成工作后，价格和延迟才有意义。

为每个工作流评估以下能力：

能力	路由问题	验收测试
工具使用	路由是否正确调用了所需工具？	工具调用成功率和参数验证
结构化输出	路由是否满足模式（schema）要求？	有效的 JSON/模式率加上字段级准确性
长上下文	路由是否保留了指令和相关上下文？	使用预期的引文或字段进行长文档评估
视觉或文件	路由是否能处理实际的输入模态？	覆盖各种大小和格式的真实样本集
流式传输	路由是否保留了事件形态和恢复行为？	SSE/流式传输冒烟测试和超时处理
安全行为	路由是否能正确拒绝或上报？	红队提示词和拒绝/覆盖检查

OpenAI 的结构化输出文档建议，当应用程序需要可靠的结构时，使用有模式（schema）支持的输出。对于路由策略而言，这意味着不能仅仅因为一个路由更便宜，就在它无法满足输出合约的情况下用它来进行结构化提取。

策略维度 5：回退边界

回退并非天然就好。它可以挽救正常运行时间，但也可能改变行为、上下文处理、价格、数据边界、工具支持或输出形态。

将回退规则编写为明确的转换：

workflow: invoice_extraction
primary_route: extraction_schema_route
allowed_fallbacks:
  - extraction_schema_route_backup
blocked_fallbacks:
  - general_chat_route
  - creative_writing_route
fallback_triggers:
  retry_same_route_once:
    - transient_5xx
    - rate_limit
  stop_and_queue:
    - schema_invalid_after_retry
    - unsupported_file_type
    - compliance_flag
evidence:
  log_requested_model: true
  log_served_model: true
  log_fallback_reason: true
  log_usage_units: true

成熟的模型路由策略会将重试与回退分开。重试意味着“再次尝试相同的合约”。回退意味着“更改路由”。这种更改应该在日志中可见，并得到工作流所有者的接受。

策略维度 6：可观察性和计费证据

没有证据的路由纯属猜测。您的策略应定义每个生产请求必须公开的字段。

证据字段	为何应纳入策略
工作流名称	将支出和错误与业务流程关联
应用、团队、密钥或客户所有者	实现扣款和事件所有权
请求的模型和服务的模型	显示是否发生回退或路由替换
端点族	区分聊天、响应、图像、视频、Anthropic、Gemini 和其他路由形态
状态和错误类别	区分提供商错误、网关错误、策略中止和验证错误
使用量单位	让财务部门能够核对文本、缓存、图像、音频和视频的使用情况
成本或余额影响	将工程追踪转换为可审查的支出
回退原因	解释策略更改路由的原因

Flatkey 当前的公开定位符合这种证据需求：一个网关用于模型访问、路由、计费、使用分析和操作控制。在本文中，2026 年 7 月 2 日的实时定价 API 检查返回了 success: true，并公开了包括 openai、openai-response、anthropic、gemini、image-generation、openai-video 和 video 在内的端点族。请将其视为过时的源证据，而不是对每条路由、模型行或价格单位保持不变的承诺。

实用的模型路由策略模板

使用此模板作为您内部路由标准的第一个版本。

policy_name: customer_support_v1
owner:
  team: support_platform
  approver: product_and_finance
workflow:
  description: 分类、回答和上报支持请求
  environment: production
  data_sensitivity: customer_content
route_selection:
  primary_route: balanced_support_route
  required_capabilities:
    - tool_calling
    - structured_outputs
    - streaming
  blocked_routes:
    - experimental_models
    - unreviewed_provider_routes
latency:
  p95_first_token_ms: 1200
  p95_complete_ms: 7000
cost:
  max_cost_per_conversation: approved_budget
  owner_key: support_platform_prod
risk:
  human_review_required_when:
    - refund_exception
    - legal_or_policy_question
    - confidence_below_threshold
fallback:
  retry_same_route_once:
    - transient_error
    - rate_limit
  fallback_to_backup_route:
    - primary_route_unavailable
  stop_without_fallback:
    - safety_refusal
    - schema_invalid_after_retry
    - unapproved_data_region
evidence:
  required_logs:
    - workflow
    - requested_model
    - served_model
    - endpoint_family
    - route_status
    - usage_units
    - cost_or_balance
    - fallback_reason
acceptance_tests:
  min_eval_pass_rate: 0.95
  max_schema_error_rate: 0.01
  max_unreviewed_fallback_rate: 0

确切的路由名称会因团队而异。重要的是，该策略使模型选择、回退、成本、延迟和证据都可审查。