AI Gateway Architecture2026年7月2日Big Y

模型路由策略设计:为每个工作流匹配模型、成本、延迟和风险

设计一个模型路由策略,将 AI 工作流映射到模型路由、回退规则、成本上限、延迟 SLO、风险门控和证据检查。

模型路由策略设计:为每个工作流匹配模型、成本、延迟和风险

每个 AI 产品最终都会超越单一默认模型的范畴。支持机器人、代码审查器、发票提取器、图像提示助手和内部研究代理,它们对延迟目标、上下文预算、推理深度、工具行为、回退规则或审批流程的需求各不相同。模型路由策略将这些权衡转化为一份操作契约,而不是一堆临时的 model= 字符串。

目标不是选择一个“最佳”模型。目标是让模型的选择变得可审查。一个好的模型路由策略会告诉工程师应该使用哪种模型类别、何时增加开销、何时优化延迟、何时阻止回退,以及在工作流投入生产前必须具备哪些证据。

Flatkey 在此讨论中至关重要,因为当模型访问、密钥、请求日志、使用分析、定价审查和操作控制集中在一处时,路由会更容易管理。请将以下策略用作设计层,然后在生产部署前验证当前的 Flatkey 模型目录和定价页面。

模型路由策略设计一览表

从工作流类别开始,而不是提供商名称。下表是模型路由策略的第一个实用版本。

工作流类别主路由成本规则延迟规则风险规则回退规则所需证据
快速分类小型或低推理文本模型通过评估的最低成本严格的 p95 目标低业务风险可安全重试或降级准确率样本、p95 延迟、每 1000 次调用的成本
客户聊天支持工具的均衡模型按对话或账户设置上限低 p95 和稳定的流式传输中等风险仅回退到经过语气和工具行为测试的模型对话评估、拒绝检查、工具调用成功率、对话记录 QA
代码和技术推理强推理模型仅在困难任务上增加开销更宽松的延迟预算中到高风险回退到经过审查的对等路由,而不是弱模型任务评估、差异正确性、工具追踪、回滚路径
结构化提取支持模式(schema)的模型按有效记录进行优化批量或近实时中等风险回退前使用相同或更严格的路由重试模式验证率、字段准确率、错误分类
采购或财务审查固定的、经过审查的模型路由成本次于可审计性可接受异步处理高风险未经批准不得自动回退来源追踪、模型版本、请求日志、审查员签字
后台摘要成本更低或对批量处理友好的路由最小化每个被接受摘要的成本异步低到中等风险重试预算用尽后回退样本质量、重试率、缓存令牌指标

此表并非最终策略。它是一个决策界面。在成为生产路由之前,每一行都需要设置可衡量的门槛。

模型路由策略必须决定的事项

模型路由策略是一项书面规则,它将工作流映射到模型能力、成本上限、延迟 SLO、回退行为和证据要求。对于每个生产工作流,它应该回答以下六个问题:

  1. 工作流试图优化什么:速度、质量、成本、可靠性、安全性、模态、上下文长度还是可审计性?
  2. 需要哪些能力:工具调用、结构化输出、长上下文、图像输入、流式传输、低推理、高推理或特定于提供商的端点支持?
  3. 失败预算是多少:重试、回退、降级、排队、求助人工还是停止?
  4. 哪些可以自动更改:提供商、模型大小、推理强度、超时、路由组,还是什么都不能?
  5. 必须记录哪些内容:请求的模型、服务的模型、路由、状态、使用单位、成本、回退尝试和所有者?
  6. 发布前需要什么证明:评估分数、延迟样本、配额测试、计费追踪、安全审查或采购批准?

OpenAI 当前的 GPT-5.5 指南在这里很有用,因为它将 API 配置视为模型性能的一部分,而不是事后才考虑的问题。文档中指出,Responses API 状态处理、推理强度、详细程度、结构化输出、提示缓存、工具设计、托管工具和状态管理等因素都会影响智能、可靠性、延迟和成本。这正是模型路由策略应该保留的维度。

策略维度 1:工作流风险

风险是第一个路由划分依据,因为它控制着允许的自动化程度。

低风险工作流通常可以容忍重试、更便宜的路由和广泛的回退。例如内部标记、轻量级摘要、草稿建议和非关键性分类。这些是实施积极成本控制的理想选择,因为偶尔的重试或审查样本是可以接受的。

中等风险工作流需要更严格的验收测试。客户支持、工作流自动化、代码建议和销售辅助工具可能不要求每次都进行人工审查,但在发生错误时,确实需要进行语气检查、工具调用检查和路由证据。

高风险工作流应被更严格地固定。采购审查、法律摘要、财务审批、安全决策和受监管的工作流不应仅仅因为主路由缓慢就静默回退到不同的模型或提供商。模型路由策略应要求在回退改变风险状况之前获得明确批准。

简单的规则是:如果在出现不良结果后,有人会问“这到底是哪个模型回答的?”,那么该路由就需要更强的日志记录和更弱的自动回退。

策略维度 2:延迟和用户体验

延迟应纳入策略,因为同一个模型对于异步工作流可能是可以接受的,但对于交互式产品则可能无法接受。

对于交互式聊天,设置 p50、p95、超时和流式传输的预期。如果首个令牌生成时间(time-to-first-token)很重要,应将其与总完成时间分开衡量。对于后台任务,则应定义最大排队时间和完成截止日期。

不要设置像“使用快速模型”这样模糊的规则。应将模型路由策略编写为可测试的目标:

workflow: support_chat_triage
latency:
  p95_first_token_ms: 1200
  p95_complete_ms: 7000
  timeout_ms: 10000
fallback:
  on_timeout: use_reviewed_balanced_route
  on_schema_error: retry_same_route_once
  on_safety_or_policy_error: stop_and_escalate

OpenAI 的提示词缓存文档再次提醒我们,延迟不仅仅是模型选择的问题。稳定的提示词前缀、一致的缓存键和缓存命中监控可以显著改变重复工作负载的延迟和输入令牌成本。如果缓存是计划的一部分,应将其作为策略要求,并记录缓存令牌的指标。

策略维度 3:成本上限

成本控制应按每个工作流结果来表示,而不仅仅是按每个令牌。一个经常失败的廉价路由可能比一次就成功的更强路由成本更高。

使用三个成本限制:

限制示例重要性
每次请求单次请求、图像、视频任务或对话回合的最大成本防止单次调用给财务带来意外
每个工作流完成一个工单、提取、回答或文档的最大成本考虑了重试和回退
每个所有者按应用、团队、客户、环境或密钥设置预算将支出与责任挂钩

Flatkey 的定价页面在此阶段很有用,因为它为团队提供了当前的模型和定价审查路径,而产品层面则强调了用量计量、请求日志、用量分析和成本控制。在进行生产路由之前,请检查当前的 /pricing 页面,并确认实际工作流的模型行、端点系列和使用单位。

策略维度 4:能力匹配

模型路由策略设计应从所需能力开始。只有在路由能够完成工作后,价格和延迟才有意义。

为每个工作流评估以下能力:

能力路由问题验收测试
工具使用路由是否正确调用了所需工具?工具调用成功率和参数验证
结构化输出路由是否满足模式(schema)要求?有效的 JSON/模式率加上字段级准确性
长上下文路由是否保留了指令和相关上下文?使用预期的引文或字段进行长文档评估
视觉或文件路由是否能处理实际的输入模态?覆盖各种大小和格式的真实样本集
流式传输路由是否保留了事件形态和恢复行为?SSE/流式传输冒烟测试和超时处理
安全行为路由是否能正确拒绝或上报?红队提示词和拒绝/覆盖检查

OpenAI 的结构化输出文档建议,当应用程序需要可靠的结构时,使用有模式(schema)支持的输出。对于路由策略而言,这意味着不能仅仅因为一个路由更便宜,就在它无法满足输出合约的情况下用它来进行结构化提取。

策略维度 5:回退边界

回退并非天然就好。它可以挽救正常运行时间,但也可能改变行为、上下文处理、价格、数据边界、工具支持或输出形态。

将回退规则编写为明确的转换:

workflow: invoice_extraction
primary_route: extraction_schema_route
allowed_fallbacks:
  - extraction_schema_route_backup
blocked_fallbacks:
  - general_chat_route
  - creative_writing_route
fallback_triggers:
  retry_same_route_once:
    - transient_5xx
    - rate_limit
  stop_and_queue:
    - schema_invalid_after_retry
    - unsupported_file_type
    - compliance_flag
evidence:
  log_requested_model: true
  log_served_model: true
  log_fallback_reason: true
  log_usage_units: true

成熟的模型路由策略会将重试与回退分开。重试意味着“再次尝试相同的合约”。回退意味着“更改路由”。这种更改应该在日志中可见,并得到工作流所有者的接受。

策略维度 6:可观察性和计费证据

没有证据的路由纯属猜测。您的策略应定义每个生产请求必须公开的字段。

证据字段为何应纳入策略
工作流名称将支出和错误与业务流程关联
应用、团队、密钥或客户所有者实现扣款和事件所有权
请求的模型和服务的模型显示是否发生回退或路由替换
端点族区分聊天、响应、图像、视频、Anthropic、Gemini 和其他路由形态
状态和错误类别区分提供商错误、网关错误、策略中止和验证错误
使用量单位让财务部门能够核对文本、缓存、图像、音频和视频的使用情况
成本或余额影响将工程追踪转换为可审查的支出
回退原因解释策略更改路由的原因

Flatkey 当前的公开定位符合这种证据需求:一个网关用于模型访问、路由、计费、使用分析和操作控制。在本文中,2026 年 7 月 2 日的实时定价 API 检查返回了 success: true,并公开了包括 openaiopenai-responseanthropicgeminiimage-generationopenai-videovideo 在内的端点族。请将其视为过时的源证据,而不是对每条路由、模型行或价格单位保持不变的承诺。

实用的模型路由策略模板

使用此模板作为您内部路由标准的第一个版本。

policy_name: customer_support_v1
owner:
  team: support_platform
  approver: product_and_finance
workflow:
  description: 分类、回答和上报支持请求
  environment: production
  data_sensitivity: customer_content
route_selection:
  primary_route: balanced_support_route
  required_capabilities:
    - tool_calling
    - structured_outputs
    - streaming
  blocked_routes:
    - experimental_models
    - unreviewed_provider_routes
latency:
  p95_first_token_ms: 1200
  p95_complete_ms: 7000
cost:
  max_cost_per_conversation: approved_budget
  owner_key: support_platform_prod
risk:
  human_review_required_when:
    - refund_exception
    - legal_or_policy_question
    - confidence_below_threshold
fallback:
  retry_same_route_once:
    - transient_error
    - rate_limit
  fallback_to_backup_route:
    - primary_route_unavailable
  stop_without_fallback:
    - safety_refusal
    - schema_invalid_after_retry
    - unapproved_data_region
evidence:
  required_logs:
    - workflow
    - requested_model
    - served_model
    - endpoint_family
    - route_status
    - usage_units
    - cost_or_balance
    - fallback_reason
acceptance_tests:
  min_eval_pass_rate: 0.95
  max_schema_error_rate: 0.01
  max_unreviewed_fallback_rate: 0

确切的路由名称会因团队而异。重要的是,该策略使模型选择、回退、成本、延迟和证据都可审查。

生产前的验收测试

在未运行模拟正常和失败路径的测试之前,请勿发布模型路由策略。

  1. 通过主路由运行黄金数据集,并记录质量、模式有效性、延迟和使用情况。
  2. 触发速率限制或瞬时错误路径,并验证重试行为。
  3. 触发模式失败,并确认策略按规定进行重试、停止或上报。
  4. 触发被阻止的回退,并确认网关不会静默更改路由。
  5. 在日志中比较请求的模型、服务的模型、端点族和使用量单位。
  6. 检查财务部门是否能将相同的示例请求与成本、预付余额、发票或导出数据行进行核对。
  7. 运行回滚测试,固定到先前的路由或禁用回退。

要了解更深入的网关架构背景,请将此清单与 Flatkey 关于 AI API 网关LLM API 网关架构以及 AI API 负载均衡和故障转移的指南结合阅读。

Flatkey 的适用场景

Flatkey 不应取代策略,而应使策略更易于执行和审查。

当团队希望用一个密钥连接 AI 模型、需要一个当前的定价和模型目录审查路径、使用情况可见性、请求级证据、配额,以及比分散的提供商账户更简单的计费对话时,请使用 Flatkey。模型路由策略仍然需要所有者、验收测试、路由约束、回退规则和回滚计划。

一个实用的 Flatkey 验证运行如下所示:

  1. 选择一个类似生产环境的工作流和一个所有者密钥。
  2. Flatkey 定价页面上确认当前的模型行和端点族。
  3. 如果工作流使用,则发送正常、流式、结构化和受控失败的请求。
  4. 审查请求日志,查看请求的模型、服务的模型、状态、使用量单位和回退证据。
  5. 与工作流所有者确认配额行为以及成本或余额审查。
  6. 仅将测试过的路由移至生产环境,然后逐行扩展策略。

这使得模型路由策略基于真实证据,而非仅仅是架构图。

常见问题解答

什么是模型路由策略?

模型路由策略是一条书面规则,它将每个 AI 工作流映射到一个经批准的模型路由、能力要求、成本上限、延迟目标、回退行为和证据清单。

为什么不将每个请求都路由到最强的模型?

最强的路由通常比工作流所需的速度更慢、成本更高。模型路由策略允许低风险工作流使用高效路由,同时为复杂推理、敏感决策或高价值工作保留更强的路由。

何时应阻止回退?

当路由更改可能改变数据处理、合规状态、输出模式、工具行为、面向用户的质量或计费所有权时,应阻止回退。在这些情况下,应选择排队、重试或上报,而不是静默更改模型路由。

团队应多久更新一次模型路由策略?

每当模型目录、定价单位、端点行为、风险要求或评估结果发生变化时,都应进行审查。至少每季度以及在任何重大模型迁移后,都应审查活跃的生产策略。

首要关注的指标是什么?

关注每个已接受结果的成本,而不仅仅是每个令牌的成本。然后将其与 p95 延迟、回退率、模式有效率和请求级计费证据结合起来。

Flatkey 如何帮助设计模型路由策略?

Flatkey 可以为模型访问、定价审查、路由、使用分析、请求日志、配额和计费审查提供一个统一的网关界面。这为团队提供了一个实用的平台来验证模型路由策略是否按预期运行。

Flatkey 定价开始,选择一个工作流,然后获取密钥并运行一个小型验证,在生产部署前检查路由行为、日志、配额、成本、回退和回滚。

模型路由策略设计:为每个工作流匹配模型、成本、延迟和风险 | flatkey.ai