AI Gateway Architecture2 de julho de 2026Big Y

Design de Política de Roteamento de Modelos: Combine Modelo, Custo, Latência e Risco a Cada Fluxo de Trabalho

Crie uma política de roteamento de modelos que mapeia fluxos de trabalho de IA para rotas de modelo, regras de fallback, tetos de custo, SLOs de latência, portões de risco e verificações de evidências.

Design de Política de Roteamento de Modelos: Combine Modelo, Custo, Latência e Risco a Cada Fluxo de Trabalho

Todo produto de IA eventualmente supera um único modelo padrão. Um bot de suporte, revisor de código, extrator de faturas, assistente de prompt de imagem e agente de pesquisa interno não precisam do mesmo alvo de latência, orçamento de contexto, profundidade de raciocínio, comportamento de ferramenta, regra de fallback ou trilha de aprovação. Uma política de roteamento de modelos transforma essas compensações em um contrato operacional em vez de um amontoado de strings model= ad hoc.

O objetivo não é escolher um "melhor" modelo. O objetivo é tornar a escolha do modelo revisável. Uma boa política de roteamento de modelos informa aos engenheiros qual classe de modelo usar, quando gastar mais, quando otimizar para latência, quando bloquear o fallback e quais evidências devem existir antes que um fluxo de trabalho seja movido para a produção.

A Flatkey é importante nesta discussão porque o roteamento é mais fácil de governar quando o acesso ao modelo, chaves, logs de solicitação, análise de uso, revisão de preços e controles operacionais estão em um só lugar. Use a política abaixo como a camada de design e, em seguida, valide o catálogo de modelos e a página de preços atuais da Flatkey antes do lançamento em produção.

Design da política de roteamento de modelos em uma tabela

Comece com as classes de fluxo de trabalho, não com os nomes dos provedores. A tabela abaixo é a primeira versão prática para uma política de roteamento de modelos.

Classe do fluxo de trabalhoRota primáriaRegra de custoRegra de latênciaRegra de riscoRegra de fallbackEvidência necessária
Classificação rápidaModelo de texto pequeno ou de baixo raciocínioCusto mais baixo que passa nas avaliaçõesAlvo p95 restritoBaixo risco de negócioSeguro para tentar novamente ou fazer downgradeAmostra de precisão, latência p95, custo por 1.000 chamadas
Chat com clienteModelo balanceado com suporte a ferramentasLimite por conversa ou contap95 baixo e streaming estávelRisco médioFallback apenas para modelos com tom e comportamento de ferramenta testadosAvaliações de conversas, verificações de recusa, sucesso na chamada de ferramenta, QA de transcrição
Código e raciocínio técnicoModelo de raciocínio forteGastar mais apenas em tarefas difíceisOrçamento de latência mais flexívelRisco médio a altoFallback para rota de par revisada, não para um modelo fracoAvaliações de tarefas, correção de diff, rastreamento de ferramenta, caminho de rollback
Extração estruturadaModelo com suporte a esquemaOtimizar por registro válidoEm lote ou quase em tempo realRisco médioTentar novamente com a mesma rota ou uma mais restrita antes do fallbackTaxa de esquema válido, precisão de campo, taxonomia de erros
Revisão de compras ou finançasRota de modelo revisada e fixadaCusto secundário à auditabilidadeAssíncrono aceitávelAlto riscoSem fallback automático sem aprovaçãoRastreamento de origem, versão do modelo, log de solicitação, aprovação do revisor
Resumo em segundo planoRota de menor custo ou amigável para lotesMinimizar custo por resumo aceitoAssíncronoRisco baixo a médioFallback após o esgotamento do orçamento de tentativasQualidade da amostra, taxa de tentativas, métricas de token em cache

Esta tabela não é a política final. É a superfície de decisão. Cada linha precisa de portões mensuráveis antes de se tornar um roteamento de produção.

O que uma política de roteamento de modelos deve decidir

Uma política de roteamento de modelos é uma regra escrita que mapeia um fluxo de trabalho para capacidades do modelo, tetos de custo, SLOs de latência, comportamento de fallback e requisitos de evidência. Ela deve responder a seis perguntas para cada fluxo de trabalho de produção:

  1. O que o fluxo de trabalho está tentando otimizar: velocidade, qualidade, custo, confiabilidade, segurança, modalidade, comprimento do contexto ou auditabilidade?
  2. Quais capacidades são necessárias: chamada de ferramenta, saída estruturada, contexto longo, entrada de imagem, streaming, baixo raciocínio, alto raciocínio ou suporte a endpoint específico do provedor?
  3. Qual é o orçamento de falha: tentar novamente, fallback, degradar, enfileirar, perguntar a um humano ou parar?
  4. O que pode mudar automaticamente: provedor, tamanho do modelo, esforço de raciocínio, tempo limite, grupo de rotas ou nada?
  5. O que deve ser registrado: modelo solicitado, modelo servido, rota, status, unidades de uso, custo, tentativa de fallback e proprietário?
  6. Que prova é necessária antes do lançamento: pontuação de avaliação, amostra de latência, teste de cota, rastreamento de faturamento, revisão de segurança ou aprovação de compras?

A orientação atual do GPT-5.5 da OpenAI é útil aqui porque trata a configuração da API como parte do desempenho do modelo, não como uma reflexão tardia. A documentação destaca o manuseio de estado da API de Respostas, esforço de raciocínio, verbosidade, saídas estruturadas, cache de prompt, design de ferramentas, ferramentas hospedadas e gerenciamento de estado como fatores que afetam a inteligência, confiabilidade, latência e custo. Esse é exatamente o tipo de dimensão que uma política de roteamento de modelos deve preservar.

Dimensão da política 1: risco do fluxo de trabalho

O risco é a primeira divisão de roteamento porque controla quanta automação é permitida.

Fluxos de trabalho de baixo risco geralmente podem tolerar novas tentativas, rotas mais baratas e fallback amplo. Exemplos incluem marcação interna, resumos leves, sugestões de rascunho e classificação não crítica. Estes são bons candidatos para controles de custo agressivos porque uma nova tentativa ocasional ou uma amostra de revisão é aceitável.

Fluxos de trabalho de risco médio precisam de testes de aceitação mais rigorosos. Suporte ao cliente, automação de fluxo de trabalho, sugestões de código e ferramentas de assistência de vendas podem não exigir revisão humana todas as vezes, mas exigem verificações de tom, verificações de chamada de ferramenta e evidências de rota quando ocorrem erros.

Fluxos de trabalho de alto risco devem ser fixados com mais rigor. Revisões de compras, resumos jurídicos, aprovações financeiras, decisões de segurança e fluxos de trabalho regulamentados não devem recorrer silenciosamente a um modelo ou provedor diferente apenas porque a rota primária está lenta. A política de roteamento de modelos deve exigir aprovação explícita antes que o fallback altere a postura de risco.

A regra simples: se um humano perguntasse "qual modelo realmente respondeu a isso?" após um resultado ruim, a rota precisa de um registro mais robusto e um fallback automático mais fraco.

Dimensão da política 2: latência e experiência do usuário

A latência pertence à política porque o mesmo modelo pode ser aceitável para um fluxo de trabalho assíncrono e inaceitável para um produto interativo.

Para chat interativo, defina as expectativas de p50, p95, tempo limite e streaming. Se o tempo para o primeiro token for importante, meça-o separadamente do tempo total de conclusão. Para tarefas em segundo plano, defina o tempo máximo de fila e o prazo de conclusão.

Não defina uma regra vaga como "use o modelo rápido." Escreva a política de roteamento de modelos como um alvo testável:

workflow: support_chat_triage
latency:
  p95_first_token_ms: 1200
  p95_complete_ms: 7000
  timeout_ms: 10000
fallback:
  on_timeout: use_reviewed_balanced_route
  on_schema_error: retry_same_route_once
  on_safety_or_policy_error: stop_and_escalate

A documentação de cache de prompts da OpenAI é outro lembrete de que a latência não se resume apenas à seleção do modelo. Prefixos de prompt estáveis, chaves de cache consistentes e monitoramento de acertos de cache podem alterar materialmente a latência e o custo de tokens de entrada para cargas de trabalho repetidas. Se o cache fizer parte do plano, torne-o um requisito da política e registre as métricas de tokens em cache.

Dimensão da política 3: tetos de custo

Os controles de custo devem ser expressos por resultado do fluxo de trabalho, não apenas por token. Uma rota barata que falha com frequência pode custar mais do que uma rota mais robusta que tem sucesso na primeira tentativa.

Use três limites de custo:

LimiteExemploPor que é importante
Por solicitaçãoCusto máximo para uma solicitação, trabalho de imagem, vídeo ou turnoEvita que uma única chamada surpreenda o financeiro
Por fluxo de trabalhoCusto máximo para um ticket concluído, extração, resposta ou documentoLeva em conta novas tentativas e fallback
Por proprietárioOrçamento por aplicativo, equipe, cliente, ambiente ou chaveMantém os gastos vinculados à responsabilidade

A página de preços da Flatkey é útil nesta fase porque oferece às equipes um caminho de revisão de modelos e preços atuais, enquanto a superfície do produto enfatiza a medição de uso, logs de solicitações, análise de uso e controles de custo. Antes do roteamento de produção, verifique a página /pricing atual e confirme a linha do modelo, a família de endpoints e a unidade de uso para o fluxo de trabalho real.

Dimensão da política 4: adequação da capacidade

O design da política de roteamento de modelos deve começar pelas capacidades necessárias. Preço e latência só importam depois que a rota puder realizar o trabalho.

Para cada fluxo de trabalho, pontue estas capacidades:

CapacidadePergunta da rotaTeste de aceitação
Uso de ferramentasA rota chama as ferramentas necessárias corretamente?Taxa de sucesso na chamada de ferramentas e validação de argumentos
Saída estruturadaA rota satisfaz o esquema?Taxa de JSON/esquema válido mais precisão em nível de campo
Contexto longoA rota preserva as instruções e o contexto relevante?Avaliação de documento longo com citações ou campos esperados
Visão ou arquivosA rota lida com a modalidade de entrada real?Conjunto de amostras reais com cobertura de tamanho e formato
StreamingA rota preserva a forma do evento e o comportamento de recuperação?Teste de fumaça de SSE/streaming e tratamento de tempo limite
Comportamento de segurançaA rota recusa ou escala corretamente?Prompts de red-team e verificações de recusa/substituição

A documentação de Saídas Estruturadas da OpenAI recomenda saídas baseadas em esquema quando a aplicação precisa de uma estrutura confiável. Para uma política de roteamento, isso significa que uma rota que não pode satisfazer o contrato de saída não deve ser usada para extração estruturada apenas por ser mais barata.

Dimensão da política 5: limites de fallback

O fallback não é automaticamente bom. Ele pode salvar o tempo de atividade, mas também pode alterar o comportamento, o tratamento do contexto, o preço, os limites de dados, o suporte a ferramentas ou a forma da saída.

Escreva as regras de fallback como transições explícitas:

workflow: invoice_extraction
primary_route: extraction_schema_route
allowed_fallbacks:
  - extraction_schema_route_backup
blocked_fallbacks:
  - general_chat_route
  - creative_writing_route
fallback_triggers:
  retry_same_route_once:
    - transient_5xx
    - rate_limit
  stop_and_queue:
    - schema_invalid_after_retry
    - unsupported_file_type
    - compliance_flag
evidence:
  log_requested_model: true
  log_served_model: true
  log_fallback_reason: true
  log_usage_units: true

Uma política de roteamento de modelos madura separa a nova tentativa do fallback. Nova tentativa significa "tentar o mesmo contrato novamente." Fallback significa "mudar a rota." Essa mudança deve ser visível nos logs e aceita pelo proprietário do fluxo de trabalho.

Dimensão da política 6: observabilidade e evidências de faturamento

Roteamento sem evidências é adivinhação. Sua política deve definir os campos que toda solicitação de produção deve expor.

Campo de evidênciaPor que pertence à política
Nome do fluxo de trabalhoConecta gastos e erros a um processo de negócio
Proprietário do aplicativo, equipe, chave ou clientePermite estorno e atribuição de incidentes
Modelo solicitado e modelo servidoMostra se ocorreu fallback ou substituição de rota
Família de endpointsSepara chat, respostas, imagem, vídeo, Anthropic, Gemini e outras formas de rota
Status e classe de erroDistingue erros do provedor, erros do gateway, paradas de política e erros de validação
Unidades de usoPermite que o financeiro reconcilie o uso de texto, cache, imagem, áudio e vídeo
Custo ou impacto no saldoConverte rastreamentos de engenharia em gastos revisáveis
Motivo do fallbackExplica por que a política mudou de rota

O posicionamento público atual da Flatkey atende a essa necessidade de evidência: um gateway para acesso a modelos, roteamento, faturamento, análise de uso e controles operacionais. Para este artigo, a verificação da API de preços em tempo real em 2 de julho de 2026 retornou success: true e expôs famílias de endpoints, incluindo openai, openai-response, anthropic, gemini, image-generation, openai-video e video. Trate isso como uma evidência de fonte datada, não como uma promessa de que cada rota, linha de modelo ou unidade de preço permanecerá inalterada.

Um modelo prático de política de roteamento de modelos

Use este modelo como a primeira versão do seu padrão de roteamento interno.

policy_name: customer_support_v1
owner:
  team: support_platform
  approver: product_and_finance
workflow:
  description: classificar, responder e escalar solicitações de suporte
  environment: production
  data_sensitivity: customer_content
route_selection:
  primary_route: balanced_support_route
  required_capabilities:
    - tool_calling
    - structured_outputs
    - streaming
  blocked_routes:
    - experimental_models
    - unreviewed_provider_routes
latency:
  p95_first_token_ms: 1200
  p95_complete_ms: 7000
cost:
  max_cost_per_conversation: approved_budget
  owner_key: support_platform_prod
risk:
  human_review_required_when:
    - refund_exception
    - legal_or_policy_question
    - confidence_below_threshold
fallback:
  retry_same_route_once:
    - transient_error
    - rate_limit
  fallback_to_backup_route:
    - primary_route_unavailable
  stop_without_fallback:
    - safety_refusal
    - schema_invalid_after_retry
    - unapproved_data_region
evidence:
  required_logs:
    - workflow
    - requested_model
    - served_model
    - endpoint_family
    - route_status
    - usage_units
    - cost_or_balance
    - fallback_reason
acceptance_tests:
  min_eval_pass_rate: 0.95
  max_schema_error_rate: 0.01
  max_unreviewed_fallback_rate: 0

Os nomes exatos das rotas variarão por equipe. O importante é que a política torna a escolha do modelo, o fallback, o custo, a latência e a comprovação revisáveis.

Testes de aceitação antes da produção

Não envie uma política de roteamento de modelos sem executar testes que simulem caminhos normais e de falha.

  1. Execute um conjunto de dados de referência (golden dataset) pela rota principal e registre a qualidade, validade do esquema, latência e uso.
  2. Acione um caminho de limite de taxa ou erro transitório e verifique o comportamento de nova tentativa.
  3. Acione uma falha de esquema e confirme se a política tenta novamente, para ou escala conforme escrito.
  4. Acione um fallback bloqueado e confirme se o gateway não altera a rota silenciosamente.
  5. Compare o modelo solicitado, o modelo servido, a família de endpoints e as unidades de uso nos logs.
  6. Verifique se o financeiro pode reconciliar as mesmas solicitações de amostra com o custo, saldo pré-pago, fatura ou linhas de exportação.
  7. Execute um teste de reversão (rollback) que fixe a rota anterior ou desative o fallback.

Para um contexto mais aprofundado sobre a arquitetura de gateway, combine esta lista de verificação com os guias da Flatkey sobre gateways de API de IA, arquitetura de gateway de API de LLM e balanceamento de carga e failover de API de IA.

Onde a Flatkey se encaixa

A Flatkey não deve substituir a política. Ela deve facilitar a aplicação e a revisão da política.

Use a Flatkey quando a equipe desejar uma única chave para modelos de IA conectados, um caminho de revisão do catálogo de modelos e preços atuais, visibilidade de uso, evidências em nível de solicitação, cotas e uma conversa de faturamento mais simples do que contas de provedores dispersas. A política de roteamento de modelos ainda precisa de proprietários, testes de aceitação, restrições de rota, regras de fallback e planos de reversão.

Uma execução de prova prática da Flatkey se parece com isto:

  1. Escolha um fluxo de trabalho semelhante ao de produção e uma chave de proprietário.
  2. Confirme a linha do modelo atual e a família de endpoints nos preços da Flatkey.
  3. Envie solicitações normais, de streaming, estruturadas e de falha controlada se o fluxo de trabalho as utilizar.
  4. Revise os logs de solicitação para o modelo solicitado, modelo servido, status, unidades de uso e evidência de fallback.
  5. Confirme o comportamento da cota e a revisão de custo ou saldo com o proprietário do fluxo de trabalho.
  6. Mova apenas a rota testada para a produção e, em seguida, expanda a política linha por linha.

Isso mantém a política de roteamento de modelos baseada em evidências reais, em vez de um diagrama de arquitetura.

FAQ

O que é uma política de roteamento de modelos?

Uma política de roteamento de modelos é uma regra escrita que mapeia cada fluxo de trabalho de IA para uma rota de modelo aprovada, requisitos de capacidade, teto de custo, meta de latência, comportamento de fallback e uma lista de verificação de evidências.

Por que não rotear todas as solicitações para o modelo mais forte?

A rota mais forte é frequentemente mais lenta e mais cara do que um fluxo de trabalho necessita. Uma política de roteamento de modelos permite que fluxos de trabalho de baixo risco usem rotas eficientes, enquanto preserva rotas mais fortes para raciocínio complexo, decisões sensíveis ou trabalho de alto valor.

Quando o fallback deve ser bloqueado?

Bloqueie o fallback quando uma mudança de rota puder alterar o manuseio de dados, a postura de conformidade, o esquema de saída, o comportamento da ferramenta, a qualidade voltada para o usuário ou a propriedade do faturamento. Nesses casos, coloque em fila, tente novamente ou escale em vez de alterar silenciosamente a rota do modelo.

Com que frequência as equipes devem atualizar uma política de roteamento de modelos?

Revise-a sempre que os catálogos de modelos, as unidades de precificação, o comportamento do endpoint, os requisitos de risco ou os resultados de avaliação mudarem. No mínimo, revise as políticas de produção ativas trimestralmente e após qualquer migração importante de modelo.

Qual é a primeira métrica a ser observada?

Observe o custo por resultado aceito, não apenas o custo por token. Em seguida, combine-o com a latência p95, a taxa de fallback, a taxa de esquema válido e a evidência de faturamento no nível da solicitação.

Como o Flatkey ajuda no design da política de roteamento de modelos?

O Flatkey pode fornecer uma única superfície de gateway para acesso a modelos, revisão de preços, roteamento, análise de uso, logs de solicitações, cotas e revisão de faturamento. Isso dá às equipes um lugar prático para validar se a política de roteamento de modelos está se comportando conforme o escrito.

Comece com os preços do Flatkey, escolha um fluxo de trabalho, depois obtenha uma chave e execute uma pequena prova que verifique o comportamento da rota, logs, cotas, custo, fallback e reversão antes do lançamento em produção.

Design de Política de Roteamento de Modelos: Combine Modelo, Custo, Latência e Risco a Cada Fluxo de Trabalho | flatkey.ai