AI Gateway Architecture2 de julho de 2026Big Y

Design de Política de Roteamento de Modelos: Combine Modelo, Custo, Latência e Risco a Cada Fluxo de Trabalho

Crie uma política de roteamento de modelos que mapeia fluxos de trabalho de IA para rotas de modelo, regras de fallback, tetos de custo, SLOs de latência, portões de risco e verificações de evidências.

Todo produto de IA eventualmente supera um único modelo padrão. Um bot de suporte, revisor de código, extrator de faturas, assistente de prompt de imagem e agente de pesquisa interno não precisam do mesmo alvo de latência, orçamento de contexto, profundidade de raciocínio, comportamento de ferramenta, regra de fallback ou trilha de aprovação. Uma política de roteamento de modelos transforma essas compensações em um contrato operacional em vez de um amontoado de strings model= ad hoc.

O objetivo não é escolher um "melhor" modelo. O objetivo é tornar a escolha do modelo revisável. Uma boa política de roteamento de modelos informa aos engenheiros qual classe de modelo usar, quando gastar mais, quando otimizar para latência, quando bloquear o fallback e quais evidências devem existir antes que um fluxo de trabalho seja movido para a produção.

A Flatkey é importante nesta discussão porque o roteamento é mais fácil de governar quando o acesso ao modelo, chaves, logs de solicitação, análise de uso, revisão de preços e controles operacionais estão em um só lugar. Use a política abaixo como a camada de design e, em seguida, valide o catálogo de modelos e a página de preços atuais da Flatkey antes do lançamento em produção.

Design da política de roteamento de modelos em uma tabela

Comece com as classes de fluxo de trabalho, não com os nomes dos provedores. A tabela abaixo é a primeira versão prática para uma política de roteamento de modelos.

Classe do fluxo de trabalho	Rota primária	Regra de custo	Regra de latência	Regra de risco	Regra de fallback	Evidência necessária
Classificação rápida	Modelo de texto pequeno ou de baixo raciocínio	Custo mais baixo que passa nas avaliações	Alvo p95 restrito	Baixo risco de negócio	Seguro para tentar novamente ou fazer downgrade	Amostra de precisão, latência p95, custo por 1.000 chamadas
Chat com cliente	Modelo balanceado com suporte a ferramentas	Limite por conversa ou conta	p95 baixo e streaming estável	Risco médio	Fallback apenas para modelos com tom e comportamento de ferramenta testados	Avaliações de conversas, verificações de recusa, sucesso na chamada de ferramenta, QA de transcrição
Código e raciocínio técnico	Modelo de raciocínio forte	Gastar mais apenas em tarefas difíceis	Orçamento de latência mais flexível	Risco médio a alto	Fallback para rota de par revisada, não para um modelo fraco	Avaliações de tarefas, correção de diff, rastreamento de ferramenta, caminho de rollback
Extração estruturada	Modelo com suporte a esquema	Otimizar por registro válido	Em lote ou quase em tempo real	Risco médio	Tentar novamente com a mesma rota ou uma mais restrita antes do fallback	Taxa de esquema válido, precisão de campo, taxonomia de erros
Revisão de compras ou finanças	Rota de modelo revisada e fixada	Custo secundário à auditabilidade	Assíncrono aceitável	Alto risco	Sem fallback automático sem aprovação	Rastreamento de origem, versão do modelo, log de solicitação, aprovação do revisor
Resumo em segundo plano	Rota de menor custo ou amigável para lotes	Minimizar custo por resumo aceito	Assíncrono	Risco baixo a médio	Fallback após o esgotamento do orçamento de tentativas	Qualidade da amostra, taxa de tentativas, métricas de token em cache

Esta tabela não é a política final. É a superfície de decisão. Cada linha precisa de portões mensuráveis antes de se tornar um roteamento de produção.

O que uma política de roteamento de modelos deve decidir

Uma política de roteamento de modelos é uma regra escrita que mapeia um fluxo de trabalho para capacidades do modelo, tetos de custo, SLOs de latência, comportamento de fallback e requisitos de evidência. Ela deve responder a seis perguntas para cada fluxo de trabalho de produção:

O que o fluxo de trabalho está tentando otimizar: velocidade, qualidade, custo, confiabilidade, segurança, modalidade, comprimento do contexto ou auditabilidade?
Quais capacidades são necessárias: chamada de ferramenta, saída estruturada, contexto longo, entrada de imagem, streaming, baixo raciocínio, alto raciocínio ou suporte a endpoint específico do provedor?
Qual é o orçamento de falha: tentar novamente, fallback, degradar, enfileirar, perguntar a um humano ou parar?
O que pode mudar automaticamente: provedor, tamanho do modelo, esforço de raciocínio, tempo limite, grupo de rotas ou nada?
O que deve ser registrado: modelo solicitado, modelo servido, rota, status, unidades de uso, custo, tentativa de fallback e proprietário?
Que prova é necessária antes do lançamento: pontuação de avaliação, amostra de latência, teste de cota, rastreamento de faturamento, revisão de segurança ou aprovação de compras?

A orientação atual do GPT-5.5 da OpenAI é útil aqui porque trata a configuração da API como parte do desempenho do modelo, não como uma reflexão tardia. A documentação destaca o manuseio de estado da API de Respostas, esforço de raciocínio, verbosidade, saídas estruturadas, cache de prompt, design de ferramentas, ferramentas hospedadas e gerenciamento de estado como fatores que afetam a inteligência, confiabilidade, latência e custo. Esse é exatamente o tipo de dimensão que uma política de roteamento de modelos deve preservar.

Dimensão da política 1: risco do fluxo de trabalho

O risco é a primeira divisão de roteamento porque controla quanta automação é permitida.

Fluxos de trabalho de baixo risco geralmente podem tolerar novas tentativas, rotas mais baratas e fallback amplo. Exemplos incluem marcação interna, resumos leves, sugestões de rascunho e classificação não crítica. Estes são bons candidatos para controles de custo agressivos porque uma nova tentativa ocasional ou uma amostra de revisão é aceitável.

Fluxos de trabalho de risco médio precisam de testes de aceitação mais rigorosos. Suporte ao cliente, automação de fluxo de trabalho, sugestões de código e ferramentas de assistência de vendas podem não exigir revisão humana todas as vezes, mas exigem verificações de tom, verificações de chamada de ferramenta e evidências de rota quando ocorrem erros.

Fluxos de trabalho de alto risco devem ser fixados com mais rigor. Revisões de compras, resumos jurídicos, aprovações financeiras, decisões de segurança e fluxos de trabalho regulamentados não devem recorrer silenciosamente a um modelo ou provedor diferente apenas porque a rota primária está lenta. A política de roteamento de modelos deve exigir aprovação explícita antes que o fallback altere a postura de risco.

A regra simples: se um humano perguntasse "qual modelo realmente respondeu a isso?" após um resultado ruim, a rota precisa de um registro mais robusto e um fallback automático mais fraco.

Dimensão da política 2: latência e experiência do usuário

A latência pertence à política porque o mesmo modelo pode ser aceitável para um fluxo de trabalho assíncrono e inaceitável para um produto interativo.

Para chat interativo, defina as expectativas de p50, p95, tempo limite e streaming. Se o tempo para o primeiro token for importante, meça-o separadamente do tempo total de conclusão. Para tarefas em segundo plano, defina o tempo máximo de fila e o prazo de conclusão.

Não defina uma regra vaga como "use o modelo rápido." Escreva a política de roteamento de modelos como um alvo testável:

workflow: support_chat_triage
latency:
  p95_first_token_ms: 1200
  p95_complete_ms: 7000
  timeout_ms: 10000
fallback:
  on_timeout: use_reviewed_balanced_route
  on_schema_error: retry_same_route_once
  on_safety_or_policy_error: stop_and_escalate

A documentação de cache de prompts da OpenAI é outro lembrete de que a latência não se resume apenas à seleção do modelo. Prefixos de prompt estáveis, chaves de cache consistentes e monitoramento de acertos de cache podem alterar materialmente a latência e o custo de tokens de entrada para cargas de trabalho repetidas. Se o cache fizer parte do plano, torne-o um requisito da política e registre as métricas de tokens em cache.

Dimensão da política 3: tetos de custo

Os controles de custo devem ser expressos por resultado do fluxo de trabalho, não apenas por token. Uma rota barata que falha com frequência pode custar mais do que uma rota mais robusta que tem sucesso na primeira tentativa.

Use três limites de custo:

Limite	Exemplo	Por que é importante
Por solicitação	Custo máximo para uma solicitação, trabalho de imagem, vídeo ou turno	Evita que uma única chamada surpreenda o financeiro
Por fluxo de trabalho	Custo máximo para um ticket concluído, extração, resposta ou documento	Leva em conta novas tentativas e fallback
Por proprietário	Orçamento por aplicativo, equipe, cliente, ambiente ou chave	Mantém os gastos vinculados à responsabilidade

A página de preços da Flatkey é útil nesta fase porque oferece às equipes um caminho de revisão de modelos e preços atuais, enquanto a superfície do produto enfatiza a medição de uso, logs de solicitações, análise de uso e controles de custo. Antes do roteamento de produção, verifique a página /pricing atual e confirme a linha do modelo, a família de endpoints e a unidade de uso para o fluxo de trabalho real.

Dimensão da política 4: adequação da capacidade

O design da política de roteamento de modelos deve começar pelas capacidades necessárias. Preço e latência só importam depois que a rota puder realizar o trabalho.

Para cada fluxo de trabalho, pontue estas capacidades:

Capacidade	Pergunta da rota	Teste de aceitação
Uso de ferramentas	A rota chama as ferramentas necessárias corretamente?	Taxa de sucesso na chamada de ferramentas e validação de argumentos
Saída estruturada	A rota satisfaz o esquema?	Taxa de JSON/esquema válido mais precisão em nível de campo
Contexto longo	A rota preserva as instruções e o contexto relevante?	Avaliação de documento longo com citações ou campos esperados
Visão ou arquivos	A rota lida com a modalidade de entrada real?	Conjunto de amostras reais com cobertura de tamanho e formato
Streaming	A rota preserva a forma do evento e o comportamento de recuperação?	Teste de fumaça de SSE/streaming e tratamento de tempo limite
Comportamento de segurança	A rota recusa ou escala corretamente?	Prompts de red-team e verificações de recusa/substituição

A documentação de Saídas Estruturadas da OpenAI recomenda saídas baseadas em esquema quando a aplicação precisa de uma estrutura confiável. Para uma política de roteamento, isso significa que uma rota que não pode satisfazer o contrato de saída não deve ser usada para extração estruturada apenas por ser mais barata.

Dimensão da política 5: limites de fallback

O fallback não é automaticamente bom. Ele pode salvar o tempo de atividade, mas também pode alterar o comportamento, o tratamento do contexto, o preço, os limites de dados, o suporte a ferramentas ou a forma da saída.

Escreva as regras de fallback como transições explícitas:

workflow: invoice_extraction
primary_route: extraction_schema_route
allowed_fallbacks:
  - extraction_schema_route_backup
blocked_fallbacks:
  - general_chat_route
  - creative_writing_route
fallback_triggers:
  retry_same_route_once:
    - transient_5xx
    - rate_limit
  stop_and_queue:
    - schema_invalid_after_retry
    - unsupported_file_type
    - compliance_flag
evidence:
  log_requested_model: true
  log_served_model: true
  log_fallback_reason: true
  log_usage_units: true

Uma política de roteamento de modelos madura separa a nova tentativa do fallback. Nova tentativa significa "tentar o mesmo contrato novamente." Fallback significa "mudar a rota." Essa mudança deve ser visível nos logs e aceita pelo proprietário do fluxo de trabalho.

Dimensão da política 6: observabilidade e evidências de faturamento

Roteamento sem evidências é adivinhação. Sua política deve definir os campos que toda solicitação de produção deve expor.

Campo de evidência	Por que pertence à política
Nome do fluxo de trabalho	Conecta gastos e erros a um processo de negócio
Proprietário do aplicativo, equipe, chave ou cliente	Permite estorno e atribuição de incidentes
Modelo solicitado e modelo servido	Mostra se ocorreu fallback ou substituição de rota
Família de endpoints	Separa chat, respostas, imagem, vídeo, Anthropic, Gemini e outras formas de rota
Status e classe de erro	Distingue erros do provedor, erros do gateway, paradas de política e erros de validação
Unidades de uso	Permite que o financeiro reconcilie o uso de texto, cache, imagem, áudio e vídeo
Custo ou impacto no saldo	Converte rastreamentos de engenharia em gastos revisáveis
Motivo do fallback	Explica por que a política mudou de rota

O posicionamento público atual da Flatkey atende a essa necessidade de evidência: um gateway para acesso a modelos, roteamento, faturamento, análise de uso e controles operacionais. Para este artigo, a verificação da API de preços em tempo real em 2 de julho de 2026 retornou success: true e expôs famílias de endpoints, incluindo openai, openai-response, anthropic, gemini, image-generation, openai-video e video. Trate isso como uma evidência de fonte datada, não como uma promessa de que cada rota, linha de modelo ou unidade de preço permanecerá inalterada.

Um modelo prático de política de roteamento de modelos

Use este modelo como a primeira versão do seu padrão de roteamento interno.

policy_name: customer_support_v1
owner:
  team: support_platform
  approver: product_and_finance
workflow:
  description: classificar, responder e escalar solicitações de suporte
  environment: production
  data_sensitivity: customer_content
route_selection:
  primary_route: balanced_support_route
  required_capabilities:
    - tool_calling
    - structured_outputs
    - streaming
  blocked_routes:
    - experimental_models
    - unreviewed_provider_routes
latency:
  p95_first_token_ms: 1200
  p95_complete_ms: 7000
cost:
  max_cost_per_conversation: approved_budget
  owner_key: support_platform_prod
risk:
  human_review_required_when:
    - refund_exception
    - legal_or_policy_question
    - confidence_below_threshold
fallback:
  retry_same_route_once:
    - transient_error
    - rate_limit
  fallback_to_backup_route:
    - primary_route_unavailable
  stop_without_fallback:
    - safety_refusal
    - schema_invalid_after_retry
    - unapproved_data_region
evidence:
  required_logs:
    - workflow
    - requested_model
    - served_model
    - endpoint_family
    - route_status
    - usage_units
    - cost_or_balance
    - fallback_reason
acceptance_tests:
  min_eval_pass_rate: 0.95
  max_schema_error_rate: 0.01
  max_unreviewed_fallback_rate: 0

Os nomes exatos das rotas variarão por equipe. O importante é que a política torna a escolha do modelo, o fallback, o custo, a latência e a comprovação revisáveis.

Testes de aceitação antes da produção

Não envie uma política de roteamento de modelos sem executar testes que simulem caminhos normais e de falha.

Execute um conjunto de dados de referência (golden dataset) pela rota principal e registre a qualidade, validade do esquema, latência e uso.
Acione um caminho de limite de taxa ou erro transitório e verifique o comportamento de nova tentativa.
Acione uma falha de esquema e confirme se a política tenta novamente, para ou escala conforme escrito.
Acione um fallback bloqueado e confirme se o gateway não altera a rota silenciosamente.
Compare o modelo solicitado, o modelo servido, a família de endpoints e as unidades de uso nos logs.
Verifique se o financeiro pode reconciliar as mesmas solicitações de amostra com o custo, saldo pré-pago, fatura ou linhas de exportação.
Execute um teste de reversão (rollback) que fixe a rota anterior ou desative o fallback.

Para um contexto mais aprofundado sobre a arquitetura de gateway, combine esta lista de verificação com os guias da Flatkey sobre gateways de API de IA, arquitetura de gateway de API de LLM e balanceamento de carga e failover de API de IA.

Onde a Flatkey se encaixa

A Flatkey não deve substituir a política. Ela deve facilitar a aplicação e a revisão da política.

Use a Flatkey quando a equipe desejar uma única chave para modelos de IA conectados, um caminho de revisão do catálogo de modelos e preços atuais, visibilidade de uso, evidências em nível de solicitação, cotas e uma conversa de faturamento mais simples do que contas de provedores dispersas. A política de roteamento de modelos ainda precisa de proprietários, testes de aceitação, restrições de rota, regras de fallback e planos de reversão.

Uma execução de prova prática da Flatkey se parece com isto:

Escolha um fluxo de trabalho semelhante ao de produção e uma chave de proprietário.
Confirme a linha do modelo atual e a família de endpoints nos preços da Flatkey.
Envie solicitações normais, de streaming, estruturadas e de falha controlada se o fluxo de trabalho as utilizar.
Revise os logs de solicitação para o modelo solicitado, modelo servido, status, unidades de uso e evidência de fallback.
Confirme o comportamento da cota e a revisão de custo ou saldo com o proprietário do fluxo de trabalho.
Mova apenas a rota testada para a produção e, em seguida, expanda a política linha por linha.

Isso mantém a política de roteamento de modelos baseada em evidências reais, em vez de um diagrama de arquitetura.

FAQ

O que é uma política de roteamento de modelos?

Uma política de roteamento de modelos é uma regra escrita que mapeia cada fluxo de trabalho de IA para uma rota de modelo aprovada, requisitos de capacidade, teto de custo, meta de latência, comportamento de fallback e uma lista de verificação de evidências.

Por que não rotear todas as solicitações para o modelo mais forte?

A rota mais forte é frequentemente mais lenta e mais cara do que um fluxo de trabalho necessita. Uma política de roteamento de modelos permite que fluxos de trabalho de baixo risco usem rotas eficientes, enquanto preserva rotas mais fortes para raciocínio complexo, decisões sensíveis ou trabalho de alto valor.

Quando o fallback deve ser bloqueado?

Bloqueie o fallback quando uma mudança de rota puder alterar o manuseio de dados, a postura de conformidade, o esquema de saída, o comportamento da ferramenta, a qualidade voltada para o usuário ou a propriedade do faturamento. Nesses casos, coloque em fila, tente novamente ou escale em vez de alterar silenciosamente a rota do modelo.

Com que frequência as equipes devem atualizar uma política de roteamento de modelos?

Revise-a sempre que os catálogos de modelos, as unidades de precificação, o comportamento do endpoint, os requisitos de risco ou os resultados de avaliação mudarem. No mínimo, revise as políticas de produção ativas trimestralmente e após qualquer migração importante de modelo.

Qual é a primeira métrica a ser observada?

Observe o custo por resultado aceito, não apenas o custo por token. Em seguida, combine-o com a latência p95, a taxa de fallback, a taxa de esquema válido e a evidência de faturamento no nível da solicitação.

Como o Flatkey ajuda no design da política de roteamento de modelos?

O Flatkey pode fornecer uma única superfície de gateway para acesso a modelos, revisão de preços, roteamento, análise de uso, logs de solicitações, cotas e revisão de faturamento. Isso dá às equipes um lugar prático para validar se a política de roteamento de modelos está se comportando conforme o escrito.

Comece com os preços do Flatkey, escolha um fluxo de trabalho, depois obtenha uma chave e execute uma pequena prova que verifique o comportamento da rota, logs, cotas, custo, fallback e reversão antes do lançamento em produção.

Controles de Gateway de Agente de IA: Uso de Ferramentas, Orçamentos, Logs e Condições de Parada

2/07/2026Big Y

AI Gateway Architecture

Roteamento por Janela de Contexto: Escolha Modelos pelo Tamanho do Prompt sem Perder o Controle de Custos