AI Gateway Architecture2 de julio de 2026Big Y

Diseño de políticas de enrutamiento de modelos: Asignar modelo, costo, latencia y riesgo a cada flujo de trabajo

Diseña una política de enrutamiento de modelos que asigne los flujos de trabajo de IA a rutas de modelos, reglas de respaldo, límites de costo, SLO de latencia, controles de riesgo y verificaciones de evidencia.

Todo producto de IA acaba superando el uso de un único modelo por defecto. Un bot de soporte, un revisor de código, un extractor de facturas, un asistente de prompts de imágenes y un agente de investigación interno no necesitan el mismo objetivo de latencia, presupuesto de contexto, profundidad de razonamiento, comportamiento de las herramientas, regla de fallback o rastro de aprobación. Una política de enrutamiento de modelos convierte esas concesiones en un contrato operativo en lugar de un montón de cadenas model= ad hoc.

El objetivo no es elegir un único modelo "óptimo". El objetivo es que la elección del modelo sea revisable. Una buena política de enrutamiento de modelos indica a los ingenieros qué clase de modelo usar, cuándo gastar más, cuándo optimizar la latencia, cuándo bloquear el fallback y qué evidencia debe existir antes de que un flujo de trabajo pase a producción.

Flatkey es importante en este debate porque el enrutamiento es más fácil de gobernar cuando el acceso a los modelos, las claves, los registros de solicitudes, los análisis de uso, la revisión de precios y los controles operativos se encuentran en un solo lugar. Utilice la política que se describe a continuación como capa de diseño y, a continuación, valide el catálogo de modelos y la página de precios actuales de Flatkey antes del despliegue en producción.

Diseño de la política de enrutamiento de modelos en una tabla

Empiece con las clases de flujos de trabajo, no con los nombres de los proveedores. La siguiente tabla es el primer borrador práctico para una política de enrutamiento de modelos.

Clase de flujo de trabajo	Ruta principal	Regla de costo	Regla de latencia	Regla de riesgo	Regla de fallback	Evidencia requerida
Clasificación rápida	Modelo de texto pequeño o de bajo razonamiento	El costo más bajo que supere las evaluaciones	Objetivo p95 estricto	Bajo riesgo empresarial	Seguro para reintentar o degradar	Muestra de precisión, latencia p95, costo por cada 1000 llamadas
Chat con clientes	Modelo equilibrado con soporte para herramientas	Límite por conversación o cuenta	p95 bajo y streaming estable	Riesgo medio	Fallback solo a modelos con tono y comportamiento de herramientas probados	Evaluaciones de conversación, comprobaciones de rechazo, éxito de llamadas a herramientas, control de calidad de transcripciones
Código y razonamiento técnico	Modelo de razonamiento potente	Gastar más solo en tareas difíciles	Presupuesto de latencia más flexible	Riesgo medio a alto	Fallback a una ruta homóloga revisada, no a un modelo débil	Evaluaciones de tareas, corrección de diff, seguimiento de herramientas, ruta de reversión
Extracción estructurada	Modelo con soporte para esquemas	Optimizar por registro válido	Por lotes o casi en tiempo real	Riesgo medio	Reintentar con una ruta igual o más estricta antes del fallback	Tasa de esquemas válidos, precisión de campo, taxonomía de errores
Revisión de adquisiciones o finanzas	Ruta de modelo revisada y fijada	Costo secundario a la auditabilidad	Asíncrono aceptable	Riesgo alto	Sin fallback automático sin aprobación	Seguimiento de origen, versión del modelo, registro de solicitudes, aprobación del revisor
Resumen en segundo plano	Ruta de menor costo o compatible con lotes	Minimizar el costo por resumen aceptado	Asíncrono	Riesgo bajo a medio	Fallback después de agotar el presupuesto de reintentos	Calidad de la muestra, tasa de reintentos, métricas de tokens en caché

Esta tabla no es la política final. Es la superficie de decisión. Cada fila necesita puertas medibles antes de convertirse en enrutamiento de producción.

Qué debe decidir una política de enrutamiento de modelos

Una política de enrutamiento de modelos es una regla escrita que asigna un flujo de trabajo a las capacidades del modelo, los límites de costo, los SLO de latencia, el comportamiento de fallback y los requisitos de evidencia. Debe responder a seis preguntas para cada flujo de trabajo de producción:

¿Qué intenta optimizar el flujo de trabajo: velocidad, calidad, costo, fiabilidad, seguridad, modalidad, longitud del contexto o auditabilidad?
¿Qué capacidades se requieren: llamada a herramientas, salida estructurada, contexto largo, entrada de imágenes, streaming, razonamiento bajo, razonamiento alto o soporte de endpoints específicos del proveedor?
¿Cuál es el presupuesto para fallos: reintentar, fallback, degradar, encolar, preguntar a un humano o detenerse?
¿Qué puede cambiar automáticamente: proveedor, tamaño del modelo, esfuerzo de razonamiento, tiempo de espera, grupo de rutas o nada?
¿Qué debe registrarse: modelo solicitado, modelo servido, ruta, estado, unidades de uso, costo, intento de fallback y propietario?
¿Qué prueba se necesita antes del lanzamiento: puntuación de evaluación, muestra de latencia, prueba de cuota, seguimiento de facturación, revisión de seguridad o aprobación de adquisiciones?

La guía actual de GPT-5.5 de OpenAI es útil aquí porque trata la configuración de la API como parte del rendimiento del modelo, no como una ocurrencia tardía. La documentación destaca el manejo del estado de la API de respuestas, el esfuerzo de razonamiento, la verbosidad, las salidas estructuradas, el almacenamiento en caché de prompts, el diseño de herramientas, las herramientas alojadas y la gestión de estado como factores que afectan la inteligencia, la fiabilidad, la latencia y el costo. Ese es exactamente el tipo de dimensión que una política de enrutamiento de modelos debe preservar.

Dimensión de la política 1: riesgo del flujo de trabajo

El riesgo es la primera división del enrutamiento porque controla cuánta automatización se permite.

Los flujos de trabajo de bajo riesgo suelen tolerar reintentos, rutas más baratas y un fallback amplio. Algunos ejemplos son el etiquetado interno, los resúmenes ligeros, las sugerencias de borradores y la clasificación no crítica. Estos son buenos candidatos para controles de costos agresivos porque un reintento ocasional o una muestra de revisión es aceptable.

Los flujos de trabajo de riesgo medio necesitan pruebas de aceptación más estrictas. El soporte al cliente, la automatización de flujos de trabajo, las sugerencias de código y las herramientas de asistencia de ventas pueden no requerir una revisión humana cada vez, pero sí requieren comprobaciones de tono, comprobaciones de llamadas a herramientas y evidencia de la ruta cuando se producen errores.

Los flujos de trabajo de alto riesgo deben estar fijados de forma más estricta. Las revisiones de adquisiciones, los resúmenes legales, las aprobaciones financieras, las decisiones de seguridad y los flujos de trabajo regulados no deberían recurrir silenciosamente a un modelo o proveedor diferente solo porque la ruta principal sea lenta. La política de enrutamiento de modelos debe requerir una aprobación explícita antes de que el fallback cambie la postura de riesgo.

La regla simple: si un humano preguntara "¿qué modelo respondió realmente a esto?" después de un mal resultado, la ruta necesita un registro más sólido y un fallback automático más débil.

Dimensión de la política 2: latencia y experiencia del usuario

La latencia pertenece a la política porque el mismo modelo puede ser aceptable para un flujo de trabajo asíncrono e inaceptable para un producto interactivo.

Para el chat interactivo, establece las expectativas de p50, p95, tiempo de espera y streaming. Si el tiempo hasta el primer token es importante, mídelo por separado del tiempo total de finalización. Para las tareas en segundo plano, define en su lugar el tiempo máximo de cola y el plazo de finalización.

No establezcas una regla vaga como "usar el modelo rápido". Escribe la política de enrutamiento de modelos como un objetivo comprobable:

workflow: support_chat_triage
latency:
  p95_first_token_ms: 1200
  p95_complete_ms: 7000
  timeout_ms: 10000
fallback:
  on_timeout: use_reviewed_balanced_route
  on_schema_error: retry_same_route_once
  on_safety_or_policy_error: stop_and_escalate

Los documentos de almacenamiento en caché de prompts de OpenAI son otro recordatorio de que la latencia no es solo la selección del modelo. Los prefijos de prompt estables, las claves de caché consistentes y el monitoreo de aciertos de caché pueden cambiar materialmente la latencia y el costo de los tokens de entrada para cargas de trabajo repetidas. Si el almacenamiento en caché es parte del plan, conviértelo en un requisito de la política y registra las métricas de tokens almacenados en caché.

Dimensión de la política 3: límites de costo

Los controles de costos deben expresarse por resultado del flujo de trabajo, no solo por token. Una ruta barata que falla a menudo puede costar más que una ruta más robusta que tiene éxito en el primer intento.

Usa tres límites de costo:

Límite	Ejemplo	Por qué es importante
Por solicitud	Costo máximo para una solicitud, trabajo de imagen, video o turno	Evita que una sola llamada sorprenda a finanzas
Por flujo de trabajo	Costo máximo para un ticket completado, extracción, respuesta o documento	Tiene en cuenta los reintentos y el fallback
Por propietario	Presupuesto por aplicación, equipo, cliente, entorno o clave	Mantiene el gasto vinculado a la responsabilidad

La página de precios de Flatkey es útil durante esta etapa porque proporciona a los equipos una ruta de revisión de modelos y precios actuales, mientras que la superficie del producto enfatiza la medición del uso, los registros de solicitudes, el análisis de uso y los controles de costos. Antes del enrutamiento de producción, verifica la página /pricing actual y confirma la fila del modelo, la familia de endpoints y la unidad de uso para el flujo de trabajo real.

Dimensión de la política 4: adecuación de la capacidad

El diseño de la política de enrutamiento de modelos debe comenzar a partir de las capacidades requeridas. El precio y la latencia solo importan después de que la ruta pueda hacer el trabajo.

Para cada flujo de trabajo, califica estas capacidades:

Capacidad	Pregunta de la ruta	Prueba de aceptación
Uso de herramientas	¿La ruta llama a las herramientas requeridas correctamente?	Tasa de éxito de llamadas a herramientas y validación de argumentos
Salida estructurada	¿La ruta satisface el esquema?	Tasa de JSON/esquema válido más precisión a nivel de campo
Contexto largo	¿La ruta preserva las instrucciones y el contexto relevante?	Evaluación de documentos largos con citas o campos esperados
Visión o archivos	¿La ruta maneja la modalidad de entrada real?	Conjunto de muestras reales con cobertura de tamaño y formato
Streaming	¿La ruta preserva la forma del evento y el comportamiento de recuperación?	Prueba de humo de SSE/streaming y manejo de timeouts
Comportamiento de seguridad	¿La ruta rechaza o escala correctamente?	Prompts de equipo rojo y verificaciones de rechazo/anulación

Los documentos de Salidas Estructuradas de OpenAI recomiendan una salida respaldada por un esquema cuando la aplicación necesita una estructura confiable. Para una política de enrutamiento, eso significa que una ruta que no puede satisfacer el contrato de salida no debe usarse para la extracción estructurada solo porque es más barata.

Dimensión de la política 5: límites del fallback

El fallback no es automáticamente bueno. Puede rescatar el tiempo de actividad, pero también puede cambiar el comportamiento, el manejo del contexto, el precio, los límites de los datos, el soporte de herramientas o la forma de la salida.

Escribe las reglas de fallback como transiciones explícitas:

workflow: invoice_extraction
primary_route: extraction_schema_route
allowed_fallbacks:
  - extraction_schema_route_backup
blocked_fallbacks:
  - general_chat_route
  - creative_writing_route
fallback_triggers:
  retry_same_route_once:
    - transient_5xx
    - rate_limit
  stop_and_queue:
    - schema_invalid_after_retry
    - unsupported_file_type
    - compliance_flag
evidence:
  log_requested_model: true
  log_served_model: true
  log_fallback_reason: true
  log_usage_units: true

Una política de enrutamiento de modelos madura separa el reintento del fallback. Reintento significa "intentar el mismo contrato de nuevo". Fallback significa "cambiar la ruta". Ese cambio debe ser visible en los registros y aceptado por el propietario del flujo de trabajo.

Dimensión de la política 6: observabilidad y evidencia de facturación

El enrutamiento sin evidencia es una conjetura. Tu política debe definir los campos que cada solicitud de producción debe exponer.

Campo de evidencia	Por qué pertenece a la política
Nombre del flujo de trabajo	Conecta el gasto y los errores con un proceso de negocio
Propietario de la aplicación, equipo, clave o cliente	Permite la atribución de contracargos e incidentes
Modelo solicitado y modelo servido	Muestra si ocurrió un fallback o una sustitución de ruta
Familia de endpoints	Separa chat, respuestas, imagen, video, Anthropic, Gemini y otras formas de ruta
Estado y clase de error	Distingue entre errores del proveedor, errores del gateway, detenciones por política y errores de validación
Unidades de uso	Permite a finanzas conciliar el uso de texto, caché, imagen, audio y video
Costo o impacto en el saldo	Convierte los seguimientos de ingeniería en gastos revisables
Motivo del fallback	Explica por qué la política cambió de ruta

El posicionamiento público actual de Flatkey se ajusta a esta necesidad de evidencia: un gateway para el acceso a modelos, enrutamiento, facturación, análisis de uso y controles operativos. Para este artículo, la verificación de la API de precios en tiempo real el 2 de julio de 2026 devolvió success: true y expuso familias de endpoints que incluyen openai, openai-response, anthropic, gemini, image-generation, openai-video y video. Considere esto como evidencia de una fuente fechada, no como una promesa de que cada ruta, fila de modelo o unidad de precio permanecerá sin cambios.

Una plantilla práctica de política de enrutamiento de modelos

Utilice esta plantilla como la primera versión de su estándar de enrutamiento interno.

policy_name: customer_support_v1
owner:
  team: support_platform
  approver: product_and_finance
workflow:
  description: clasificar, responder y escalar solicitudes de soporte
  environment: production
  data_sensitivity: customer_content
route_selection:
  primary_route: balanced_support_route
  required_capabilities:
    - tool_calling
    - structured_outputs
    - streaming
  blocked_routes:
    - experimental_models
    - unreviewed_provider_routes
latency:
  p95_first_token_ms: 1200
  p95_complete_ms: 7000
cost:
  max_cost_per_conversation: approved_budget
  owner_key: support_platform_prod
risk:
  human_review_required_when:
    - refund_exception
    - legal_or_policy_question
    - confidence_below_threshold
fallback:
  retry_same_route_once:
    - transient_error
    - rate_limit
  fallback_to_backup_route:
    - primary_route_unavailable
  stop_without_fallback:
    - safety_refusal
    - schema_invalid_after_retry
    - unapproved_data_region
evidence:
  required_logs:
    - workflow
    - requested_model
    - served_model
    - endpoint_family
    - route_status
    - usage_units
    - cost_or_balance
    - fallback_reason
acceptance_tests:
  min_eval_pass_rate: 0.95
  max_schema_error_rate: 0.01
  max_unreviewed_fallback_rate: 0

Los nombres exactos de las rutas diferirán según el equipo. La parte importante es que la política hace que la elección del modelo, el fallback, el costo, la latencia y la prueba sean revisables.

Pruebas de aceptación antes de la producción

No implemente una política de enrutamiento de modelos sin ejecutar pruebas que simulen rutas normales y de fallo.

Ejecute un conjunto de datos de referencia (golden dataset) a través de la ruta principal y registre la calidad, la validez del esquema, la latencia y el uso.
Active una ruta de límite de velocidad o de error transitorio y verifique el comportamiento de reintento.
Provoque un fallo de esquema y confirme que la política reintenta, se detiene o escala según lo escrito.
Active un fallback bloqueado y confirme que el gateway no cambia de ruta silenciosamente.
Compare el modelo solicitado, el modelo servido, la familia de endpoints y las unidades de uso en los registros.
Verifique si el departamento de finanzas puede conciliar las mismas solicitudes de muestra con el costo, el saldo prepago, la factura o las filas de exportación.
Ejecute una prueba de reversión (rollback) que fije la ruta anterior o deshabilite el fallback.

Para un contexto más profundo sobre la arquitectura de gateways, combine esta lista de verificación con las guías de Flatkey sobre gateways de API de IA, arquitectura de gateways de API de LLM y balanceo de carga y conmutación por error de API de IA.

Dónde encaja Flatkey

Flatkey no debe reemplazar la política. Debe hacer que la política sea más fácil de aplicar y revisar.

Use Flatkey cuando el equipo quiera una única clave para los modelos de IA conectados, una ruta de revisión del catálogo de modelos y precios actuales, visibilidad del uso, evidencia a nivel de solicitud, cuotas y una conversación de facturación más simple que con cuentas de proveedores dispersas. La política de enrutamiento de modelos todavía necesita propietarios, pruebas de aceptación, restricciones de ruta, reglas de fallback y planes de reversión.

Una prueba de concepto práctica de Flatkey se ve así:

Elija un flujo de trabajo similar al de producción y una clave de propietario.
Confirme la fila del modelo actual y la familia de endpoints en los precios de Flatkey.
Envíe solicitudes normales, de streaming, estructuradas y de fallo controlado si el flujo de trabajo las utiliza.
Revise los registros de solicitudes para el modelo solicitado, el modelo servido, el estado, las unidades de uso y la evidencia de fallback.
Confirme el comportamiento de la cuota y la revisión del costo o saldo con el propietario del flujo de trabajo.
Mueva solo la ruta probada a producción, luego expanda la política fila por fila.

Esto mantiene la política de enrutamiento de modelos basada en evidencia real en lugar de en un diagrama de arquitectura.

Preguntas frecuentes

¿Qué es una política de enrutamiento de modelos?

Una política de enrutamiento de modelos es una regla escrita que asigna cada flujo de trabajo de IA a una ruta de modelo aprobada, requisitos de capacidad, techo de costo, objetivo de latencia, comportamiento de fallback y una lista de verificación de evidencia.

¿Por qué no enrutar cada solicitud al modelo más potente?

La ruta más potente suele ser más lenta y costosa de lo que un flujo de trabajo necesita. Una política de enrutamiento de modelos permite que los flujos de trabajo de bajo riesgo utilicen rutas eficientes, al tiempo que se conservan rutas más potentes para el razonamiento complejo, las decisiones delicadas o el trabajo de alto valor.

¿Cuándo se debe bloquear el fallback?

Bloquee el fallback cuando un cambio de ruta pueda alterar el manejo de datos, la postura de cumplimiento, el esquema de salida, el comportamiento de la herramienta, la calidad de cara al usuario o la propiedad de la facturación. En esos casos, ponga en cola, reintente o escale en lugar de cambiar silenciosamente la ruta del modelo.

¿Con qué frecuencia deben los equipos actualizar una política de enrutamiento de modelos?

Revísela cada vez que cambien los catálogos de modelos, las unidades de precios, el comportamiento de los endpoints, los requisitos de riesgo o los resultados de las evaluaciones. Como mínimo, revise las políticas de producción activas trimestralmente y después de cualquier migración importante de modelos.

¿Cuál es la primera métrica que se debe observar?

Observe el costo por resultado aceptado, no solo el costo por token. Luego, combínelo con la latencia p95, la tasa de fallback, la tasa de esquemas válidos y la evidencia de facturación a nivel de solicitud.

¿Cómo ayuda Flatkey con el diseño de políticas de enrutamiento de modelos?

Flatkey puede proporcionar una única superficie de gateway para el acceso a modelos, la revisión de precios, el enrutamiento, el análisis de uso, los registros de solicitudes, las cuotas y la revisión de la facturación. Esto proporciona a los equipos un lugar práctico para validar si la política de enrutamiento de modelos se está comportando según lo escrito.

Comience con los precios de Flatkey, elija un flujo de trabajo, luego obtenga una clave y ejecute una pequeña prueba que verifique el comportamiento de la ruta, los registros, las cuotas, el costo, el fallback y el rollback antes del despliegue en producción.

Controles del Gateway de Agentes de IA: Uso de herramientas, presupuestos, registros y condiciones de detención

2 jul 2026Big Y

AI Gateway Architecture

Context Window Routing: Elige modelos por tamaño de prompt sin perder el control de costes