AI Gateway Architecture2 de julio de 2026Big Y

Controles del Gateway de Agentes de IA: Uso de herramientas, presupuestos, registros y condiciones de detención

Utiliza los controles del gateway de agentes de IA para gestionar el acceso a herramientas, los presupuestos, los registros de solicitudes, el comportamiento de respaldo y las condiciones de detención antes de que los agentes lleguen a producción.

Los controles del gateway de agentes de IA son las reglas operativas que deciden qué puede invocar un agente, cuánto puede gastar, qué evidencia debe registrarse y cuándo la ejecución debe pausarse, recurrir a un plan B o detenerse. Sin esos controles, un gateway de agentes se convierte en una forma más rápida de ocultar la proliferación de herramientas, el gasto descontrolado de tokens y los fallos de producción poco claros.

El objetivo no es envolver a cada agente en un proceso. El objetivo es hacer que el comportamiento del agente sea inspeccionable antes de que llegue a los usuarios de producción. Un agente de soporte que puede buscar pedidos, un agente de codificación que puede editar archivos y un agente de finanzas que puede comparar facturas no deberían compartir el mismo acceso a herramientas, presupuesto, registro o política de detención.

Utilice esta guía para diseñar los controles del gateway de agentes de IA como políticas, campos de evidencia y pruebas de aceptación. Luego, valide el modelo actual de Flatkey, el enrutamiento, el uso y la evidencia de facturación en la página de precios de Flatkey antes de su implementación.

Los controles del gateway de agentes de IA comienzan con un límite de política

Un gateway de agentes se sitúa entre los entornos de ejecución de los agentes, las API de los modelos, las herramientas internas y la revisión financiera. Eso lo convierte en un buen lugar para estandarizar cuatro decisiones:

Área de control	Pregunta del gateway	Evidencia de producción
Uso de herramientas	¿Qué herramientas puede invocar este flujo de trabajo, con qué argumentos y bajo la aprobación de quién?	Nombre de la herramienta, versión del esquema, argumentos, estado de aprobación, estado del resultado
Presupuestos	¿Cuánto gasto en entrada, salida, razonamiento, herramientas, reintentos y planes B está permitido?	Recuentos de tokens, coste de la solicitud, clave del propietario, resultado del presupuesto, gasto en planes B
Registros	¿Qué sucedió, qué ruta lo atendió y qué se puede revisar más tarde?	ID de la solicitud, flujo de trabajo, modelo, ruta, invocaciones de herramientas, motivo de la detención, código de error
Condiciones de detención	¿Cuándo debería la ejecución finalizar, reintentar, solicitar aprobación, recurrir a un plan B o fallar de forma segura?	Condición de detención, motivo del plan B, decisión del revisor, estado final

Estos controles del gateway de agentes de IA deben revisarse como una política de infraestructura, no como el texto de un prompt. El prompt puede explicar la intención, pero la política del gateway debe hacer cumplir lo que sucede cuando el modelo solicita una herramienta sensible, excede un presupuesto, recibe un resultado de herramienta inesperado o entra en bucle.

Controles de uso de herramientas: permita menos herramientas de las que el agente conoce

La invocación de herramientas es potente porque conecta los modelos con sistemas reales. También es donde un agente pasa de la sugerencia a la acción. La documentación sobre la invocación de funciones de OpenAI describe las invocaciones de herramientas como un flujo de varios pasos: el modelo solicita una herramienta, su aplicación la ejecuta y el resultado de la herramienta se devuelve al modelo. La documentación sobre el uso de herramientas de Anthropic describe de manera similar cómo Claude devuelve bloques tool_use, siendo el código de la aplicación responsable de la ejecución. La invocación de funciones de Google Gemini también depende de funciones declaradas e invocaciones de funciones generadas por el modelo.

Ese patrón común es importante para los controles del gateway de agentes de IA: el modelo no debe ejecutar la herramienta directamente. Su gateway o entorno de ejecución debe decidir si la herramienta solicitada está permitida, si los argumentos coinciden con la política, si se requiere aprobación y si es seguro devolver el resultado de la herramienta.

Utilice una política de herramientas de tres capas:

Catálogo de herramientas: el conjunto completo de herramientas que existen en la organización.
Lista de permitidos del flujo de trabajo: el conjunto más pequeño de herramientas que una ruta de agente específica puede invocar.
Restricción a nivel de turno: las herramientas disponibles para esta solicitud después de las comprobaciones de rol, inquilino, entorno, presupuesto y riesgo.

Por ejemplo, un agente de atención al cliente puede tener acceso a lookup_order, search_policy y open_ticket en modo normal. No debería recibir issue_refund, cancel_contract o delete_account hasta que el flujo de trabajo alcance una ruta de escalada aprobada.

El control debe ser explícito:

workflow: support_resolution_agent
tool_policy:
  default_mode: deny
  allowed_tools:
    - lookup_order
    - search_policy
    - open_ticket
  approval_required:
    - issue_refund
    - cancel_subscription
  blocked_tools:
    - export_customer_database
schema_rules:
  require_strict_arguments: true
  reject_unknown_fields: true
  log_redacted_arguments: true
on_violation:
  action: stop
  user_message: ask_for_human_review

La guía de invocación de funciones de OpenAI recomienda descripciones de funciones claras, esquemas JSON, modo estricto donde sea compatible y mantener un número reducido de funciones disponibles inicialmente. Eso no es solo un consejo para el rendimiento del modelo. También es un control del gateway de agentes: menos herramientas expuestas significa menos estados no válidos que revisar después de un incidente.

Controles de presupuesto: limite toda la ejecución, no solo una invocación al modelo

El coste de un agente rara vez proviene de una única solicitud limpia. Proviene de los esquemas de las herramientas, el historial de la conversación, el contexto de recuperación, los tokens de razonamiento, los resultados de las herramientas, los reintentos, los modelos de respaldo y los intentos repetidos tras fallos parciales.

Los controles de presupuesto del gateway de agentes de IA deben cubrir toda la ejecución:

Superficie del presupuesto	Qué limitar	Por qué es importante
Presupuesto de solicitud	tokens de entrada, tokens de salida, tokens de razonamiento, llamadas máximas al modelo	Evitar que un solo turno se convierta en un evento de gasto sorpresa
Presupuesto de herramientas	número de llamadas a herramientas, tamaño del resultado de la herramienta, gasto en API externas	Evitar bucles de herramientas y extracciones de datos costosas
Presupuesto de reintentos	número de reintentos, códigos de estado reintentables, ventana de backoff	Separar la resiliencia de la repetición incontrolada
Presupuesto de respaldo	número de modelos de respaldo, techo de costo de respaldo, motivo del respaldo	Evitar que la fiabilidad enmascare una ruta principal rota
Presupuesto del propietario	límite de proyecto, equipo, cliente, entorno, clave o flujo de trabajo	Hacer que el gasto sea revisable por finanzas e ingeniería

El gateway debe fallar en estado cerrado cuando se excede un límite estricto. Puede resumir, solicitar una reducción del alcance, poner en cola una revisión humana o devolver un error controlado. No debe enviar silenciosamente un prompt más grande, cambiar a una ruta más costosa ni seguir reintentando.

Utilice esta forma de presupuesto:

budget_policy:
  workflow: invoice_reconciliation_agent
  owner_key: finance_ops
  per_request:
    max_input_tokens: 32000
    max_output_tokens: 4000
    max_model_calls: 4
    max_tool_calls: 5
  per_session:
    max_total_tokens: 90000
    max_total_cost_usd: reviewed_threshold
  retry:
    max_attempts: 2
    retryable_statuses: [408, 409, 429, 500, 502, 503, 504]
  fallback:
    max_fallbacks: 1
    require_reason: true
  on_over_budget:
    action: stop_or_request_scope_reduction

Aquí es donde la superficie pública del producto de Flatkey es relevante. La página de inicio actual de Flatkey posiciona la plataforma en torno al acceso unificado a modelos, enrutamiento, facturación, análisis de uso y controles operativos. La página de precios actual describe recargas prepagas, análisis de uso, controles de costos, registros de solicitudes, una factura única para todos los proveedores y rutas de adquisición para equipos. Trate eso como evidencia de planificación pública actual y luego ejecute su propia prueba en el panel de control antes de la producción.

Registros: registre evidencia, no solo prompts sin procesar

Los registros de los agentes deben responder a dos preguntas: ¿qué ocurrió en tiempo de ejecución y quién puede demostrar que la política funcionó?

La documentación de observabilidad del AI Gateway de Vercel describe los registros del gateway para gastos, uso de modelos, métricas de observabilidad, resúmenes de solicitudes, claves de API y registros de solicitudes. La documentación de observabilidad del SDK de Agentes de OpenAI describe trazas que pueden incluir llamadas a modelos, llamadas a herramientas, transferencias, barreras de seguridad y spans personalizados. Esos ejemplos apuntan al mismo requisito operativo: los gateways de agentes necesitan registros que conecten el comportamiento del modelo con las decisiones de ruta, herramienta, presupuesto y detención.

Para los controles del gateway de agentes de IA, registre como mínimo estos campos:

Campo	Ejemplo	Por qué es importante
`request_id`	UUID generado por el gateway	Une los registros del modelo, la herramienta, la facturación y el soporte
`workflow_class`	support_agent, code_agent, finance_agent	Agrupa la política y las pruebas de aceptación
`owner_key`	equipo, aplicación, cliente, entorno	Admite la asignación de gastos y la revisión de abusos
`requested_model`	alias del modelo o nombre de la ruta	Muestra lo que la aplicación solicitó
`served_model`	proveedor/modelo real	Muestra lo que el gateway sirvió
`tool_calls`	nombre, versión del esquema, argumentos redactados, estado	Demuestra el comportamiento de la política de la herramienta
`usage`	tokens de entrada, salida, razonamiento, caché, totales	Conecta el comportamiento con el costo
`budget_result`	permitido, advertido, bloqueado	Demuestra que la puerta de control de costos se ejecutó
`stop_condition`	completed, max_steps, over_budget, approval_required	Explica cómo terminó la ejecución
`fallback_reason`	timeout, 429, provider_error, quality_gate	Separa la recuperación de la desviación

No registre todo para siempre solo porque sea fácil. Los datos de los clientes, los prompts, los resultados de las herramientas y los archivos pueden contener información sensible. Un diseño de registro duradero debe definir la redacción, la retención, la revisión de acceso, las necesidades de exportación y los procedimientos de incidentes. El gateway debe almacenar suficiente evidencia para depurar y conciliar el uso sin convertir cada solicitud en un archivo de datos incontrolado.

Condiciones de detención: defina el final de la ejecución antes de que el modelo comience

Las condiciones de detención no son solo secuencias de detención del modelo. Son las reglas que finalizan de forma segura la ejecución de un agente.

Las API de los proveedores exponen diferentes superficies de respuesta y detención. La API de Mensajes de Anthropic expone campos de stop_reason como el uso de herramientas, el final del turno, el máximo de tokens y las secuencias de detención en su documentación. La documentación de las barreras de seguridad del SDK de Agentes de OpenAI enmarca las barreras de seguridad y la revisión humana como controles que deciden cuándo una ejecución continúa, se pausa o se detiene. En producción, su gateway debe normalizar esos estados específicos del proveedor en un estado de flujo de trabajo que su equipo entienda.

Utilice una matriz de detención:

Condición de detención	Acción del gateway	Comportamiento de cara al usuario	Evidencia requerida
Completado	Devolver respuesta final	Respuesta normal	modelo final, uso, sin herramientas no resueltas
Se requiere aprobación de la herramienta	Pausar	"Esta acción necesita revisión"	llamada a la herramienta, argumentos, aprobador, decisión
Presupuesto excedido	Detener o solicitar reducción del alcance	"Limite la solicitud"	campo de presupuesto, umbral, clave de propietario
Máximo de pasos alcanzado	Detener	"No se puede completar en esta ejecución"	recuento de pasos, última acción, señal de bucle
Error de la herramienta	Reintentar, recurrir a fallback o detener	Ruta de fallo clara	estado de la herramienta, clase de error, recuento de reintentos
Tiempo de espera del proveedor agotado	Reintentar o recurrir a fallback	Respuesta degradada pero controlada	ruta, tiempo de espera, motivo del fallback
Infracción de la política	Detener	Rechazar o derivar a un humano	política activada, muestra redactada
Baja confianza o falta de evidencia	Hacer seguimiento o escalar	"Se necesita más información"	campo faltante, resultado de la evaluación

El punto importante es que cada estado terminal tiene un nombre. Si los únicos estados son "éxito" y "error", los equipos no pueden saber si el agente respetó la política o simplemente se detuvo por accidente.

Una plantilla práctica de controles del gateway de agentes de IA

Utilice un archivo de políticas que los equipos de ingeniería, seguridad, finanzas y producto puedan revisar juntos:

policy_name: ai_agent_gateway_controls_v1
owner:
  team: ai_platform
  reviewers:
    - engineering
    - finance
    - security
workflow_classes:
  support_agent:
    route: balanced_text_tool_route
    allowed_tools: [lookup_order, search_policy, open_ticket]
    approval_tools: [issue_refund, cancel_subscription]
    max_tool_calls: 5
    max_model_calls: 4
  code_agent:
    route: code_review_route
    allowed_tools: [read_repo, search_repo, propose_patch]
    approval_tools: [apply_patch, run_shell_command]
    max_tool_calls: 12
    max_model_calls: 8
budget_rules:
  require_owner_key: true
  block_when_owner_budget_exceeded: true
  require_fallback_reason: true
log_rules:
  capture_request_id: true
  capture_requested_and_served_model: true
  capture_tool_call_status: true
  redact_sensitive_arguments: true
stop_rules:
  max_steps: 12
  max_retries_per_tool: 1
  on_policy_violation: stop
  on_approval_required: pause
acceptance_tests:
  - blocked_tool_is_not_executed
  - over_budget_request_fails_closed
  - approval_tool_pauses_run
  - fallback_records_reason
  - request_log_contains_usage_and_stop_condition

Este archivo no reemplaza el código de la aplicación. Le da al código un contrato que hacer cumplir y a los revisores un artefacto concreto para inspeccionar.

Pruebas de aceptación antes de la producción

Ejecute pruebas de aceptación para cada clase de flujo de trabajo antes de que el tráfico se active:

Envíe una solicitud normal y confirme que solo se exponen las herramientas permitidas.
Solicite una herramienta bloqueada y confirme que la herramienta no se ejecuta.
Solicite una herramienta que requiera aprobación y confirme que la ejecución se pausa con un estado reanudable.
Envíe un prompt demasiado grande y confirme que el gateway se detiene o solicita una reducción del alcance.
Provoque un error de la herramienta y confirme que se registran el recuento de reintentos, el motivo del fallback y el estado final.
Fuerce un tiempo de espera agotado del proveedor y confirme que el fallback se mantiene dentro del presupuesto de fallback.
Active el máximo de pasos y confirme que la ejecución no entra en bucle.
Confirme que los registros de solicitud muestran la clave del propietario, el modelo solicitado, el modelo servido, el uso, el estado de la herramienta, el resultado del presupuesto y la condición de detención.
Realice una conciliación financiera de muestra a partir de los registros de solicitud con la factura o el movimiento del saldo prepagado.
Vuelva a ejecutar la misma prueba después de cambiar modelos, herramientas, prompts o la política de enrutamiento.

Combine este artículo con las guías de Flatkey sobre arquitectura de gateway de API de IA, arquitectura de gateway de API de LLM, balanceo de carga y conmutación por error de API de IA y diseño de políticas de enrutamiento de modelos. La arquitectura del gateway decide dónde residen los controles; las pruebas de aceptación demuestran que funcionan.

Dónde encaja Flatkey

Flatkey no debería ser el único lugar donde exista su política de agentes. Mantenga la política en el código, la configuración o un repositorio de control interno. Utilice Flatkey como la superficie del gateway donde los equipos pueden centralizar el acceso a los modelos, la revisión de rutas, la visibilidad del uso, los registros de solicitudes, los controles de costos, el saldo prepagado y la revisión de la facturación.

Un despliegue práctico de Flatkey se ve así:

Elija un flujo de trabajo de agente con herramientas y propietarios conocidos.
Defina las herramientas permitidas, las herramientas de aprobación, los límites de presupuesto, los campos de registro y las condiciones de detención.
Consulte las opciones actuales de modelos y precios en la página de precios de Flatkey.
Ejecute las pruebas de aceptación con una clave que no sea de producción.
Revise los registros para ver el modelo solicitado, el modelo servido, el uso, la decisión de enrutamiento, el motivo del fallback y la condición de detención.
Mueva solo el flujo de trabajo probado a producción.
Añada nuevas herramientas y rutas de fallback una fila de la política a la vez.

Cuando la prueba sea exitosa, obtenga una clave y mantenga el primer despliegue limitado. Los controles más sólidos del gateway de agentes de IA son aburridos en producción: cada llamada a una herramienta tiene una razón, cada decisión de presupuesto tiene un rastro, cada fallo tiene una condición de detención con nombre y cada revisor puede ver lo que sucedió.

Preguntas frecuentes

¿Qué son los controles del gateway de agentes de IA?

Los controles del gateway de agentes de IA son políticas que rigen el acceso a herramientas, los presupuestos, los registros, el comportamiento de respaldo y las condiciones de detención para los flujos de trabajo de agentes que llaman a modelos y herramientas a través de un gateway.

¿Son los controles del gateway de agentes de IA lo mismo que el enrutamiento de modelos?

No. El enrutamiento de modelos decide qué modelo o proveedor debe atender una solicitud. Los controles del gateway de agentes de IA deciden si el agente puede llamar a una herramienta, gastar más presupuesto, reintentar, recurrir a un respaldo, pausar para su aprobación o detenerse.

¿Qué se debe registrar para el uso de herramientas por parte del agente?

Registre el ID de la solicitud, la clase del flujo de trabajo, la clave del propietario, el modelo solicitado, el modelo servido, el nombre de la herramienta, la versión del esquema, los argumentos redactados, el estado del resultado, el uso, el resultado del presupuesto, el motivo del respaldo y la condición de detención.

¿Deberían las herramientas sensibles estar disponibles para el modelo todo el tiempo?

No. Mantenga el catálogo completo de herramientas separado de la lista de flujos de trabajo permitidos. Las herramientas sensibles deberían requerir aprobación, un alcance más limitado o una ruta de escalada separada.

¿Cómo se deben gestionar los sobrecostes del presupuesto?

Los sobrecostes estrictos del presupuesto deben provocar un fallo seguro. El gateway puede solicitar una reducción del alcance, resumir, poner en cola para revisión o devolver un error controlado, pero no debe cambiar silenciosamente a una ruta más costosa.

¿Cómo ayuda Flatkey con los controles del gateway de agentes de IA?

Flatkey ofrece a los equipos una única superficie de gateway para el acceso a modelos, la revisión del enrutamiento, la visibilidad del uso, los registros de solicitudes, los controles de costos, el saldo prepago y la revisión de la facturación. Utilice esa superficie junto con políticas como código (policy-as-code) y pruebas de aceptación para los flujos de trabajo de agentes en producción.

Context Window Routing: Elige modelos por tamaño de prompt sin perder el control de costes

2 jul 2026Big Y

AI Gateway Architecture

Diseño de políticas de enrutamiento de modelos: Asignar modelo, costo, latencia y riesgo a cada flujo de trabajo