AI Gateway Architecture2. Juli 2026Big Y

Kontrollen für KI-Agenten-Gateways: Tool-Nutzung, Budgets, Protokolle und Stopp-Bedingungen

Verwenden Sie Kontrollen für KI-Agenten-Gateways, um Tool-Zugriff, Budgets, Anfrageprotokolle, Fallback-Verhalten und Stopp-Bedingungen zu regeln, bevor Agenten in die Produktion gehen.

Kontrollen für KI-Agenten-Gateways sind die Betriebsregeln, die entscheiden, was ein Agent aufrufen darf, wie viel er ausgeben darf, welche Nachweise protokolliert werden müssen und wann die Ausführung pausieren, zurückfallen oder anhalten muss. Ohne diese Kontrollen wird ein Agenten-Gateway zu einer schnelleren Methode, um Tool-Wildwuchs, unkontrollierte Token-Ausgaben und unklare Produktionsausfälle zu verbergen.

Das Ziel ist nicht, jeden Agenten in Prozesse zu zwängen. Das Ziel ist es, das Verhalten von Agenten überprüfbar zu machen, bevor es die Produktionsbenutzer erreicht. Ein Support-Agent, der Bestellungen nachschlagen kann, ein Programmier-Agent, der Dateien bearbeiten kann, und ein Finanz-Agent, der Rechnungen vergleichen kann, sollten nicht denselben Tool-Zugriff, dasselbe Budget, dieselbe Protokollierung oder dieselbe Stopp-Richtlinie teilen.

Verwenden Sie diesen Leitfaden, um Kontrollen für KI-Agenten-Gateways als Richtlinien, Nachweisfelder und Akzeptanztests zu entwerfen. Validieren Sie dann die aktuellen Nachweise für das Flatkey-Modell, das Routing, die Nutzung und die Abrechnung auf der Seite Flatkey-Preise vor der Einführung.

Kontrollen für KI-Agenten-Gateways beginnen mit einer Richtliniengrenze

Ein Agenten-Gateway befindet sich zwischen Agenten-Laufzeitumgebungen, Modell-APIs, internen Tools und der Finanzprüfung. Das macht es zu einem guten Ort, um vier Entscheidungen zu standardisieren:

Kontrollbereich	Gateway-Frage	Produktionsnachweis
Tool-Nutzung	Welche Tools kann dieser Workflow aufrufen, mit welchen Argumenten und unter wessen Genehmigung?	Tool-Name, Schema-Version, Argumente, Genehmigungsstatus, Ergebnisstatus
Budgets	Wie hoch dürfen die Ausgaben für Eingabe, Ausgabe, Schlussfolgerung, Tools, Wiederholungsversuche und Fallback sein?	Token-Anzahl, Anfragekosten, Besitzerschlüssel, Budgetergebnis, Fallback-Ausgaben
Protokolle	Was ist passiert, welche Route hat es bedient und was kann später überprüft werden?	Anfrage-ID, Workflow, Modell, Route, Tool-Aufrufe, Stopp-Grund, Fehlercode
Stopp-Bedingungen	Wann sollte die Ausführung beendet werden, es erneut versuchen, eine Genehmigung anfordern, zurückfallen oder sicher fehlschlagen (fail-closed)?	Stopp-Bedingung, Fallback-Grund, Prüferentscheidung, Endzustand

Diese Kontrollen für KI-Agenten-Gateways sollten wie eine Infrastrukturrichtlinie überprüft werden, nicht wie ein Prompt-Text. Der Prompt kann die Absicht erklären, aber die Gateway-Richtlinie sollte erzwingen, was passiert, wenn das Modell ein sensibles Tool anfordert, ein Budget überschreitet, ein unerwartetes Tool-Ergebnis erhält oder in eine Schleife gerät.

Kontrollen für die Tool-Nutzung: Weniger Tools erlauben, als der Agent kennt

Der Aufruf von Tools (Tool Calling) ist leistungsstark, da er Modelle mit realen Systemen verbindet. Hier geht ein Agent auch vom Vorschlag zur Handlung über. Die Dokumentation zum Function Calling von OpenAI beschreibt Tool-Aufrufe als einen mehrstufigen Prozess: Das Modell fordert ein Tool an, Ihre Anwendung führt es aus und die Ausgabe des Tools wird an das Modell zurückgegeben. Die Dokumentation zur Tool-Nutzung von Anthropic lässt Claude in ähnlicher Weise tool_use-Blöcke zurückgeben, wobei der Anwendungscode für die Ausführung verantwortlich ist. Das Function Calling von Google Gemini hängt ebenfalls von deklarierten Funktionen und vom Modell generierten Funktionsaufrufen ab.

Dieses gängige Muster ist für die Kontrollen von KI-Agenten-Gateways von Bedeutung: Das Modell sollte das Tool nicht direkt ausführen. Ihr Gateway oder Ihre Laufzeitumgebung sollte entscheiden, ob das angeforderte Tool erlaubt ist, ob die Argumente der Richtlinie entsprechen, ob eine Genehmigung erforderlich ist und ob das Ergebnis des Tools sicher zurückgesendet werden kann.

Verwenden Sie eine dreischichtige Tool-Richtlinie:

Tool-Katalog: der vollständige Satz von Tools, die in der Organisation existieren.
Workflow-Zulassungsliste: die kleinere Gruppe von Tools, die eine bestimmte Agenten-Route aufrufen darf.
Einschränkung auf Turn-Ebene: die für diese Anfrage verfügbaren Tools nach Überprüfung von Rolle, Mandant, Umgebung, Budget und Risiko.

Ein Kundensupport-Agent kann beispielsweise im normalen Modus auf lookup_order, search_policy und open_ticket zugreifen. Er sollte keinen Zugriff auf issue_refund, cancel_contract oder delete_account erhalten, bis der Workflow einen genehmigten Eskalationspfad erreicht.

Die Kontrolle sollte explizit sein:

workflow: support_resolution_agent
tool_policy:
  default_mode: deny
  allowed_tools:
    - lookup_order
    - search_policy
    - open_ticket
  approval_required:
    - issue_refund
    - cancel_subscription
  blocked_tools:
    - export_customer_database
schema_rules:
  require_strict_arguments: true
  reject_unknown_fields: true
  log_redacted_arguments: true
on_violation:
  action: stop
  user_message: ask_for_human_review

Der Leitfaden zum Function Calling von OpenAI empfiehlt klare Funktionsbeschreibungen, JSON-Schemata, einen strikten Modus (wo unterstützt) und die anfängliche Begrenzung der verfügbaren Funktionen. Das ist nicht nur ein Ratschlag zur Modellleistung. Es ist auch eine Kontrolle für das Agenten-Gateway: weniger exponierte Tools bedeuten weniger ungültige Zustände, die nach einem Vorfall überprüft werden müssen.

Budgetkontrollen: Begrenzen Sie die gesamte Ausführung, nicht nur einen einzelnen Modellaufruf

Die Kosten für einen Agenten entstehen selten durch eine einzige, saubere Anfrage. Sie setzen sich zusammen aus Tool-Schemata, Gesprächsverlauf, Abrufkontext, Reasoning-Tokens, Tool-Ergebnissen, Wiederholungsversuchen, Fallback-Modellen und wiederholten Versuchen nach teilweisen Fehlschlägen.

Budgetkontrollen für KI-Agenten-Gateways sollten die gesamte Ausführung abdecken:

Budgetbereich	Was zu begrenzen ist	Warum es wichtig ist
Anfragebudget	Eingabe-Token, Ausgabe-Token, Reasoning-Token, max. Modellaufrufe	Verhindert, dass eine einzelne Runde zu einem überraschenden Kostenereignis wird
Tool-Budget	Anzahl der Tool-Aufrufe, Größe des Tool-Ergebnisses, Ausgaben für externe APIs	Verhindert Tool-Schleifen und teure Datenabrufe
Wiederholungsbudget	Anzahl der Wiederholungen, wiederholbare Statuscodes, Backoff-Fenster	Trennt Resilienz von unkontrollierter Wiederholung
Fallback-Budget	Anzahl der Fallback-Modelle, Fallback-Kostengrenze, Fallback-Grund	Verhindert, dass Zuverlässigkeit eine defekte primäre Route verschleiert
Besitzer-Budget	Projekt-, Team-, Kunden-, Umgebungs-, Schlüssel- oder Workflow-Limit	Macht Ausgaben für Finanz- und Technikabteilungen überprüfbar

Das Gateway sollte bei Überschreitung eines harten Limits den Zugriff verweigern (Fail-Closed). Es kann zusammenfassen, eine Reduzierung des Umfangs anfordern, eine menschliche Überprüfung in die Warteschlange stellen oder einen kontrollierten Fehler zurückgeben. Es sollte nicht stillschweigend einen größeren Prompt senden, auf eine teurere Route wechseln oder es immer wieder versuchen.

Verwenden Sie diese Budget-Struktur:

budget_policy:
  workflow: invoice_reconciliation_agent
  owner_key: finance_ops
  per_request:
    max_input_tokens: 32000
    max_output_tokens: 4000
    max_model_calls: 4
    max_tool_calls: 5
  per_session:
    max_total_tokens: 90000
    max_total_cost_usd: reviewed_threshold
  retry:
    max_attempts: 2
    retryable_statuses: [408, 409, 429, 500, 502, 503, 504]
  fallback:
    max_fallbacks: 1
    require_reason: true
  on_over_budget:
    action: stop_or_request_scope_reduction

Hier wird die öffentliche Produktoberfläche von Flatkey relevant. Die aktuelle Homepage von Flatkey positioniert die Plattform rund um einheitlichen Modellzugriff, Routing, Abrechnung, Nutzungsanalysen und Betriebskontrollen. Die aktuelle Preisseite beschreibt Prepaid-Aufladungen, Nutzungsanalysen, Kostenkontrollen, Anforderungsprotokolle, eine einzige Rechnung über alle Anbieter hinweg und Beschaffungswege für Teams. Betrachten Sie diese als aktuellen öffentlichen Planungsnachweis und führen Sie dann vor der Produktion Ihren eigenen Test im Dashboard durch.

Protokolle: Beweise aufzeichnen, nicht nur rohe Prompts

Agentenprotokolle müssen zwei Fragen beantworten: Was ist zur Laufzeit passiert, und wer kann beweisen, dass die Richtlinie funktioniert hat?

Die Dokumentation zur Beobachtbarkeit des AI Gateway von Vercel beschreibt Gateway-Protokolle für Ausgaben, Modellnutzung, Beobachtbarkeitsmetriken, Anforderungszusammenfassungen, API-Schlüssel und Anforderungsprotokolle. Die Dokumentation zur Beobachtbarkeit des Agents SDK von OpenAI beschreibt Traces, die Modellaufrufe, Tool-Aufrufe, Übergaben, Guardrails und benutzerdefinierte Spans enthalten können. Diese Beispiele deuten auf dieselbe betriebliche Anforderung hin: Agenten-Gateways benötigen Protokolle, die das Modellverhalten mit Entscheidungen zu Routen, Tools, Budgets und Stopps verbinden.

Für die Kontrollen von KI-Agenten-Gateways sollten mindestens diese Felder protokolliert werden:

Feld	Beispiel	Warum es wichtig ist
`request_id`	vom Gateway generierte UUID	Verbindet Modell-, Tool-, Abrechnungs- und Support-Datensätze
`workflow_class`	support_agent, code_agent, finance_agent	Gruppiert Richtlinien- und Akzeptanztests
`owner_key`	Team, App, Kunde, Umgebung	Unterstützt die Zuweisung von Ausgaben und die Überprüfung von Missbrauch
`requested_model`	Modell-Alias oder Routenname	Zeigt, was die App angefordert hat
`served_model`	tatsächlicher Anbieter/Modell	Zeigt, was das Gateway bereitgestellt hat
`tool_calls`	Name, Schemaversion, redigierte Argumente, Status	Beweist das Verhalten der Tool-Richtlinie
`usage`	Eingabe-, Ausgabe-, Reasoning-, Cache-, Gesamt-Token	Verbindet Verhalten mit Kosten
`budget_result`	erlaubt, gewarnt, blockiert	Beweist, dass die Kostenkontrolle ausgeführt wurde
`stop_condition`	completed, max_steps, over_budget, approval_required	Erklärt, wie die Ausführung beendet wurde
`fallback_reason`	timeout, 429, provider_error, quality_gate	Trennt Wiederherstellung von Drift

Protokollieren Sie nicht alles für immer, nur weil es einfach ist. Kundendaten, Prompts, Tool-Ergebnisse und Dateien können sensible Informationen enthalten. Ein langlebiges Protokolldesign sollte Schwärzung, Aufbewahrung, Zugriffsüberprüfung, Exportanforderungen und Vorgehensweisen bei Vorfällen definieren. Das Gateway sollte genügend Beweise speichern, um die Nutzung zu debuggen und abzugleichen, ohne jede Anfrage in ein unkontrolliertes Datenarchiv zu verwandeln.

Stopp-Bedingungen: Definieren Sie das Ende der Ausführung, bevor das Modell startet

Stopp-Bedingungen sind nicht nur Modell-Stoppsequenzen. Sie sind die Regeln, die eine Agentenausführung sicher beenden.

Anbieter-APIs bieten unterschiedliche Oberflächen für Antworten und Stopps. Die Messages API von Anthropic legt in ihrer Dokumentation stop_reason-Felder wie Tool-Nutzung, Rundenende, maximale Token und Stoppsequenzen offen. Die Guardrails-Dokumentation des Agents SDK von OpenAI beschreibt Guardrails und menschliche Überprüfung als Kontrollen, die entscheiden, wann eine Ausführung fortgesetzt, pausiert oder gestoppt wird. In der Produktion sollte Ihr Gateway diese anbieterspezifischen Zustände in einen Workflow-Zustand normalisieren, den Ihr Team versteht.

Verwenden Sie eine Stopp-Matrix:

Stopp-Bedingung	Gateway-Aktion	Verhalten für den Benutzer	Erforderlicher Nachweis
Abgeschlossen	Endgültige Antwort zurückgeben	Normale Antwort	endgültiges Modell, Nutzung, keine ungelösten Tools
Tool-Genehmigung erforderlich	Pausieren	„Diese Aktion muss überprüft werden“	Tool-Aufruf, Argumente, Genehmiger, Entscheidung
Budget überschritten	Stoppen oder nach Reduzierung des Umfangs fragen	„Die Anfrage eingrenzen“	Budgetfeld, Schwellenwert, Besitzerschlüssel
Maximale Anzahl an Schritten erreicht	Stoppen	„In diesem Durchlauf nicht abschließbar“	Schrittzahl, letzte Aktion, Schleifensignal
Tool-Fehler	Wiederholen, Fallback oder Stoppen	Klarer Fehlerpfad	Tool-Status, Fehlerklasse, Anzahl der Wiederholungsversuche
Anbieter-Timeout	Wiederholen oder Fallback	Verschlechterte, aber kontrollierte Antwort	Route, Timeout, Fallback-Grund
Richtlinienverstoß	Stoppen	Verweigern oder an einen Menschen weiterleiten	ausgelöste Richtlinie, geschwärztes Beispiel
Geringe Konfidenz oder fehlender Nachweis	Nachfragen oder eskalieren	„Weitere Informationen benötigt“	fehlendes Feld, Bewertungsergebnis

Wichtig ist, dass jeder Endzustand einen Namen hat. Wenn die einzigen Zustände „Erfolg“ und „Fehler“ sind, können Teams nicht feststellen, ob der Agent die Richtlinie eingehalten hat oder nur versehentlich angehalten wurde.

Eine praktische Vorlage für die Steuerung von KI-Agenten-Gateways

Verwenden Sie eine Richtliniendatei, die von den Abteilungen Technik, Sicherheit, Finanzen und Produkt gemeinsam überprüft werden kann:

policy_name: ai_agent_gateway_controls_v1
owner:
  team: ai_platform
  reviewers:
    - engineering
    - finance
    - security
workflow_classes:
  support_agent:
    route: balanced_text_tool_route
    allowed_tools: [lookup_order, search_policy, open_ticket]
    approval_tools: [issue_refund, cancel_subscription]
    max_tool_calls: 5
    max_model_calls: 4
  code_agent:
    route: code_review_route
    allowed_tools: [read_repo, search_repo, propose_patch]
    approval_tools: [apply_patch, run_shell_command]
    max_tool_calls: 12
    max_model_calls: 8
budget_rules:
  require_owner_key: true
  block_when_owner_budget_exceeded: true
  require_fallback_reason: true
log_rules:
  capture_request_id: true
  capture_requested_and_served_model: true
  capture_tool_call_status: true
  redact_sensitive_arguments: true
stop_rules:
  max_steps: 12
  max_retries_per_tool: 1
  on_policy_violation: stop
  on_approval_required: pause
acceptance_tests:
  - blocked_tool_is_not_executed
  - over_budget_request_fails_closed
  - approval_tool_pauses_run
  - fallback_records_reason
  - request_log_contains_usage_and_stop_condition

Diese Datei ersetzt keinen Anwendungscode. Sie gibt dem Code einen Vertrag zur Durchsetzung und den Prüfern ein konkretes Artefakt zur Inspektion.

Abnahmetests vor der Produktion

Führen Sie Abnahmetests für jede Workflow-Klasse durch, bevor der Traffic live geschaltet wird:

Senden Sie eine normale Anfrage und bestätigen Sie, dass nur erlaubte Tools verfügbar gemacht werden.
Fordern Sie ein blockiertes Tool an und bestätigen Sie, dass das Tool nicht ausgeführt wird.
Fordern Sie ein genehmigungspflichtiges Tool an und bestätigen Sie, dass der Durchlauf mit einem wiederaufnehmbaren Zustand pausiert.
Senden Sie einen übergroßen Prompt und bestätigen Sie, dass das Gateway stoppt oder eine Reduzierung des Umfangs anfordert.
Lösen Sie einen Tool-Fehler aus und bestätigen Sie, dass die Anzahl der Wiederholungsversuche, der Fallback-Grund und der Endzustand protokolliert werden.
Erzwingen Sie ein Anbieter-Timeout und bestätigen Sie, dass der Fallback innerhalb des Fallback-Budgets bleibt.
Lösen Sie die maximale Anzahl an Schritten aus und bestätigen Sie, dass der Durchlauf nicht in einer Schleife endet.
Bestätigen Sie, dass die Anforderungsprotokolle den Besitzerschlüssel, das angeforderte Modell, das bereitgestellte Modell, die Nutzung, den Tool-Status, das Budgetergebnis und die Stopp-Bedingung anzeigen.
Führen Sie einen Stichprobenabgleich der Finanzen von den Anforderungsprotokollen zur Rechnung oder zur Bewegung des Prepaid-Guthabens durch.
Führen Sie denselben Test erneut aus, nachdem Sie Modelle, Tools, Prompts oder die Routing-Richtlinie geändert haben.

Kombinieren Sie diesen Artikel mit den Anleitungen von Flatkey zur KI-API-Gateway-Architektur, LLM-API-Gateway-Architektur, KI-API-Lastenausgleich und Failover und zum Design von Modell-Routing-Richtlinien. Die Gateway-Architektur entscheidet, wo die Kontrollen angesiedelt sind; die Abnahmetests beweisen, dass sie funktionieren.

Wo Flatkey ins Spiel kommt

Flatkey sollte nicht der einzige Ort sein, an dem Ihre Agenten-Richtlinie existiert. Bewahren Sie die Richtlinie im Code, in der Konfiguration oder in einem internen Kontroll-Repository auf. Nutzen Sie Flatkey als Gateway-Oberfläche, auf der Teams den Modellzugriff, die Überprüfung von Routen, die Sichtbarkeit der Nutzung, Anforderungsprotokolle, Kostenkontrollen, Prepaid-Guthaben und die Rechnungsprüfung zentralisieren können.

Ein praktischer Rollout von Flatkey sieht so aus:

Wählen Sie einen Agenten-Workflow mit bekannten Tools und Besitzern.
Definieren Sie die erlaubten Tools, Genehmigungs-Tools, Budgetobergrenzen, Protokollfelder und Stopp-Bedingungen.
Überprüfen Sie die aktuellen Modell- und Preisoptionen auf der Seite Flatkey-Preise.
Führen Sie die Abnahmetests mit einem Nicht-Produktionsschlüssel durch.
Überprüfen Sie die Protokolle auf das angeforderte Modell, das bereitgestellte Modell, die Nutzung, die Routing-Entscheidung, den Fallback-Grund und die Stopp-Bedingung.
Verschieben Sie nur den getesteten Workflow in die Produktion.
Fügen Sie neue Tools und Fallback-Routen zeilenweise in der Richtlinie hinzu.

Wenn der Nachweis erbracht ist, holen Sie sich einen Schlüssel und halten Sie den ersten Rollout eng begrenzt. Die stärksten Kontrollen für KI-Agenten-Gateways sind in der Produktion unspektakulär: Jeder Tool-Aufruf hat einen Grund, jede Budgetentscheidung eine Spur, jeder Fehler eine benannte Stopp-Bedingung, und jeder Prüfer kann sehen, was passiert ist.

FAQ

Was sind Kontrollen für KI-Agenten-Gateways?

Kontrollen für KI-Agenten-Gateways sind Richtlinien, die den Tool-Zugriff, Budgets, Protokolle, das Fallback-Verhalten und Stopp-Bedingungen für Agenten-Workflows regeln, die Modelle und Tools über ein Gateway aufrufen.

Sind Kontrollen für KI-Agenten-Gateways dasselbe wie Modell-Routing?

Nein. Modell-Routing entscheidet, welches Modell oder welcher Anbieter eine Anfrage bedienen soll. Kontrollen für KI-Agenten-Gateways entscheiden, ob der Agent ein Tool aufrufen, mehr Budget ausgeben, es erneut versuchen, auf eine Alternative zurückgreifen, zur Genehmigung pausieren oder anhalten darf.

Was sollte bei der Tool-Nutzung durch Agenten protokolliert werden?

Protokollieren Sie die Anfrage-ID, die Workflow-Klasse, den Besitzerschlüssel, das angefragte Modell, das ausgelieferte Modell, den Tool-Namen, die Schema-Version, geschwärzte Argumente, den Ergebnisstatus, die Nutzung, das Budgetergebnis, den Fallback-Grund und die Stopp-Bedingung.

Sollten sensible Tools dem Modell jederzeit zur Verfügung stehen?

Nein. Halten Sie den vollständigen Tool-Katalog von der Zulassungsliste (Allowlist) des Workflows getrennt. Sensible Tools sollten eine Genehmigung, einen engeren Geltungsbereich oder einen separaten Eskalationsweg erfordern.

Wie sollten Budgetüberschreitungen gehandhabt werden?

Harte Budgetüberschreitungen sollten zu einem Fail-Closed-Verhalten führen. Das Gateway kann eine Reduzierung des Geltungsbereichs anfordern, zusammenfassen, eine Überprüfung in die Warteschlange stellen oder einen kontrollierten Fehler zurückgeben, aber es sollte nicht stillschweigend auf eine teurere Route wechseln.

Wie hilft Flatkey bei den Kontrollen für KI-Agenten-Gateways?

Flatkey bietet Teams eine einzige Gateway-Oberfläche für Modellzugriff, Routing-Überprüfung, Nutzungstransparenz, Anforderungsprotokolle, Kostenkontrollen, Prepaid-Guthaben und Rechnungsprüfung. Nutzen Sie diese Oberfläche zusammen mit Policy-as-Code und Abnahmetests für produktive Agenten-Workflows.

Context Window Routing: Modelle nach Prompt-Größe auswählen und die Kostenkontrolle behalten

2. Juli 2026Big Y

AI Gateway Architecture

Design von Modell-Routing-Richtlinien: Modell, Kosten, Latenz und Risiko für jeden Workflow abstimmen