Reliability and Routing3. Juli 2026Big Y

KI-API-Timeout-Strategie: Budgets für Connect, Read, Stream und Queue

Legen Sie für KI-APIs im Produktivbetrieb Timeout-Budgets für Connect, Read, Stream, Queue, Retry, Fallback und Observability fest, bevor Vorfälle teuer werden.

Timeouts sind nicht nur eine einzige Zahl. Eine produktionsreife KI-API-Timeout-Strategie benötigt separate Budgets für die Verbindung, das Lesen der Antwort, das Streamen von Token-Ereignissen, das Warten in einer Warteschlange, sichere Wiederholungsversuche und die Entscheidung, wann ein Fallback beendet werden sollte. Wenn diese Budgets vermischt werden, können ein langsamer Anbieter, ein blockierter Verbindungspool oder ein halb offener Stream wie derselbe Vorfall aussehen.

Das Ziel einer KI-API-Timeout-Strategie ist es, Ausfälle begrenzt und beobachtbar zu machen. Eine benutzerorientierte Chat-Anfrage benötigt möglicherweise ein schnelles erstes Token und einen harten Stopp. Eine Hintergrund-Rechercheaufgabe benötigt möglicherweise eine Frist für die Warteschlange und Polling. Ein Schema-Extraktionsjob benötigt möglicherweise einen Wiederholungsversuch auf derselben Route, bevor er auf ein Fallback zurückgreift. Jeder Workflow benötigt sein eigenes Budget, und jeder Timeout muss Nachweise für Technik, Finanzen und Produktverantwortliche hinterlassen.

Flatkey eignet sich für diese Zuverlässigkeitsarbeit, da die Timeout-Richtlinie einfacher zu überprüfen ist, wenn Modellzugriff, Routing, Abrechnung, Nutzungsanalysen und Betriebskontrollen über ein einziges Gateway abgewickelt werden. Verwenden Sie die nachstehende Checkliste als Anwendungsrichtlinie und validieren Sie dann die aktuelle Flatkey-Modellzeile, die Endpunktfamilie, die Nutzungsnachweise und das Routenverhalten, bevor Sie Produktionsverkehr senden.

KI-API-Timeout-Strategie in einer Tabelle

Beginnen Sie damit, jeder Timeout-Ebene einen Verantwortlichen und eine Stoppbedingung zuzuweisen.

Timeout-Ebene	Was es schützt	Startbudget	Wiederholungsregel	Fallback-Regel	Zu protokollierender Nachweis
Verbinden	DNS, TLS, Erreichbarkeit des Gateways und Socket-Setup	Kurz, normalerweise geringer als das Anfragebudget	Wiederholung nur, wenn kein Anfragekörper akzeptiert wurde	Backup-Route nur verwenden, wenn die Endpunktfamilie äquivalent ist	`connect_ms`, Route, Host, Fehlerklasse
Pool- oder Warteschlangen-Erwerb	Warten auf einen lokalen Worker, eine Verbindung oder einen Rate-Limit-Slot	Sehr kurz für interaktive Arbeit	Nicht blind wiederholen; zuerst die Parallelität reduzieren	Last in Warteschlange stellen oder abwerfen, bevor das Modell gewechselt wird	Warteschlangenalter, Pool-Wartezeit, Parallelität, Verantwortlicher
Anfrage/Lesen	Warten auf den Antwortkörper, nachdem die Anfrage gesendet wurde	An UX oder Job-Frist gebunden	Ein oder zwei begrenzte Wiederholungen bei vorübergehenden Fehlern	Fallback nur auf eine Route, die den Ausgabevertrag beibehält	Anfrage-ID, Status, Lese-Timeout, Nutzung falls vorhanden
Stream erstes Ereignis	Warten auf das erste SSE- oder Token-Ereignis	Geringer als die gesamte Stream-Frist	Wiederholen, bevor die für den Benutzer sichtbare Ausgabe beginnt	Fallback nur, bevor eine Teilausgabe bestätigt wird	Latenz des ersten Ereignisses, angefordertes Modell, bereitgestelltes Modell
Stream Leerlauf	Lücke zwischen Stream-Chunks nach Beginn der Ausgabe	Basierend auf normalen Lücken zwischen Ereignissen	Fortsetzen nur, wenn die API es unterstützt; andernfalls sauber beenden	Modellwechsel mitten in der Antwort vermeiden	letzte Sequenz, Leerlauflücke, Teilausgabemarker
Hintergrund-Warteschlange	Langlaufende Arbeit außerhalb der Benutzeranfrage	Explizite Frist und Abfrageintervall	Abfragen bis zum Endzustand oder zur Frist	Eskalieren oder abbrechen, bevor doppelte Arbeit entsteht	Antwort-/Job-ID, Status, Warteschlangenalter, Abbruchgrund
Fallback-Stopp	Verhindern, dass Wiederholungen zu unkontrollierten Kosten werden	Harte Versuch- und Ausgabenobergrenze	Stoppen, nachdem das Budget aufgebraucht ist	Menschliche Überprüfung bei risikoreichen Workflow-Änderungen	Versuche, Fallback-Grund, Kosten, Verantwortlicher

Diese Tabelle ist der Kern der KI-API-Timeout-Strategie. Die genauen Zahlen sollten aus dem realen Datenverkehr stammen, aber die Trennung sollte bereits vor dem ersten Produktionsvorfall bestehen.

Budgets aus der Workflow-Absicht erstellen

Kopieren Sie nicht einen einzigen Timeout-Wert für alle KI-Funktionen. Ein Timeout, der für eine Hintergrundauswertung großzügig erscheint, kann in einem Support-Chat inakzeptabel sein. Ein Timeout, der für eine Textantwort in Ordnung ist, kann für einen Tool-Workflow mit langem Kontext zu kurz sein. Schreiben Sie die KI-API-Timeout-Strategie basierend auf der Workflow-Absicht:

Interaktiver Chat benötigt ein Budget für das erste Ereignis, ein Gesamtbudget für die Antwort und eine höfliche Benutzernachricht, wenn das Budget aufgebraucht ist.
Streaming-UX benötigt Budgets für das erste Ereignis und den Leerlauf, da ein verbundener Stream, der keine Ereignisse mehr produziert, etwas anderes ist als eine langsame vollständige Antwort.
Strukturierte Extraktion benötigt ein Wiederholungsbudget für die Schema-Gültigkeit, keine generische Wiederholungsschleife.
Agenten- oder toolintensive Arbeit benötigt eine Frist für die Warteschlange, eine Obergrenze für Tool-Aufrufe, einen Abbruchpfad und ein Abfrageprotokoll.
Finanz-, Beschaffungs- oder Compliance-Prüfungen benötigen ein konservatives Fallback, da ein Modellwechsel das Risiko, die Kosten, die Nachweise oder den Genehmigungsstatus ändern kann.

OpenAIs aktuelle Anleitung zu Timeouts für offizielle SDKs besagt, dass Standardanfragen nach 10 Minuten ablaufen und sowohl das Python- als auch das JavaScript-SDK eine timeout-Option bereitstellen. Es ist nützlich, diesen Standardwert zu kennen, aber er sollte nicht zur Anwendungsrichtlinie werden. Produktionsteams benötigen weiterhin engere Workflow-Budgets für Benutzererfahrung, Kosten und Reaktion auf Vorfälle.

Connect- und Pool-Budgets sollten schnell fehlschlagen

Das Connect-Budget beantwortet eine eng gefasste Frage: Kann der Client den Gateway- oder Anbieter-Endpunkt schnell genug erreichen, um die Anfrage zu starten? Es sollte normalerweise viel kürzer sein als das Read-Budget. Wenn der Verbindungsaufbau fehlschlägt, hat kein Modell etwas generiert, sodass die Entscheidung für eine Wiederholung ein geringeres Risiko birgt als eine Wiederholung nach einer teilweisen Antwort.

Python-Teams, die HTTPX verwenden, können dies sauber ausdrücken, da HTTPX zwischen Connect-, Read-, Write- und Pool-Timeouts unterscheidet. Das OpenAI Python SDK akzeptiert auch ein httpx.Timeout-Objekt, sodass die Anwendung Connect- und Read-Budgets getrennt halten kann:

import os
import httpx
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["FLATKEY_API_KEY"],
    base_url="https://router.flatkey.ai/v1",
    timeout=httpx.Timeout(
        timeout=20.0,
        connect=2.0,
        read=10.0,
        write=10.0,
        pool=1.0,
    ),
    max_retries=1,
)

Wichtig sind nicht die Beispielwerte. Wichtig ist, dass die KI-API-Timeout-Strategie keine 20 Sekunden damit verbringt, herauszufinden, dass ein Socket nicht geöffnet werden kann oder der lokale Verbindungspool ausgelastet ist.

Für Node.js bietet das OpenAI JavaScript SDK eine timeout-Option in Millisekunden, und Node stellt auch AbortSignal.timeout(delay) für APIs bereit, die Abbruchsignale akzeptieren. Verwenden Sie dieses Muster, um Anwendungsfristen explizit zu halten, anstatt sich auf einen unbegrenzten Aufrufer zu verlassen.

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.FLATKEY_API_KEY,
  baseURL: "https://router.flatkey.ai/v1",
  timeout: 20_000,
  maxRetries: 1,
});

Behandeln Sie Verbindungs-Timeouts als Infrastruktursignale. Wenn sie sprunghaft ansteigen, überprüfen Sie DNS, TLS, die Erreichbarkeit des Gateways, Pool-Limits, die Auslastung lokaler Worker und die Egress-Richtlinie, bevor Sie das Modell ändern.

Lesebudgets schützen Kosten und Benutzererfahrung

Das Lesebudget ist die maximale Zeit, die die Anwendung auf die Antwort wartet, nachdem die Anfrage angenommen wurde. Hier unterscheiden sich KI-Workloads von normalen JSON-APIs: Das Modell kann berechtigterweise langsam sein, die Ausgabe kann lang sein oder der Prompt kann Tool-Arbeit auslösen. Ein Lese-Timeout sollte daher aus der Workflow-Frist abgeleitet werden, nicht aus einem Bibliotheksstandard.

Verwenden Sie diese Regeln:

Workflow	Regel für das Lesebudget	Was bei einem Timeout zu tun ist
Chat oder Support	Budget basierend auf der Geduld des Benutzers und dem Service-SLO	Einen geordneten Timeout-Zustand anzeigen, die Anfrage protokollieren, Wiederholung nur vor einer für den Benutzer sichtbaren Ausgabe
Batch-Extraktion	Budget basierend auf der Job-Frist und der Warteschlangenkapazität	Dieselbe Route einmal wiederholen, dann den Datensatz zur Überprüfung markieren
Code oder Schlussfolgerung	Budget basierend auf der Aufgabenkomplexität und den Tool-Obergrenzen	Hintergrundmodus in Betracht ziehen, wenn die Aufgabe von Natur aus lange dauert
Finanzen oder Beschaffung	Budget basierend auf dem Überprüfungs-SLA	Anhalten und in die Warteschlange stellen, anstatt die Route stillschweigend zu ändern
Interne Automatisierung	Budget basierend auf der Frist der nachgelagerten Abhängigkeit	Früh genug fehlschlagen, damit der Aufrufer kompensieren kann

Die KI-API-Timeout-Strategie sollte auch die Ausgabegröße, Tool-Aufrufe und Fallback-Versuche begrenzen. Ein Lese-Timeout allein kontrolliert die Kosten nicht, wenn die Wiederholungsschicht doppelte Arbeit erzeugt.

Streaming-Budgets benötigen zwei Zeitgeber

Streaming wird nicht durch das Erhöhen des Anfrage-Timeouts gelöst. Eine gestreamte KI-Antwort hat mindestens zwei Zeitgeber:

Timeout für das erste Ereignis: wie lange der Benutzer auf das erste Stream-Ereignis oder Token wartet.
Leerlauf-Timeout: wie lange die Anwendung Stille toleriert, nachdem das Streaming begonnen hat.

Die OpenAI-API-Referenzen beschreiben Streaming als Server-Sent Events, wenn stream aktiviert ist. Für Hintergrundantworten dokumentiert OpenAI auch Streaming mit Sequenznummern, damit ein Client die Position verfolgen und bei Unterstützung die Verbindung wiederherstellen kann. Diese Unterscheidung ist wichtig: Wenn die API einen Stream von einem Cursor aus fortsetzen kann, kann die KI-API-Timeout-Strategie anders wiederherstellen als bei einem einfachen Stream ohne Fortsetzungsvertrag.

Wechseln Sie die Modelle nicht nach einer teilweise für den Benutzer sichtbaren Ausgabe, es sei denn, das Produkt ist dafür ausgelegt. Eine Fallback-Antwort, die mitten in einer vorherigen Antwort beginnt, ist normalerweise schlechter als eine saubere Fehlermeldung. Protokollieren Sie für gestreamten Chat:

Feld	Warum es wichtig ist
`time_to_first_event_ms`	Trennt die Startlatenz des Modells von der gesamten Abschlusszeit
`last_event_at`	Zeigt an, wo der Stream in den Leerlauf überging
`sequence_number` or cursor	Ermöglicht eine sichere Fortsetzung, wenn die API dies unterstützt
`partial_output_committed`	Verhindert eine unsichere Wiederholung nach sichtbarer Ausgabe
`requested_model` and `served_model`	Zeigt, ob Routing oder Fallback das Verhalten geändert haben
`finish_reason` or terminal event	Unterscheidet zwischen Erfolg und abgebrochenen Streams

Kombinieren Sie diese Seite mit dem Flatkey-Leitfaden zur Zuverlässigkeit von Streaming-KI-APIs, wenn der Hauptfehlermodus die SSE-Form, Client-Trennungen oder die Handhabung von Teilausgaben ist.

Warteschlangenbudgets gehören außerhalb der Benutzeranfrage

Einige KI-Aufgaben eignen sich nicht gut für synchrone Anfragen. Mehrstufige Recherchen, lange Tool-Workflows, die Überprüfung großer Dokumente und die Erstellung komplexer Medien können länger dauern, als eine Webanfrage offen bleiben sollte. Die Timeout-Richtlinie sollte diese Workloads in einen Warteschlangen- oder Hintergrundmodus verschieben, anstatt den Benutzer auf eine fragile Verbindung warten zu lassen.

Die Dokumentation zum Hintergrundmodus von OpenAI beschreibt asynchrone Antworten, die abgefragt werden können, während sie queued oder in_progress sind, bei Bedarf abgebrochen und aus dem Hintergrundmodus gestreamt werden können, wenn sie so erstellt wurden. Das ist das richtige Denkmodell für lange KI-Arbeiten, auch wenn sich die Implementierung des Anbieters oder Gateways unterscheidet: Die Benutzeranfrage erstellt einen dauerhaften Job, und die Anwendung wendet eine Warteschlangenfrist, eine Abfragekadenz, eine Stornierungsregel und eine Richtlinie zur Aufbewahrung von Ergebnissen an.

Ein Warteschlangenbudget sollte definieren:

Warteschlangenfeld	Richtlinienfrage
Maximales Alter in der Warteschlange	Wie lange kann der Job warten, bevor er veraltet ist?
Abfrageintervall	Wie oft sollte die App den Status überprüfen, ohne übermäßige Last zu erzeugen?
Stornierungsregel	Wer kann stornieren und was passiert mit Teilarbeit?
Duplikatschutz	Wie verhindern Sie, dass ein Wiederholungsversuch denselben teuren Job zweimal erstellt?
Benutzerbenachrichtigung	Sieht der Benutzer ausstehende, fehlgeschlagene, stornierte oder abgeschlossene Vorgänge?
Kostenverantwortlicher	Welcher Schlüssel, welches Team, welcher Kunde oder welcher Workflow ist für die Ausgaben verantwortlich?

An dieser Stelle wird eine KI-API-Timeout-Strategie zu einer Betriebsrichtlinie und nicht nur zu einer SDK-Einstellung.

Budget für Wiederholungsversuche vor Fallback-Budget

Wiederholungsversuch und Fallback sind unterschiedliche Aktionen. Ein Wiederholungsversuch wiederholt denselben Vertrag. Ein Fallback ändert die Route, das Modell, den Anbieter, die Fähigkeit, die Kosten oder die Nachweisoberfläche.

Die Readmes der Python- und JavaScript-SDKs von OpenAI geben an, dass Verbindungsfehler, 408-Anfrage-Timeouts, 409-Konflikte, 429-Ratenbegrenzungen und Serverfehler standardmäßig zweimal mit kurzem exponentiellem Backoff wiederholt werden. Das ist ein nützliches SDK-Verhalten, kann aber Teams überraschen, die ihre eigenen Gateway-, Warteschlangen- und Job-Wiederholungsversuche hinzufügen. Zählen Sie jede Ebene.

Verwenden Sie ein Budget für Wiederholungsversuche wie dieses:

workflow: support_chat_answer
timeouts:
  connect_ms: 2000
  first_event_ms: 5000
  stream_idle_ms: 20000
  total_ms: 30000
retry:
  sdk_max_retries: 1
  gateway_max_retries: 1
  retry_only_before_partial_output: true
fallback:
  allowed_before_first_event:
    - reviewed_support_backup_route
  blocked_after_partial_output: true
  stop_when:
    - schema_contract_changes
    - tool_support_missing
    - cost_cap_exceeded
    - data_boundary_changes
evidence:
  required:
    - workflow
    - owner_key
    - requested_model
    - served_model
    - timeout_layer
    - retry_attempt
    - fallback_reason
    - usage_units

Für einen tiefergehenden Fallback-Evaluierungspfad verwenden Sie den Flatkey-Leitfaden zur Modell-Fallback-Evaluierung. Für wiederholungsspezifisches Verhalten verwenden Sie den Flatkey-Leitfaden zur KI-API-Wiederholungsstrategie.

Beobachtbarkeitsfelder entscheiden, ob das Timeout debuggbar ist

Ein Timeout ohne Nachweis ist nur eine Beschwerde. Die KI-API-Timeout-Strategie sollte genügend Felder erfordern, um zu beantworten, was fehlgeschlagen ist, wer dafür verantwortlich war, ob das Modell etwas generiert hat und wie viel der Versuch gekostet hat.

Nachweisfeld	Warum es in die Timeout-Richtlinie gehört
Workflow-Name	Verknüpft das Timeout mit einer Produktoberfläche
Besitzerschlüssel, Team, Kunde oder Umgebung	Weist die Verantwortung für Ausgaben und Vorfälle zu
Timeout-Ebene	Trennt Verbindungs-, Pool-, Lese-, Stream-Leerlauf-, Warteschlangen- und Fallback-Stopps
Angefordertes Modell und bereitgestelltes Modell	Macht Routenänderungen und Fallback sichtbar
Endpunktfamilie	Trennt Chat, Antworten, Anthropic, Gemini, Bild, Video und andere Formen
Anforderungs-ID oder Antwort-/Job-ID	Ermöglicht die Korrelation von Anbieter, Gateway und App
Anzahl der Wiederholungsversuche und Fallback-Grund	Verhindert versteckte Wiederholungsverstärkung
Nutzungseinheiten und Kostensignal	Hilft der Finanzabteilung bei der Überprüfung doppelter oder abgebrochener Arbeit
Flag für Teilausgabe	Schützt Benutzer vor doppelten gestreamten Antworten

Die aktuelle öffentliche Website von Flatkey positioniert das Produkt rund um einheitlichen Modellzugriff, Routing, Abrechnung, Nutzungsanalysen und Betriebskontrollen. Die aktuelle Preisseite ist der Überprüfungspfad für Modellzugriffs-, Routing- und Abrechnungsoptionen, und der Snapshot der Preis-API vom 3. Juli 2026 enthüllte Endpunktfamilien wie openai, anthropic, gemini, image-generation, openai-video und video. Behandeln Sie diese als veraltete Nachweise, nicht als permanente Verfügbarkeitsansprüche. Validieren Sie immer den aktuellen Katalog und führen Sie vor dem Produktions-Rollout einen kleinen Routentest durch.

Ein praktischer Rollout-Plan

Verwenden Sie diese Rollout-Sequenz, wenn Sie eine KI-API-Timeout-Strategie hinzufügen oder überarbeiten:

Wählen Sie einen Workflow aus und benennen Sie den Verantwortlichen.
Wählen Sie Budgets für Verbindung, Pool, Lesen, erstes Stream-Ereignis, Stream-Leerlauf, Warteschlange, Wiederholungsversuche und Fallback.
Deaktivieren Sie doppelte Wiederholungsebenen oder senken Sie sie, damit die Gesamtzahl der Versuche klar ist.
Fügen Sie eine Protokollierung der Timeout-Ebene hinzu, bevor Sie das Routenverhalten ändern.
Führen Sie normale, langsame, ratenbegrenzte, gestreamte und kontrollierte Fehlertestfälle aus.
Bestätigen Sie, dass Wiederholungsversuche stoppen, bevor eine Teilausgabe dupliziert wird.
Bestätigen Sie, dass der Fallback die erforderlichen Tools, das Schema, die Datengrenze und die Kostenerwartungen beibehält.
Überprüfen Sie Anforderungsprotokolle, Nutzungseinheiten und Kostennachweise in Flatkey.
Verschieben Sie nur den getesteten Workflow in die Produktion.
Wiederholen Sie dies für den nächsten Workflow, anstatt eine globale Timeout-Richtlinie zu deklarieren.

Die beste KI-API-Timeout-Strategie ist klein genug zum Testen und streng genug zum Stoppen. Sie sollte ein Timeout langweilig machen: eine Ebene ist fehlgeschlagen, das Budget für Wiederholungsversuche war klar, der Fallback blieb entweder innerhalb des genehmigten Vertrags oder wurde gestoppt, und die Protokolle zeigen, was passiert ist.

FAQ

Was ist eine KI-API-Timeout-Strategie?

Eine KI-API-Timeout-Strategie ist eine Richtlinie auf Workflow-Ebene, die separate Budgets für den Verbindungsaufbau, die Anfrage-/Lesezeit, das erste Streaming-Ereignis, Streaming-Leerlauf-Lücken, Hintergrund-Warteschlangen, Wiederholungsversuche, Fallback und Beobachtbarkeit festlegt.

Warum nicht das Standard-Timeout des SDK verwenden?

SDK-Standardeinstellungen sind breite Sicherheitsleitplanken. Produktionsanwendungen benötigen engere Budgets, die auf Benutzererfahrung, Kosten, Wiederholungsverhalten und Workflow-Risiko basieren. Die offiziellen SDKs von OpenAI legen Timeout-Einstellungen offen, sodass Teams Workflow-spezifische Limits festlegen können.

Sollte jeder Timeout ein Fallback auslösen?

Nein. Ein Verbindungs-Timeout kann sicher wiederholt oder umgangen werden. Ein Stream-Idle-Timeout nach einer teilweise für den Benutzer sichtbaren Ausgabe sollte normalerweise sauber beendet werden. Ein Finanz- oder Compliance-Workflow erfordert möglicherweise eine Warteschlange oder eine menschliche Überprüfung anstelle eines automatischen Fallbacks.

Wie viele Wiederholungsversuche sollte eine KI-Anfrage erhalten?

Zählen Sie alle Wiederholungsebenen zusammen: SDK, Gateway, Worker, Warteschlange und Anwendung. Halten Sie die Gesamtzahl klein, protokollieren Sie jeden Versuch und stoppen Sie, bevor Wiederholungen doppelte Kosten oder inkonsistente, für den Benutzer sichtbare Ausgaben verursachen.

Was sollten Teams zuerst messen?

Beginnen Sie mit der Timeout-Rate pro Ebene, der Zeit bis zum ersten Ereignis, Stream-Idle-Fehlern, der Wiederholungsverstärkung, der Fallback-Rate, den Kosten pro akzeptiertem Ergebnis und dem Alter ungelöster Warteschlangen. Diese Metriken zeigen, ob die Timeout-Richtlinie den Workflow schützt oder den Vorfall verbirgt.

Wie hilft Flatkey bei Timeout-Operationen?

Flatkey bietet Teams eine einzige Gateway-Oberfläche für den Zugriff auf verbundene Modelle, Routing, Abrechnung, Nutzungsanalysen und operative Kontrollen. Verwenden Sie es, um das aktuelle Modell und den Endpunktpfad zu überprüfen, Anforderungsnachweise zu beobachten und Entscheidungen zu Timeout, Wiederholung, Fallback und Kosten an einen einzigen Eigentümerschlüssel zu binden.

Beginnen Sie mit den Flatkey-Preisen, wählen Sie einen Workflow aus, holen Sie sich dann einen Schlüssel und testen Sie das Timeout-Budget, bevor Sie den Produktionsverkehr darüber leiten.

LLM-Gateway-Fehlertaxonomie: Trennung von Auth-, Quoten-, Provider- und Sicherheitsfehlern

3. Juli 2026Big Y

Reliability and Routing

Umgang mit KI-API-Ratenbegrenzungen: Backoff, Warteschlange, Fallback oder Fail-Closed