AI Gateway Architecture2 июля 2026 г.Big Y

Проектирование политики маршрутизации моделей: подбор модели, стоимости, задержки и рисков для каждого рабочего процесса

Разработайте политику маршрутизации моделей, которая сопоставляет рабочие процессы ИИ с маршрутами моделей, резервными правилами, пределами стоимости, SLO по задержке, шлюзами рисков и проверками свидетельств.

Любой продукт на базе ИИ со временем перерастает использование одной модели по умолчанию. Боту поддержки, ревьюеру кода, экстрактору счетов, помощнику по созданию промптов для изображений и внутреннему агенту для исследований не нужны одинаковые целевые показатели задержки, бюджет контекста, глубина рассуждений, поведение инструментов, правила отката или цепочка согласований. Политика маршрутизации моделей превращает эти компромиссы в рабочий контракт, а не в кучу разрозненных строк model=.

Цель не в том, чтобы выбрать одну «лучшую» модель. Цель — сделать выбор модели обозримым. Хорошая политика маршрутизации моделей подсказывает инженерам, какой класс моделей использовать, когда тратить больше, когда оптимизировать задержку, когда блокировать откат и какие доказательства должны существовать, прежде чем рабочий процесс будет запущен в продакшен.

Flatkey важен в этом обсуждении, потому что маршрутизацией легче управлять, когда доступ к моделям, ключи, журналы запросов, аналитика использования, обзор цен и операционные элементы управления находятся в одном месте. Используйте приведенную ниже политику в качестве основы для проектирования, а затем проверьте текущий каталог моделей и страницу с ценами Flatkey перед запуском в продакшен.

Проектирование политики маршрутизации моделей в одной таблице

Начните с классов рабочих процессов, а не с названий провайдеров. Таблица ниже — это практический первый шаг к созданию политики маршрутизации моделей.

Класс рабочего процесса	Основной маршрут	Правило стоимости	Правило задержки	Правило риска	Правило отката	Требуемые доказательства
Быстрая классификация	Малая или простая текстовая модель	Наименьшая стоимость при прохождении оценок	Жесткая цель по p95	Низкий бизнес-риск	Безопасно повторять или понижать	Выборка точности, задержка p95, стоимость за 1000 вызовов
Чат с клиентами	Сбалансированная модель с поддержкой инструментов	Ограничение на диалог или аккаунт	Низкий p95 и стабильная потоковая передача	Средний риск	Откат только на модели с проверенным тоном и поведением инструментов	Оценки диалогов, проверки отказов, успешность вызова инструментов, контроль качества транскриптов
Код и технические рассуждения	Модель с сильными способностями к рассуждению	Тратить больше только на сложные задачи	Более свободный бюджет задержки	Средний или высокий риск	Откат на проверенный аналогичный маршрут, а не на слабую модель	Оценки задач, корректность diff, трассировка инструментов, путь отката
Структурированное извлечение	Модель с поддержкой схем	Оптимизация на каждую валидную запись	Пакетный или почти реального времени	Средний риск	Повтор с тем же или более строгим маршрутом перед откатом	Доля валидных схем, точность полей, таксономия ошибок
Проверка закупок или финансов	Закрепленный проверенный маршрут модели	Стоимость вторична по отношению к аудируемости	Допустим асинхронный режим	Высокий риск	Нет автоматического отката без согласования	Трассировка источника, версия модели, журнал запросов, подпись ревьюера
Фоновое суммирование	Более дешевый или пакетный маршрут	Минимизация стоимости на принятое резюме	Асинхронный	Низкий или средний риск	Откат после исчерпания бюджета на повторы	Качество выборки, частота повторов, метрики кэшированных токенов

Эта таблица — не окончательная политика. Это поверхность для принятия решений. Каждая строка требует измеримых критериев, прежде чем стать производственной маршрутизацией.

Что должна определять политика маршрутизации моделей

Политика маршрутизации моделей — это письменное правило, которое сопоставляет рабочий процесс с возможностями модели, потолками затрат, SLO по задержке, поведением при откате и требованиями к доказательствам. Она должна отвечать на шесть вопросов для каждого производственного рабочего процесса:

Что рабочий процесс пытается оптимизировать: скорость, качество, стоимость, надежность, безопасность, модальность, длину контекста или аудируемость?
Какие возможности требуются: вызов инструментов, структурированный вывод, длинный контекст, ввод изображений, потоковая передача, низкий уровень рассуждений, высокий уровень рассуждений или поддержка специфичных для провайдера эндпоинтов?
Каков бюджет на сбои: повторить, откатить, ухудшить, поставить в очередь, спросить человека или остановить?
Что может меняться автоматически: провайдер, размер модели, усилие на рассуждение, таймаут, группа маршрутов или ничего?
Что должно логироваться: запрошенная модель, предоставленная модель, маршрут, статус, единицы использования, стоимость, попытка отката и владелец?
Какие доказательства необходимы перед запуском: оценка (eval score), выборка задержек, тест квоты, трассировка биллинга, проверка безопасности или одобрение отдела закупок?

Текущее руководство OpenAI по GPT-5.5 полезно в этом контексте, поскольку оно рассматривает конфигурацию API как часть производительности модели, а не как второстепенный аспект. В документации упоминаются обработка состояния Responses API, усилие на рассуждение, многословность, структурированные выводы, кэширование промптов, дизайн инструментов, хостируемые инструменты и управление состоянием как факторы, влияющие на интеллект, надежность, задержку и стоимость. Это именно те аспекты, которые должна сохранять политика маршрутизации моделей.

Аспект политики 1: риск рабочего процесса

Риск — это первое разделение в маршрутизации, поскольку он контролирует допустимый уровень автоматизации.

Рабочие процессы с низким риском обычно допускают повторные попытки, более дешевые маршруты и широкий откат. Примеры включают внутреннюю разметку, краткие резюме, черновики предложений и некритическую классификацию. Это хорошие кандидаты для агрессивного контроля затрат, поскольку случайные повторы или выборочные проверки приемлемы.

Рабочие процессы со средним риском требуют более строгих приемочных тестов. Поддержка клиентов, автоматизация рабочих процессов, предложения по коду и инструменты помощи в продажах могут не требовать проверки человеком каждый раз, но они требуют проверок тона, проверок вызовов инструментов и доказательств маршрутизации при возникновении ошибок.

Рабочие процессы с высоким риском должны быть закреплены более жестко. Проверки закупок, юридические резюме, финансовые согласования, решения по безопасности и регулируемые рабочие процессы не должны молча откатываться на другую модель или провайдера только потому, что основной маршрут медленный. Политика маршрутизации моделей должна требовать явного одобрения, прежде чем откат изменит профиль риска.

Простое правило: если после неудачного результата человек спросит «какая модель на самом деле ответила на это?», маршруту требуется более надежное логирование и менее активный автоматический откат.

Аспект политики 2: задержка и пользовательский опыт

Задержка должна быть частью политики, потому что одна и та же модель может быть приемлемой для асинхронного рабочего процесса и неприемлемой для интерактивного продукта.

Для интерактивного чата установите ожидания для p50, p95, тайм-аута и потоковой передачи. Если время до первого токена имеет значение, измеряйте его отдельно от общего времени завершения. Для фоновых задач вместо этого определите максимальное время в очереди и крайний срок завершения.

Не устанавливайте расплывчатое правило вроде «использовать быструю модель». Запишите политику маршрутизации моделей в виде тестируемой цели:

workflow: support_chat_triage
latency:
  p95_first_token_ms: 1200
  p95_complete_ms: 7000
  timeout_ms: 10000
fallback:
  on_timeout: use_reviewed_balanced_route
  on_schema_error: retry_same_route_once
  on_safety_or_policy_error: stop_and_escalate

Документация OpenAI по кэшированию промптов — еще одно напоминание о том, что задержка зависит не только от выбора модели. Стабильные префиксы промптов, согласованные ключи кэша и мониторинг попаданий в кэш могут существенно изменить задержку и стоимость входных токенов для повторяющихся рабочих нагрузок. Если кэширование является частью плана, сделайте его требованием политики и логируйте метрики кэшированных токенов.

Аспект политики 3: потолки стоимости

Контроль затрат должен выражаться в расчете на результат рабочего процесса, а не только на токен. Дешевый маршрут, который часто дает сбой, может стоить дороже, чем более надежный маршрут, который срабатывает с первой попытки.

Используйте три ограничения стоимости:

Ограничение	Пример	Почему это важно
За запрос	Максимальная стоимость одного запроса, задания по обработке изображения, видео или одного шага диалога	Предотвращает неожиданные расходы от одного вызова для финансового отдела
За рабочий процесс	Максимальная стоимость за завершенный тикет, извлечение данных, ответ или документ	Учитывает повторные попытки и откат
За владельца	Бюджет по приложению, команде, клиенту, среде или ключу	Связывает расходы с ответственностью

Страница с ценами Flatkey полезна на этом этапе, поскольку она предоставляет командам актуальную модель и путь для анализа цен, в то время как интерфейс продукта акцентирует внимание на измерении использования, логах запросов, аналитике использования и контроле затрат. Перед производственной маршрутизацией проверьте текущую страницу /pricing и подтвердите строку модели, семейство конечных точек и единицу использования для фактического рабочего процесса.

Аспект политики 4: соответствие возможностей

Проектирование политики маршрутизации моделей должно начинаться с требуемых возможностей. Цена и задержка имеют значение только после того, как маршрут сможет выполнить свою работу.

Для каждого рабочего процесса оцените следующие возможности:

Возможность	Вопрос к маршруту	Приемочный тест
Использование инструментов	Правильно ли маршрут вызывает необходимые инструменты?	Процент успешных вызовов инструментов и валидация аргументов
Структурированный вывод	Удовлетворяет ли маршрут схеме?	Процент валидных JSON/схем плюс точность на уровне полей
Длинный контекст	Сохраняет ли маршрут инструкции и релевантный контекст?	Оценка на длинных документах с ожидаемыми цитатами или полями
Зрение или файлы	Обрабатывает ли маршрут фактическую модальность ввода?	Набор реальных примеров с покрытием по размеру и формату
Потоковая передача	Сохраняет ли маршрут форму событий и поведение при восстановлении?	Дымовой тест SSE/потоковой передачи и обработка тайм-аутов
Поведение в области безопасности	Правильно ли маршрут отказывает или эскалирует?	Промпты для red-teaming и проверки отказов/переопределений

Документация OpenAI по структурированным выводам (Structured Outputs) рекомендует использовать вывод на основе схемы, когда приложению требуется надежная структура. Для политики маршрутизации это означает, что маршрут, который не может удовлетворить контракт вывода, не должен использоваться для структурированного извлечения данных только потому, что он дешевле.

Аспект политики 5: границы отката

Откат не всегда является благом. Он может спасти время безотказной работы, но также может изменить поведение, обработку контекста, цену, границы данных, поддержку инструментов или форму вывода.

Записывайте правила отката в виде явных переходов:

workflow: invoice_extraction
primary_route: extraction_schema_route
allowed_fallbacks:
  - extraction_schema_route_backup
blocked_fallbacks:
  - general_chat_route
  - creative_writing_route
fallback_triggers:
  retry_same_route_once:
    - transient_5xx
    - rate_limit
  stop_and_queue:
    - schema_invalid_after_retry
    - unsupported_file_type
    - compliance_flag
evidence:
  log_requested_model: true
  log_served_model: true
  log_fallback_reason: true
  log_usage_units: true

Зрелая политика маршрутизации моделей разделяет повторную попытку (retry) и откат (fallback). Повторная попытка означает «попробовать тот же контракт еще раз». Откат означает «изменить маршрут». Это изменение должно быть видно в логах и принято владельцем рабочего процесса.

Аспект политики 6: наблюдаемость и данные для биллинга

Маршрутизация без данных — это гадание. Ваша политика должна определять поля, которые должен предоставлять каждый производственный запрос.

Поле данных	Почему оно должно быть в политике
Название рабочего процесса	Связывает расходы и ошибки с бизнес-процессом
Приложение, команда, ключ или владелец-клиент	Обеспечивает возврат платежей и владение инцидентами
Запрошенная модель и обслужившая модель	Показывает, произошел ли откат или замена маршрута
Семейство конечных точек	Разделяет чат, ответы, изображения, видео, Anthropic, Gemini и другие формы маршрутов
Статус и класс ошибки	Различает ошибки провайдера, ошибки шлюза, остановки по политике и ошибки валидации
Единицы использования	Позволяет финансовому отделу сверять использование текста, кеша, изображений, аудио и видео
Влияние на стоимость или баланс	Преобразует инженерные трассировки в расходы, доступные для проверки
Причина отката	Объясняет, почему политика изменила маршрут

Текущее публичное позиционирование Flatkey соответствует этой потребности в данных: один шлюз для доступа к моделям, маршрутизации, биллинга, аналитики использования и операционного контроля. Для этой статьи проверка API цен в реальном времени 2 июля 2026 года вернула success: true и показала семейства конечных точек, включая openai, openai-response, anthropic, gemini, image-generation, openai-video и video. Рассматривайте это как устаревшие исходные данные, а не как обещание, что каждый маршрут, строка модели или единица цены останутся неизменными.

Практический шаблон политики маршрутизации моделей

Используйте этот шаблон в качестве первой версии вашего внутреннего стандарта маршрутизации.

policy_name: customer_support_v1
owner:
  team: support_platform
  approver: product_and_finance
workflow:
  description: классификация, ответ и эскалация запросов в поддержку
  environment: production
  data_sensitivity: customer_content
route_selection:
  primary_route: balanced_support_route
  required_capabilities:
    - tool_calling
    - structured_outputs
    - streaming
  blocked_routes:
    - experimental_models
    - unreviewed_provider_routes
latency:
  p95_first_token_ms: 1200
  p95_complete_ms: 7000
cost:
  max_cost_per_conversation: approved_budget
  owner_key: support_platform_prod
risk:
  human_review_required_when:
    - refund_exception
    - legal_or_policy_question
    - confidence_below_threshold
fallback:
  retry_same_route_once:
    - transient_error
    - rate_limit
  fallback_to_backup_route:
    - primary_route_unavailable
  stop_without_fallback:
    - safety_refusal
    - schema_invalid_after_retry
    - unapproved_data_region
evidence:
  required_logs:
    - workflow
    - requested_model
    - served_model
    - endpoint_family
    - route_status
    - usage_units
    - cost_or_balance
    - fallback_reason
acceptance_tests:
  min_eval_pass_rate: 0.95
  max_schema_error_rate: 0.01
  max_unreviewed_fallback_rate: 0

Точные названия маршрутов будут отличаться в зависимости от команды. Важно то, что политика делает выбор модели, откат, стоимость, задержку и доказательства доступными для проверки.

Приемочные тесты перед запуском в производство

Не внедряйте политику маршрутизации моделей, не проведя тесты, имитирующие нормальные и сбойные сценарии.

Прогоните «золотой» набор данных через основной маршрут и зафиксируйте качество, валидность схемы, задержку и использование.
Инициируйте сценарий с ограничением скорости или временной ошибкой и проверьте поведение повторных попыток.
Инициируйте сбой схемы и убедитесь, что политика выполняет повторную попытку, останавливается или эскалирует, как это прописано.
Инициируйте заблокированный откат и убедитесь, что шлюз не меняет маршрут без уведомления.
Сравните запрошенную модель, обслужившую модель, семейство конечных точек и единицы использования в логах.
Проверьте, может ли финансовый отдел сопоставить те же самые примеры запросов со стоимостью, предоплаченным балансом, счетом или строками экспорта.
Запустите тест отката, который закрепляет предыдущий маршрут или отключает резервный вариант.

Для более глубокого понимания архитектуры шлюза используйте этот чек-лист вместе с руководствами Flatkey по шлюзам AI API, архитектуре шлюзов LLM API и балансировке нагрузки и отказоустойчивости AI API.

Какую роль играет Flatkey

Flatkey не должен заменять политику. Он должен упрощать ее применение и проверку.

Используйте Flatkey, когда команде нужен один ключ для подключенных моделей ИИ, путь для проверки текущих цен и каталога моделей, видимость использования, доказательства на уровне запросов, квоты и более простой процесс биллинга по сравнению с разрозненными аккаунтами провайдеров. Политика маршрутизации моделей все равно требует владельцев, приемочных тестов, ограничений маршрутов, правил отката и планов отката.

Практический тестовый запуск Flatkey выглядит так:

Выберите один рабочий процесс, подобный производственному, и один ключ владельца.
Подтвердите текущую строку модели и семейство конечных точек на странице цен Flatkey.
Отправьте обычные, потоковые, структурированные запросы и запросы с контролируемым сбоем, если рабочий процесс их использует.
Просмотрите логи запросов на предмет запрошенной модели, обслужившей модели, статуса, единиц использования и доказательств отката.
Подтвердите поведение квот и проверку стоимости или баланса с владельцем рабочего процесса.
Перенесите в производство только протестированный маршрут, а затем расширяйте политику строка за строкой.

Это позволяет основывать политику маршрутизации моделей на реальных данных, а не на архитектурной диаграмме.

Часто задаваемые вопросы

Что такое политика маршрутизации моделей?

Политика маршрутизации моделей — это письменное правило, которое сопоставляет каждый рабочий процесс ИИ с утвержденным маршрутом модели, требованиями к возможностям, потолком затрат, целевой задержкой, поведением при откате и чек-листом для сбора доказательств.

Почему бы не направлять каждый запрос на самую сильную модель?

Самый надежный маршрут часто оказывается медленнее и дороже, чем требуется для рабочего процесса. Политика маршрутизации моделей позволяет рабочим процессам с низким риском использовать эффективные маршруты, сохраняя при этом более надежные маршруты для сложных рассуждений, ответственных решений или ценной работы.

Когда следует блокировать резервный вариант?

Блокируйте резервный вариант, когда изменение маршрута может повлиять на обработку данных, соответствие требованиям, схему вывода, поведение инструментов, качество для пользователя или владение счетами. В таких случаях ставьте задачу в очередь, повторяйте попытку или эскалируйте, вместо того чтобы молча изменять маршрут модели.

Как часто командам следует обновлять политику маршрутизации моделей?

Пересматривайте ее при каждом изменении каталогов моделей, единиц ценообразования, поведения конечных точек, требований к рискам или результатов оценки. Как минимум, пересматривайте активные производственные политики ежеквартально и после любой крупной миграции моделей.

За какой метрикой следить в первую очередь?

Следите за стоимостью за принятый результат, а не только за стоимостью за токен. Затем сопоставьте ее с задержкой p95, частотой использования резервных вариантов, долей валидных схем и данными биллинга на уровне запросов.

Как Flatkey помогает в проектировании политики маршрутизации моделей?

Flatkey может предоставить единый шлюз для доступа к моделям, анализа цен, маршрутизации, аналитики использования, журналов запросов, квот и анализа счетов. Это дает командам практическую возможность проверить, соответствует ли поведение политики маршрутизации моделей ее описанию.

Начните с цен Flatkey, выберите один рабочий процесс, затем получите ключ и проведите небольшое тестирование, чтобы проверить поведение маршрута, журналы, квоты, стоимость, резервные варианты и откат перед развертыванием в производственной среде.

Управление шлюзом для ИИ-агентов: использование инструментов, бюджеты, логи и условия остановки

2 июл. 2026 г.Big Y

AI Gateway Architecture

Маршрутизация по контекстному окну: выбирайте модели по размеру промпта, не теряя контроля над затратами