Reliability and Routing3 tháng 7, 2026Big Y

Phân loại lỗi LLM Gateway: Phân tách các lỗi Xác thực, Hạn ngạch, Nhà cung cấp và An toàn

Cẩm nang đảm bảo độ tin cậy trong môi trường production để phân loại các lỗi của LLM gateway thành các luồng xác thực, hạn ngạch, nhà cung cấp, yêu cầu, an toàn và hủy bỏ trước khi thử lại hoặc sử dụng phương án dự phòng.

Phân loại lỗi cổng LLM là sự khác biệt giữa một sự cố được kiểm soát và một cơn bão thử lại tốn kém. Một cổng không nên coi mọi lệnh gọi mô hình thất bại là cùng một loại lỗi từ nhà cung cấp. Thông tin xác thực không hợp lệ, hết hạn ngạch, quá tải nhà cung cấp, yêu cầu không đúng định dạng, từ chối vì lý do an toàn, hết thời gian chờ và hủy bỏ từ phía máy khách đều cần các đường dẫn khôi phục khác nhau.

Lỗi phổ biến là gửi mọi thất bại vào cùng một vòng lặp thử lại và dự phòng. Điều đó có thể che giấu một khóa đã bị thu hồi, đốt cháy giới hạn chi tiêu, định tuyến nội dung không an toàn đến một nhà cung cấp khác, hoặc lặp lại công việc sau khi một phản hồi truyền trực tuyến đã bắt đầu. Một hệ thống phân loại lỗi cổng LLM thực tế cung cấp cho các đội kỹ thuật, sản phẩm và tài chính một ngôn ngữ chung để mô tả những gì đã xảy ra và những gì cổng nên làm tiếp theo.

Flatkey phù hợp với mô hình hoạt động này vì trang web công khai hiện tại của nó định vị sản phẩm như một bề mặt cổng duy nhất cho việc truy cập mô hình, định tuyến, thanh toán, phân tích sử dụng và kiểm soát hoạt động. Sử dụng bề mặt chia sẻ đó để phân loại các lỗi trước khi chọn hành vi thử lại, xếp hàng, dự phòng hoặc đóng khi thất bại.

Phân loại lỗi cổng LLM trong một bảng

Bắt đầu với loại lỗi, không chỉ riêng trạng thái HTTP. Cùng một họ trạng thái có thể có ý nghĩa khác nhau giữa các nhà cung cấp, SDK và hình dạng điểm cuối.

Loại lỗi	Tín hiệu phổ biến	Thử lại?	Dự phòng?	Hành động của chủ sở hữu
Xác thực và quyền	`401`, `403`, khóa không hợp lệ, khóa bị thu hồi, dự án sai, IP không được ủy quyền, quyền bị từ chối	Không tự động thử lại	Không	Xoay vòng hoặc sửa chữa thông tin xác thực, dự án, danh sách cho phép hoặc quyền
Hạn ngạch và giới hạn tốc độ	`429`, giới hạn tốc độ, hết hạn ngạch, giới hạn chi tiêu, giới hạn token/yêu cầu, `RESOURCE_EXHAUSTED`	Đôi khi, với backoff có giới hạn hoặc xếp hàng	Chỉ trong các quy tắc chi phí và chất lượng đã được phê duyệt	Giảm đồng thời, kiểm tra mức sử dụng, tăng giới hạn hoặc ngừng chi tiêu
Nhà cung cấp và vận chuyển	`500`, `503`, `529`, quá tải, hết thời gian chờ, đặt lại kết nối, lỗi kết nối SDK	Đôi khi, nếu có tính bất biến và trong thời hạn	Đôi khi, trước khi có đầu ra một phần và trong hợp đồng	Kiểm tra trạng thái nhà cung cấp, sức khỏe định tuyến, ngân sách thời gian chờ và khuếch đại thử lại
Yêu cầu và xác thực	`400`, `422`, JSON không đúng định dạng, mô hình không hợp lệ, tham số không được hỗ trợ, ngữ cảnh quá dài	Không, trừ khi yêu cầu được thay đổi	Hiếm khi	Sửa lược đồ, kích thước prompt, hình dạng điểm cuối hoặc khả năng của mô hình
An toàn và chính sách	từ chối, chặn kiểm duyệt, chặn prompt, `finishReason: SAFETY`, lỗi chính sách nội dung	Không tự động thử lại	Không dự phòng bỏ qua	Hiển thị thông báo an toàn cho người dùng, ghi lại bối cảnh an toàn, yêu cầu đầu vào đã sửa đổi khi thích hợp
Hủy bỏ từ máy khách và thời hạn	người dùng hủy bỏ, hết thời gian chờ của máy khách, thời hạn của máy chủ, luồng bị ngắt kết nối	Không thử lại một cách mù quáng	Chỉ khi không có đầu ra hoặc tác dụng phụ nào được thực hiện	Dừng công việc, đánh dấu hủy bỏ, bảo toàn trạng thái đầu ra một phần

Hệ thống phân loại lỗi cổng LLM này được cố ý định hướng hành động. Nó không chỉ dán nhãn lỗi cho các bảng điều khiển. Nó quyết định khi nào hệ thống có thể chi tiêu nhiều token hơn, khi nào nó phải yêu cầu chủ sở hữu sửa chữa trạng thái và khi nào nó nên dừng lại.

Phân loại trước khi thử lại

Tài liệu chính thức của nhà cung cấp hỗ trợ việc phân tách các loại lỗi này. Hướng dẫn về lỗi của OpenAI phân biệt giữa xác thực không hợp lệ, khóa API không chính xác, lỗi danh sách IP cho phép, giới hạn tốc độ, hết hạn ngạch hoặc thanh toán, lỗi máy chủ, quá tải, lỗi kết nối SDK, hết thời gian chờ SDK, yêu cầu không đúng định dạng, từ chối quyền và các ngoại lệ giới hạn tốc độ. Hướng dẫn về giới hạn tốc độ của nó khuyến nghị sử dụng backoff theo cấp số nhân ngẫu nhiên nhưng cũng lưu ý rằng các yêu cầu thất bại vẫn được tính vào giới hạn mỗi phút.

Tài liệu về lỗi của Anthropic phân tách invalid_request_error, authentication_error, permission_error, not_found_error, request_too_large, rate_limit_error, api_error, và overloaded_error. Anthropic cũng ghi lại các giới hạn tốc độ 429 với hướng dẫn retry-after, và hướng dẫn về lý do dừng của nó bao gồm refusal như một điều kiện dừng ở cấp độ mô hình.

Khắc phục sự cố Gemini ánh xạ các lỗi xác thực và quyền riêng biệt với lỗi 429 RESOURCE_EXHAUSTED, lỗi nội bộ 500 và tình trạng không khả dụng 503. Tài liệu về giới hạn tốc độ của Gemini mô tả các chiều kích về yêu cầu, token, yêu cầu hàng ngày và chi tiêu. Cài đặt an toàn của Gemini cũng hiển thị các khối prompt, finishReason của ứng viên và safetyRatings, bao gồm finishReason là SAFETY khi nội dung phản hồi bị chặn.

Bằng chứng đó dẫn đến một quy tắc đơn giản: một hệ thống phân loại lỗi cổng LLM nên chuẩn hóa các tín hiệu dành riêng cho nhà cung cấp thành các trường quyết định trước khi cổng chọn một hành động.

Lỗi xác thực và quyền truy cập

Các lỗi xác thực và quyền truy cập nên dừng lại ngay lập tức. Việc thử lại một khóa không hợp lệ hoặc một dự án bị cấm thường chỉ tạo thêm nhiễu mà không thay đổi kết quả.

Chuẩn hóa các tín hiệu này vào lớp xác thực:

Tín hiệu	Ý nghĩa có thể	Hành vi của cổng
`401` xác thực không hợp lệ	Khóa sai, hết hạn, bị thu hồi, định dạng sai hoặc từ dự án không đúng	Không thử lại; cảnh báo chủ sở hữu khóa
`401` vấn đề về tư cách thành viên tổ chức hoặc dự án	Người gọi không thuộc tổ chức hoặc dự án được yêu cầu	Không thử lại; chuyển đến chủ sở hữu tài khoản
`401` hoặc `403` danh sách IP cho phép hoặc vấn đề về quyền truy cập	Yêu cầu đến từ mạng không đúng hoặc thiếu quyền truy cập điểm cuối	Không thử lại; hiển thị bằng chứng về quyền truy cập
Lỗi `authentication_error` hoặc `permission_error` của nhà cung cấp	Xác thực hoặc từ chối truy cập dành riêng cho nhà cung cấp	Không chuyển sang phương án dự phòng; sửa thông tin xác thực hoặc cấp quyền

Trong một cổng, các lỗi xác thực nên bao gồm owner_key, credential_id, project_id, provider, endpoint_family, requested_model, và route_id. Tránh ghi lại các bí mật thô. Sự cố cần trả lời được khóa nào đã thất bại, tuyến nào đã cố gắng thực hiện cuộc gọi, và ai có thể khắc phục nó.

Chuyển sang phương án dự phòng thường là sai lầm đối với các lỗi xác thực. Nếu một nhóm chưa phê duyệt một nhà cung cấp, việc âm thầm chuyển sang một nhà cung cấp khác có thể bỏ qua các chính sách về mua sắm, ranh giới dữ liệu hoặc mô hình. Phản ứng được kiểm soát là một lỗi rõ ràng, một cảnh báo cho chủ sở hữu, và một lộ trình khắc phục.

Lỗi hạn ngạch và giới hạn tốc độ

Lỗi hạn ngạch và giới hạn tốc độ là loại lỗi thường bị ảnh hưởng nhiều nhất bởi logic thử lại không rõ ràng. Lỗi 429 có thể có nghĩa là điều chỉnh tốc độ đột biến, giới hạn yêu cầu mỗi phút, giới hạn token mỗi phút, giới hạn yêu cầu hàng ngày, hết ngân sách hàng tháng, hết tín dụng trả trước, hoặc giới hạn dựa trên chi tiêu. Những trường hợp đó không có chung một con đường phục hồi.

Sử dụng hệ thống phân loại lỗi cổng LLM này cho các quyết định về hạn ngạch:

Tín hiệu hạn ngạch	Lộ trình thử lại	Lộ trình xếp hàng	Lộ trình dừng
429 với `Retry-After`	Tôn trọng header nếu nó phù hợp với thời hạn của quy trình làm việc	Xếp hàng các công việc không tương tác cho đến thời gian thử lại	Dừng nếu thời gian chờ vượt quá thời hạn
429 không có gợi ý thời gian chờ	Sử dụng backoff ngẫu nhiên có giới hạn cho một ngân sách thử lại nhỏ	Giảm đồng thời cho chủ sở hữu, tuyến, hoặc họ điểm cuối	Dừng nếu các lần thử lặp lại làm tăng mức sử dụng mỗi phút
Chiều giới hạn token	Giảm prompt, output, kích thước lô, hoặc đồng thời	Xếp hàng các công việc lớn và chạy lại với các lô nhỏ hơn	Dừng nếu yêu cầu không thể phù hợp với hợp đồng mô hình hoặc ngữ cảnh
Hết chi tiêu hoặc tín dụng	Không tự động thử lại	Chỉ xếp hàng nếu chủ sở hữu tài chính đã phê duyệt nạp tiền hoặc tăng ngân sách	Thất bại và đóng lại, lưu giữ bằng chứng chi phí
Hết hạn ngạch hàng ngày/dự án	Không thử lại trong vòng lặp ngắn	Trì hoãn các công việc theo lô cho đến khi đặt lại chỉ khi được phép	Thất bại và đóng lại đối với các yêu cầu hướng tới người dùng

Điều quan trọng là phải phân biệt giữa việc điều chỉnh tốc độ tạm thời và việc hết ngân sách. Backoff hữu ích khi nhà cung cấp yêu cầu bạn giảm tốc độ. Backoff không hữu ích khi tài khoản không có tín dụng hoặc công việc không thể phù hợp với ngân sách token có sẵn.

Kết hợp phần này với chiến lược thử lại AI API của Flatkey khi bạn cần một danh sách kiểm tra thử lại sâu hơn. Giữ cho các lần thử lại hiển thị trong nhật ký để bộ phận tài chính và vận hành có thể thấy chi tiêu token trùng lặp.

Lỗi nhà cung cấp và truyền tải

Lỗi nhà cung cấp và truyền tải khác với lỗi hạn ngạch. Chúng có nghĩa là yêu cầu có thể hợp lệ, khóa có thể hợp lệ, và ngân sách có thể có sẵn, nhưng tuyến không thể hoàn thành cuộc gọi.

Các tín hiệu phổ biến bao gồm:

Tín hiệu	Ý nghĩa	Quyết định của cổng
`500` hoặc lỗi `api_error` của nhà cung cấp	Lỗi nội bộ phía nhà cung cấp	Thử lại trong thời gian ngắn nếu là idempotent; kiểm tra trạng thái nếu lặp lại
`503` không khả dụng hoặc quá tải	Tình trạng dung lượng, bảo trì hoặc ngừng hoạt động của nhà cung cấp	Backoff hoặc chuyển sang phương án dự phòng trước khi có đầu ra một phần
Lỗi `overloaded_error` của Anthropic hoặc HTTP `529`	Quá tải dành riêng cho nhà cung cấp	Xem như là dung lượng của nhà cung cấp, không phải hạn ngạch của khách hàng
Lỗi kết nối SDK	Đường dẫn mạng, proxy, TLS, DNS, hoặc tường lửa thất bại	Chỉ thử lại khi đường dẫn truyền tải có khả năng là tạm thời
Hết thời gian chờ SDK	Yêu cầu vượt quá ngân sách thời gian chờ	Chỉ thử lại nếu thời hạn quy trình làm việc và tính idempotent cho phép
Mất kết nối streaming	Đầu ra một phần có thể đã tồn tại	Chỉ tiếp tục với chính sách stream rõ ràng

Chuyển sang phương án dự phòng của nhà cung cấp có thể hữu ích ở đây, nhưng nó cần một hợp đồng. Tuyến dự phòng phải bảo toàn hình dạng điểm cuối, công cụ, nhu cầu đầu ra có cấu trúc, cửa sổ ngữ cảnh, ranh giới dữ liệu, phê duyệt mô hình và giới hạn chi phí. Nếu streaming đã phát ra các token có thể nhìn thấy, hành vi an toàn hơn thường là dừng lại và hiển thị một lỗi được kiểm soát thay vì ghép nối đầu ra từ một tuyến khác.

Sử dụng độ tin cậy của API AI streaming để khôi phục dành riêng cho streaming, và sử dụng đánh giá dự phòng mô hình trước khi biến lỗi của nhà cung cấp thành thay đổi định tuyến tự động.

Lỗi yêu cầu và xác thực

Lỗi yêu cầu và xác thực thường không phải là sự cố từ nhà cung cấp. Chúng có nghĩa là người gọi đã gửi một thứ gì đó mà điểm cuối không thể xử lý.

Các ví dụ bao gồm thiếu các trường bắt buộc, JSON không đúng định dạng, các tham số không được hỗ trợ, họ điểm cuối sai, ID mô hình không hợp lệ, ngữ cảnh quá dài, lược đồ công cụ không được hỗ trợ, phương thức không tương thích, hoặc đầu vào tệp/hình ảnh/video không đáp ứng hợp đồng điểm cuối.

Gateway nên ghi lại các trường sau:

Trường	Tại sao nó quan trọng
`endpoint_family`	Phân tách các định dạng trò chuyện, phản hồi, tin nhắn tương thích với OpenAI, Gemini, hình ảnh và video
`requested_model`	Xác định tên mô hình không hợp lệ hoặc không được hỗ trợ
`request_schema_version`	Cho thấy liệu client và gateway có bất đồng hay không
`parameter_name`	Chỉ cho các kỹ sư đến trường bị lỗi
`input_token_estimate`	Phân tách đầu vào không đúng định dạng khỏi tràn ngữ cảnh
`client_sdk` và `sdk_version`	Tìm các vấn đề về di chuyển và tương thích

Không thử lại các lỗi xác thực không thay đổi. Hoặc chuyển đổi yêu cầu thành một định dạng hợp lệ hoặc trả về một lỗi dành cho nhà phát triển nêu rõ trường cần sửa. Khi một gateway hỗ trợ nhiều họ điểm cuối, lỗi xác thực đặc biệt quan trọng vì một yêu cầu có thể hợp lệ với nhà cung cấp này nhưng không hợp lệ với nhà cung cấp khác.

Lỗi an toàn và chính sách

Lỗi an toàn và chính sách cần có một lớp riêng vì việc thử lại và dự phòng có thể vô tình làm suy yếu các rào cản bảo vệ. Một từ chối an toàn không phải là thời gian ngừng hoạt động của nhà cung cấp. Một khối kiểm duyệt không phải là hết hạn ngạch. Một đầu ra bị chặn không phải là lý do để tiếp tục lấy mẫu cho đến khi gateway tìm thấy một tuyến đường phát ra nội dung bị cấm.

Chuẩn hóa các tín hiệu này vào lớp an toàn:

Tín hiệu	Bằng chứng theo kiểu nhà cung cấp	Hành vi của Gateway
Mô hình từ chối	Đầu ra có cấu trúc của OpenAI tiết lộ các từ chối; lý do dừng của Anthropic bao gồm `refusal`	Trình bày một phản hồi an toàn và không bỏ qua bằng cách dự phòng
Khối kiểm duyệt	Tài liệu an toàn của OpenAI khuyến nghị kiểm duyệt; lỗi hình ảnh có thể tiết lộ `moderation_blocked`	Ghi lại ngữ cảnh danh mục an toàn và yêu cầu đầu vào đã sửa đổi khi thích hợp
Khối lời nhắc	Cài đặt an toàn của Gemini tiết lộ `promptFeedback.blockReason`	Trả về một thông báo được kiểm soát trước khi gửi công việc tiếp theo
Khối đầu ra	Gemini có thể trả về `finishReason: SAFETY` và xếp hạng an toàn; nội dung bị chặn không được trả về	Không thử lại một cách mù quáng; ghi lại rằng đầu ra đã bị chặn
Quy tắc chính sách hoặc tuân thủ	Chính sách dành riêng cho ứng dụng, mua sắm, ranh giới dữ liệu, tuổi tác, hoặc quy tắc quy trình công việc được quy định	Thất bại đóng hoặc chuyển đến đánh giá của con người

Quy tắc thực tế rất đơn giản: một hệ thống phân loại lỗi gateway LLM không bao giờ nên coi an toàn là một sự cố có thể phục hồi của nhà cung cấp. Dự phòng chỉ có thể chấp nhận được khi tuyến đường dự phòng duy trì chính sách an toàn tương tự hoặc nghiêm ngặt hơn và mục tiêu là hoàn thành một phiên bản an toàn của nhiệm vụ, chứ không phải để bỏ qua khối chặn.

Bản ghi lỗi đã được chuẩn hóa

Một hệ thống phân loại lỗi gateway LLM hữu ích sẽ biến các lỗi cụ thể của nhà cung cấp thành một bản ghi bền vững duy nhất.

Trường được chuẩn hóa	Giá trị ví dụ	Công dụng
`error_class`	`auth`, `quota`, `provider`, `request`, `safety`, `cancelled`	Điều khiển việc nhóm runbook và dashboard
`http_status`	`401`, `403`, `429`, `500`, `503`, `529`	Bảo toàn tín hiệu giao thức
`provider_error_type`	`rate_limit_error`, `overloaded_error`, `RESOURCE_EXHAUSTED`, `moderation_blocked`	Bảo toàn ý nghĩa cụ thể của nhà cung cấp
`provider_error_code`	`insufficient_quota`, `invalid_api_key`, `SAFETY`	Hỗ trợ phân nhánh chính xác
`retry_after_ms`	Độ trễ lấy từ header hoặc null	Ngăn chặn việc đoán thời gian thử lại
`retryable`	`true` hoặc `false`	Tách biệt chính sách mã khỏi văn bản giao diện người dùng
`fallback_allowed`	`true` hoặc `false`	Thực thi hợp đồng định tuyến
`fail_closed_reason`	`quota_exhausted`, `safety_block`, `contract_mismatch`	Giải thích lý do tại sao gateway dừng lại
`requested_model` và `served_model`	ID hoặc bí danh của mô hình	Hiển thị liệu định tuyến có thay đổi hành vi không
`endpoint_family`	`openai`, `anthropic`, `gemini`, `image-generation`	Làm cho các vấn đề di chuyển trở nên rõ ràng
`partial_output_committed`	`true` hoặc `false`	Ngăn chặn đầu ra trùng lặp hiển thị cho người dùng
`usage_units` và `estimated_cost`	tokens, images, seconds, dollars	Làm cho chi phí thử lại trở nên rõ ràng
`request_id` và `provider_request_id`	ID của gateway và nhà cung cấp	Hỗ trợ các phiếu yêu cầu hỗ trợ và xem xét sự cố

Đừng rút gọn bản ghi này thành một chuỗi duy nhất như "Lệnh gọi LLM không thành công". Chuỗi đó không đủ để quyết định xem có nên xoay vòng khóa, chờ đợi, nạp lại, dự phòng, sửa đổi lời nhắc hay dừng lại.

Một bộ phân loại TypeScript đơn giản

Bộ phân loại không cần biết mọi chi tiết của nhà cung cấp ngay từ ngày đầu tiên. Hãy bắt đầu với các nhóm rõ ràng và một giá trị mặc định an toàn khi có lỗi.

type ErrorClass =
  | "auth"
  | "quota"
  | "provider"
  | "request"
  | "safety"
  | "cancelled"
  | "unknown";

type GatewayErrorInput = {
  httpStatus?: number;
  providerErrorType?: string;
  providerErrorCode?: string;
  finishReason?: string;
  stopReason?: string;
  clientCancelled?: boolean;
  timeout?: boolean;
};

function classifyGatewayError(error: GatewayErrorInput): ErrorClass {
  const type = (error.providerErrorType || "").toLowerCase();
  const code = (error.providerErrorCode || "").toLowerCase();
  const stop = (error.stopReason || "").toLowerCase();
  const finish = (error.finishReason || "").toLowerCase();

  if (error.clientCancelled) return "cancelled";

  if (error.httpStatus === 401 || error.httpStatus === 403) return "auth";
  if (type.includes("auth") || type.includes("permission")) return "auth";
  if (code.includes("invalid_api_key") || code.includes("ip_not_authorized")) {
    return "auth";
  }

  if (error.httpStatus === 429) return "quota";
  if (type.includes("rate_limit") || code.includes("quota")) return "quota";
  if (code.includes("resource_exhausted")) return "quota";

  if (stop === "refusal" || finish === "safety") return "safety";
  if (code.includes("moderation") || code.includes("blocked")) return "safety";

  if (error.httpStatus === 400 || error.httpStatus === 422) return "request";
  if (type.includes("invalid_request") || type.includes("bad_request")) {
    return "request";
  }

  if (error.timeout) return "provider";
  if ([500, 502, 503, 504, 529].includes(error.httpStatus || 0)) {
    return "provider";
  }
  if (type.includes("overloaded") || type.includes("api_error")) {
    return "provider";
  }

  return "unknown";
}

Chỉ sử dụng đoạn mã này như một điểm khởi đầu. Các bộ phân loại trong môi trường sản xuất nên giữ các ánh xạ dành riêng cho nhà cung cấp trong cấu hình, các bộ kiểm thử (test fixtures) và quá trình xem xét sự cố, chứ không chỉ chôn vùi trong mã ứng dụng.

Runbook: thử lại, xếp hàng, dự phòng hoặc đóng khi lỗi

Khi đã biết được loại lỗi, gateway có thể chọn hành động.

Loại	Hành động mặc định	Điều kiện thử lại	Điều kiện dự phòng	Điều kiện thất bại-đóng
Xác thực	Dừng và cảnh báo chủ sở hữu	Không, trừ khi vừa làm mới thông tin xác thực	Không	Luôn luôn cho đến khi khóa hoặc quyền được sửa
Hạn ngạch	Lùi lại, xếp hàng đợi, hoặc dừng theo chiều giới hạn	Giới hạn tốc độ tạm thời phù hợp với thời hạn và ngân sách thử lại	Lộ trình được phê duyệt giữ nguyên chi phí, chất lượng và ranh giới dữ liệu	Vượt quá chi tiêu, tín dụng, hạn ngạch hàng ngày hoặc thời hạn
Nhà cung cấp	Lùi lại hoặc định tuyến vòng qua lỗi tạm thời của nhà cung cấp	Lệnh gọi Idempotent, không có đầu ra một phần, thời hạn vẫn còn	Tồn tại lộ trình tương đương được phê duyệt	Lỗi lặp lại, đầu ra một phần, hoặc quy trình làm việc có rủi ro cao
Yêu cầu	Trả về lỗi xác thực cho nhà phát triển	Chỉ sau khi yêu cầu bị thay đổi	Chỉ khi một điểm cuối/mô hình tương thích được chọn rõ ràng	Lược đồ không hợp lệ, tràn ngữ cảnh, khả năng không được hỗ trợ
An toàn	Trả về phản hồi an toàn hoặc yêu cầu sửa đổi	Không đối với nội dung không thay đổi	Chỉ với chính sách tương tự hoặc nghiêm ngặt hơn, không bao giờ để bỏ qua	Lời nhắc/đầu ra bị chặn, từ chối, quy tắc tuân thủ
Đã hủy	Dừng công việc và bảo toàn trạng thái	Không	Chỉ khi người dùng khởi động lại một cách rõ ràng	Người dùng hủy bỏ, hết hạn, máy khách bị ngắt kết nối

Bảng này là trung tâm hoạt động của hệ thống phân loại lỗi cổng LLM. Nó cho cổng biết khi nào công việc tiếp theo là an toàn và khi nào công việc tiếp theo trở thành rủi ro.

Cách áp dụng điều này trong Flatkey

Sử dụng hệ thống phân loại này như một danh sách kiểm tra triển khai thay vì một dự án bảng điều khiển một lần.

Chọn một quy trình làm việc, chẳng hạn như trò chuyện hỗ trợ, trích xuất hàng loạt, công việc đánh giá hoặc lưu lượng trợ lý mã.
Xác định các họ điểm cuối được phép, mô hình, lộ trình dự phòng và giới hạn chi phí cho quy trình làm việc đó.
Chuẩn hóa các lỗi của nhà cung cấp vào các trường ở trên.
Làm cho các lỗi xác thực và quyền hiển thị với chủ sở hữu và không thể thử lại.
Tách biệt giới hạn tốc độ tạm thời khỏi việc hết hạn ngạch, chi tiêu và giới hạn hàng ngày.
Yêu cầu một hợp đồng dự phòng trước khi thay đổi nhà cung cấp hoặc mô hình.
Xem việc từ chối vì lý do an toàn và kiểm duyệt là kết quả của chính sách, không phải là sự cố của nhà cung cấp.
Ghi lại trạng thái đầu ra một phần trước bất kỳ lần thử lại hoặc dự phòng nào.
Xem xét bằng chứng sử dụng và lộ trình trong Flatkey trước khi mở rộng sang nhiều quy trình làm việc hơn.
Liên kết sổ tay vận hành đến bảng giá Flatkey để người vận hành có thể xác minh danh mục hiện tại và bề mặt chi phí.

Ảnh chụp nhanh API giá công khai của Flatkey vào ngày 3 tháng 7 năm 2026 đã trả về 45 hàng mô hình, sáu ID nhà cung cấp và các họ điểm cuối được hỗ trợ bao gồm openai, anthropic, gemini, và image-generation. Chỉ xem những thông tin đó là dữ kiện nguồn đã lỗi thời. Tính khả dụng của mô hình, giá cả và hành vi định tuyến nên được kiểm tra lại trước khi triển khai sản xuất.

Câu hỏi thường gặp

Hệ thống phân loại lỗi cổng LLM là gì?

Hệ thống phân loại lỗi cổng LLM là một tập hợp chuẩn hóa các loại lỗi cho lưu lượng truy cập giữa mô hình và nhà cung cấp. Nó phân tách các lỗi xác thực, hạn ngạch, nhà cung cấp, yêu cầu, an toàn và hủy bỏ để cổng có thể chọn hành vi thử lại, xếp hàng đợi, dự phòng hoặc thất bại-đóng.

Tại sao không thử lại mọi lỗi API LLM?

Việc thử lại mọi lỗi có thể làm cho sự cố trở nên tồi tệ hơn. Nó có thể khuếch đại giới hạn tốc độ, tiêu tốn nhiều token hơn sau khi hết hạn ngạch, che giấu lỗi thông tin xác thực, sao chép đầu ra một phần hoặc bỏ qua các khối an toàn. Hệ thống phân loại quyết định khi nào việc thử lại thực sự được phép.

Việc từ chối vì lý do an toàn có nên kích hoạt dự phòng không?

Không theo mặc định. Việc từ chối vì lý do an toàn, các khối kiểm duyệt, khối lời nhắc và finishReason: SAFETY nên được xem là kết quả của chính sách. Dự phòng không bao giờ nên được sử dụng để tìm một lộ trình an toàn yếu hơn.

Cổng LLM nên phân loại lỗi hạn ngạch như thế nào?

Tách biệt việc điều chỉnh tốc độ tạm thời khỏi việc hết chi tiêu, tín dụng trả trước, giới hạn hàng ngày, giới hạn token và giới hạn dự án. Việc điều chỉnh tốc độ tạm thời có thể sử dụng lùi lại có giới hạn hoặc hàng đợi. Ngân sách đã hết thường sẽ thất bại-đóng cho đến khi chủ sở hữu phê duyệt thêm dung lượng.

Flatkey giúp gì với hệ thống phân loại lỗi cổng LLM?

Flatkey cung cấp cho các nhóm một bề mặt cổng duy nhất để truy cập mô hình, định tuyến, thanh toán, phân tích sử dụng và kiểm soát hoạt động. Sử dụng nó để giữ các loại lỗi đã được chuẩn hóa gắn liền với khóa của chủ sở hữu, họ điểm cuối, mô hình được yêu cầu, mô hình được phục vụ và bằng chứng sử dụng.

Bắt đầu với một quy trình làm việc, xác định hệ thống phân loại lỗi cổng LLM của bạn, sau đó nhận một khóa và kiểm tra các trường hợp xác thực, hạn ngạch, nhà cung cấp, yêu cầu, an toàn và hủy bỏ trước khi lưu lượng sản xuất phụ thuộc vào việc phục hồi tự động.

Bài viết liên quan

Reliability and Routing

Chiến lược hàng đợi AI API: Bảo vệ luồng công việc hướng tới người dùng khi nhà cung cấp gặp sự cố

3 thg 7, 2026Big Y

Reliability and Routing

Xử lý Giới hạn Tốc độ (Rate Limit) của AI API: Backoff, Queue, Fallback, hay Fail Closed

3 thg 7, 2026Big Y

Reliability and Routing

Chiến lược Timeout cho AI API: Ngân sách Connect, Read, Stream và Queue

3 thg 7, 2026Big Y

Quay lại Blog