Наши специалисты проверили стабильность работы платформы с LLM моделями различных поставщиков. Сервис работает в штатном режиме, со стороны нашей инфраструктуры задержек нет.
В ходе анализа подтвердилось, что причиной длительных пауз (в некоторых случаях от 3 и более секунд) является особенность генерации ответов на стороне LLM различных поставщиков. В особенности на моделях от поставщика Google (Gemini 3 Flash Preview, gemini-2.5-flash и др.)
Скорость генерации ответа и обработка контекста (инструкций, базы знаний и инструментов) зависит от архитектуры нейросети самого поставщика.
Мы продолжаем поиск альтернативных решений для работы с поставщиками LLM и оптимизируем наши сервисы, чтобы ускорить принятие решений агентами, насколько это представляется возможным.