Наши специалисты проверили стабильность работы платформы с LLM моделями различных поставщиков. Сервис работает в штатном режиме, со стороны нашей инфраструктуры задержек нет.
В ходе анализа подтвердилось, что причиной длительных пауз (в некоторых случаях от 3 и более секунд) является особенность генерации ответов на стороне LLM различных поставщиков. В особенности на моделях от поставщика Google (Gemini 3 Flash Preview, gemini-2.5-flash и др.)
Скорость генерации ответа и обработка контекста (инструкций, базы знаний и инструментов) зависит от архитектуры нейросети самого поставщика.
Мы продолжаем поиск альтернативных решений для работы с поставщиками LLM и оптимизируем наши сервисы, чтобы ускорить принятие решений агентами, насколько это представляется возможным.
К нам поступают обращения об увеличении времени ответа AI-агента и длительных паузах в диалогах.
Как это может проявляться: Длительная пауза перед ответом агента, а также при переводе на другого агента или оператора.
Наши специалисты уже работают над решением этого вопроса.
Expand group