Исследователи из компании Letta и Калифорнийского университета в Беркли представили новую методику под названием Sleep-Time Compute (вычисления во время простоя), которая значительно повышает эффективность работы больших языковых моделей (LLM).
Эта методика позволяет нейросетям анализировать контекст еще до получения вопроса пользователя, используя время простоя между запросами для предварительной обработки информации, передает incrussia.ru
Традиционно LLM обрабатывают контекст и вопрос одновременно при каждом запросе, что приводит к избыточным вычислениям и задержкам, особенно когда контекст остается неизменным для нескольких вопросов. Sleep-Time Compute разделяет процесс на две части: статический контекст предварительно обрабатывается в режиме ожидания, а динамический — в реальном времени с использованием полученной на первом шаге информации. В результате весь процесс требует значительно меньше ресурсов.
Тестирование на специальных бенчмарках Stateful GSM-Symbolic и Stateful AIME показало впечатляющие результаты: точность повысилась на 13% для GSM-Symbolic и на 18% для AIME, при этом требования к вычислительным ресурсам в реальном времени сократились примерно в 5 раз при сохранении аналогичного уровня производительности. При использовании моделей GPT-4o и GPT-4o-mini технология продемонстрировала явное преимущество над другими методами.
Особенно эффективной технология оказалась при обработке большого числа запросов с общей вводной информацией. Это позволило снизить среднюю стоимость запроса в 2,5 раза при обработке 10 связанных запросов. Исследователи также выяснили, что метод наиболее эффективен для предсказуемых запросов, логически вытекающих из контекста.