Memora от Microsoft: как решить проблему памяти AI-агентов и сэкономить до 98% токенов

Представьте: ваш AI-ассистент ведёт многомесячный проект. Он помнит дедлайны, учитывает пожелания стейкхолдеров, знает, какие варианты уже отброшены. Вы просите его подготовить отчёт — и он выдаёт результат, опираясь не на последнюю реплику, а на всю историю решений. Звучит как идеальный сценарий. На практике современные AI-агенты этого не умеют.

Источник: microsoft.com

Каждый новый сеанс работы — это чистый лист. Чтобы агент «вспомнил» контекст, ему приходится либо перечитывать всю историю диалога (что дорого и неэффективно), либо полагаться на внешние хранилища — RAG, графы знаний или системы вроде Mem0. Но у каждого из этих подходов есть фундаментальный недостаток: они либо теряют детали, либо слишком дороги в обработке.

Microsoft Research представила Memora — систему памяти для AI-агентов, которая, по заявлению разработчиков, решает эту проблему принципиально иначе. Статья о системе принята на ICML 2026, код открыт на GitHub. Если вы работаете с AI-агентами, которые должны помнить больше одного диалога, — это стоит проверить.

Что такое Memora и как она устроена

Memora — это не очередная база данных для хранения истории чатов. Это система, которая разделяет что хранится (полное содержание) и как это ищется (лёгкие абстракции). В основе — три компонента для каждого элемента памяти:

  • Memory value — полная, не сжатая информация. Она хранится как есть, без потери деталей. Но она не индексируется.
  • Primary abstraction — краткое описание того, о чём эта память. Индексируется. Служит «заголовком» для обновлений и объединения записей.
  • Cue anchors — множественные семантические «якоря» (например, «сущность + ключевой аспект»). Индексируются. Связывают связанные воспоминания через структуру «многие ко многим».

Ключевой момент: индексируются только абстракции и якоря. Полное содержание остаётся вне индекса. Это позволяет системе сохранять богатую информацию без «размытия», которое возникает при индексировании сырых текстов или эмбеддингов.

На практике это означает: когда агент ищет информацию, он сначала обращается к лёгкому слою абстракций, находит нужную запись, а затем извлекает полное содержание. Не нужно перебирать гигабайты истории — достаточно пройти по структурированным указателям.

Чем Memora отличается от существующих решений

На рынке уже есть несколько подходов к памяти AI-агентов. Вот как Memora выглядит на их фоне:

Система / подход Как работает Главное ограничение
Mem0 Извлекает атомарные факты из диалогов Теряет контекст и связи между фактами
RAG (Retrieval-Augmented Generation) Индексирует фрагменты текста для поиска «Шумный» поиск, высокая стоимость при большом объёме
GraphRAG / Zep Строит граф сущностей и связей Жёсткая структура, сложность обновления
Memora Разделяет хранение и индексацию через абстракции Новая система, требует тестирования в реальных сценариях

По данным Microsoft Research, Memora устанавливает новый state-of-the-art на бенчмарках LoCoMo и LongMemEval, превосходя Mem0, RAG и полноконтекстный вывод. При этом система использует до 98% меньше контекстных токенов. Для бизнеса это прямой перевод в снижение затрат на API и ускорение работы агентов.

Где Memora может быть полезна в реальной работе

Система рассчитана на сценарии, где агент работает с пользователем длительное время — недели и месяцы. Вот типичные случаи:

  • Корпоративные AI-ассистенты, которые ведут проекты: помнят историю решений, предпочтения участников, отклонённые варианты.
  • Исследовательские агенты, накапливающие экспертизу в предметной области: могут ссылаться на ранее найденные факты, не перечитывая все источники.
  • Многоагентные системы, где несколько агентов работают над одной задачей: Memora поддерживает общее пространство памяти, доступное всем агентам в среде.
  • Поддержка пользователей: агент помнит предыдущие обращения, контекст проблемы, историю решений.

Важно: Memora не требует полной перестройки существующих систем. Разработчики заявляют, что интеграция «лёгкая» — можно подключить к текущему агенту без переписывания всей логики работы с памятью.

Как проверить Memora за неделю: практический план

Прежде чем принимать решение о внедрении, стоит провести минимальную проверку. Вот что можно сделать за 5 рабочих дней:

  1. Скопируйте репозиторий — код открыт на GitHub (microsoft/Memora). Проверьте, что он собирается и запускается в вашем окружении.
  2. Запустите quickstart.py — в репозитории есть пример быстрого старта. Убедитесь, что базовая запись и извлечение памяти работают.
  3. Создайте тестовый сценарий — возьмите один из ваших реальных диалогов (или синтетический длинный диалог) и проверьте, как Memora справляется с записью и поиском информации.
  4. Сравните с текущим решением — если вы используете RAG или Mem0, прогоните тот же тест на вашей системе. Сравните качество извлечения и количество потраченных токенов.
  5. Оцените стоимость — посчитайте, сколько токенов экономит Memora на вашем сценарии. Умножьте на объём запросов в месяц.

Что может пойти не так: риски и ограничения

Memora — новая система, и полагаться на неё в production без проверки рискованно. Вот что стоит учитывать:

  • Научная валидация есть, production-опыта мало. Статья принята на ICML 2026, что говорит о качестве исследования. Но реальное применение может отличаться от лабораторных условий.
  • Код открыт, но поддержка сообщества только формируется. На момент публикации у репозитория 50-60 звёзд и 2 форка. Это не уровень зрелого продукта.
  • Зависимость от качества абстракций. Если primary abstraction или cue anchors сформированы плохо, поиск будет неточным. Система не гарантирует качество «из коробки» — нужно настраивать под свои данные.
  • Неизвестная стоимость инфраструктуры. Хотя Memora экономит токены, она требует собственного хранилища и вычислительных ресурсов для индексации. Сравните total cost of ownership с вашим текущим решением.
  • Отсутствие интеграций. Нет готовых модулей для популярных фреймворков агентов (LangChain, AutoGen и т.д.). Интеграция потребует разработки.

Что делать на этой неделе

  1. Не внедряйте в production сразу. Memora — перспективная система, но она требует проверки на ваших данных.
  2. Выделите 2-3 дня на тестирование. Скопируйте репозиторий, запустите примеры, сравните с текущим решением.
  3. Зафиксируйте метрики. Сколько токенов вы тратите сейчас? Сколько будет тратить Memora? Какое качество извлечения вас устраивает?
  4. Примите решение о пилоте. Если тесты покажут значительную экономию при сохранении качества — можно запускать пилот на одном сценарии.
  5. Следите за развитием. Репозиторий может быстро меняться. Подпишитесь на обновления, чтобы не пропустить важные изменения.

Источники

Что почитать дальше