Memora от Microsoft: как решить проблему памяти AI-агентов и сэкономить до 98% токенов
Представьте: ваш AI-ассистент ведёт многомесячный проект. Он помнит дедлайны, учитывает пожелания стейкхолдеров, знает, какие варианты уже отброшены. Вы просите его подготовить отчёт — и он выдаёт результат, опираясь не на последнюю реплику, а на всю историю решений. Звучит как идеальный сценарий. На практике современные AI-агенты этого не умеют.
Источник: microsoft.com
Каждый новый сеанс работы — это чистый лист. Чтобы агент «вспомнил» контекст, ему приходится либо перечитывать всю историю диалога (что дорого и неэффективно), либо полагаться на внешние хранилища — RAG, графы знаний или системы вроде Mem0. Но у каждого из этих подходов есть фундаментальный недостаток: они либо теряют детали, либо слишком дороги в обработке.
Microsoft Research представила Memora — систему памяти для AI-агентов, которая, по заявлению разработчиков, решает эту проблему принципиально иначе. Статья о системе принята на ICML 2026, код открыт на GitHub. Если вы работаете с AI-агентами, которые должны помнить больше одного диалога, — это стоит проверить.
Что такое Memora и как она устроена
Memora — это не очередная база данных для хранения истории чатов. Это система, которая разделяет что хранится (полное содержание) и как это ищется (лёгкие абстракции). В основе — три компонента для каждого элемента памяти:
- Memory value — полная, не сжатая информация. Она хранится как есть, без потери деталей. Но она не индексируется.
- Primary abstraction — краткое описание того, о чём эта память. Индексируется. Служит «заголовком» для обновлений и объединения записей.
- Cue anchors — множественные семантические «якоря» (например, «сущность + ключевой аспект»). Индексируются. Связывают связанные воспоминания через структуру «многие ко многим».
Ключевой момент: индексируются только абстракции и якоря. Полное содержание остаётся вне индекса. Это позволяет системе сохранять богатую информацию без «размытия», которое возникает при индексировании сырых текстов или эмбеддингов.
На практике это означает: когда агент ищет информацию, он сначала обращается к лёгкому слою абстракций, находит нужную запись, а затем извлекает полное содержание. Не нужно перебирать гигабайты истории — достаточно пройти по структурированным указателям.
Чем Memora отличается от существующих решений
На рынке уже есть несколько подходов к памяти AI-агентов. Вот как Memora выглядит на их фоне:
| Система / подход | Как работает | Главное ограничение |
|---|---|---|
| Mem0 | Извлекает атомарные факты из диалогов | Теряет контекст и связи между фактами |
| RAG (Retrieval-Augmented Generation) | Индексирует фрагменты текста для поиска | «Шумный» поиск, высокая стоимость при большом объёме |
| GraphRAG / Zep | Строит граф сущностей и связей | Жёсткая структура, сложность обновления |
| Memora | Разделяет хранение и индексацию через абстракции | Новая система, требует тестирования в реальных сценариях |
По данным Microsoft Research, Memora устанавливает новый state-of-the-art на бенчмарках LoCoMo и LongMemEval, превосходя Mem0, RAG и полноконтекстный вывод. При этом система использует до 98% меньше контекстных токенов. Для бизнеса это прямой перевод в снижение затрат на API и ускорение работы агентов.
Где Memora может быть полезна в реальной работе
Система рассчитана на сценарии, где агент работает с пользователем длительное время — недели и месяцы. Вот типичные случаи:
- Корпоративные AI-ассистенты, которые ведут проекты: помнят историю решений, предпочтения участников, отклонённые варианты.
- Исследовательские агенты, накапливающие экспертизу в предметной области: могут ссылаться на ранее найденные факты, не перечитывая все источники.
- Многоагентные системы, где несколько агентов работают над одной задачей: Memora поддерживает общее пространство памяти, доступное всем агентам в среде.
- Поддержка пользователей: агент помнит предыдущие обращения, контекст проблемы, историю решений.
Важно: Memora не требует полной перестройки существующих систем. Разработчики заявляют, что интеграция «лёгкая» — можно подключить к текущему агенту без переписывания всей логики работы с памятью.
Как проверить Memora за неделю: практический план
Прежде чем принимать решение о внедрении, стоит провести минимальную проверку. Вот что можно сделать за 5 рабочих дней:
- Скопируйте репозиторий — код открыт на GitHub (microsoft/Memora). Проверьте, что он собирается и запускается в вашем окружении.
- Запустите quickstart.py — в репозитории есть пример быстрого старта. Убедитесь, что базовая запись и извлечение памяти работают.
- Создайте тестовый сценарий — возьмите один из ваших реальных диалогов (или синтетический длинный диалог) и проверьте, как Memora справляется с записью и поиском информации.
- Сравните с текущим решением — если вы используете RAG или Mem0, прогоните тот же тест на вашей системе. Сравните качество извлечения и количество потраченных токенов.
- Оцените стоимость — посчитайте, сколько токенов экономит Memora на вашем сценарии. Умножьте на объём запросов в месяц.
Что может пойти не так: риски и ограничения
Memora — новая система, и полагаться на неё в production без проверки рискованно. Вот что стоит учитывать:
- Научная валидация есть, production-опыта мало. Статья принята на ICML 2026, что говорит о качестве исследования. Но реальное применение может отличаться от лабораторных условий.
- Код открыт, но поддержка сообщества только формируется. На момент публикации у репозитория 50-60 звёзд и 2 форка. Это не уровень зрелого продукта.
- Зависимость от качества абстракций. Если primary abstraction или cue anchors сформированы плохо, поиск будет неточным. Система не гарантирует качество «из коробки» — нужно настраивать под свои данные.
- Неизвестная стоимость инфраструктуры. Хотя Memora экономит токены, она требует собственного хранилища и вычислительных ресурсов для индексации. Сравните total cost of ownership с вашим текущим решением.
- Отсутствие интеграций. Нет готовых модулей для популярных фреймворков агентов (LangChain, AutoGen и т.д.). Интеграция потребует разработки.
Что делать на этой неделе
- Не внедряйте в production сразу. Memora — перспективная система, но она требует проверки на ваших данных.
- Выделите 2-3 дня на тестирование. Скопируйте репозиторий, запустите примеры, сравните с текущим решением.
- Зафиксируйте метрики. Сколько токенов вы тратите сейчас? Сколько будет тратить Memora? Какое качество извлечения вас устраивает?
- Примите решение о пилоте. Если тесты покажут значительную экономию при сохранении качества — можно запускать пилот на одном сценарии.
- Следите за развитием. Репозиторий может быстро меняться. Подпишитесь на обновления, чтобы не пропустить важные изменения.
Источники
- Microsoft Research Blog: Memora — A Harmonic Memory Representation Balancing Abstraction and Specificity
- GitHub: microsoft/Memora — официальный код и документация
Что почитать дальше
- Где AI-агенты уже работают без контроля: отчёт MIT и Microsoft
- Память Codex: что стоит сохранять между задачами, а что лучше не доверять агенту
- LLM-база знаний с кодирующими агентами: как исключить ручной поиск
- MemOS: операционная система памяти для LLM-агентов — экономия токенов
- Управление контекстом при работе с AI-агентами: как сохранить понимание системы и не тратить время на восстановление