Конспект: Анатомия AI-агента: Архитектура памяти, роутинг и оптимизация контекста — VibCoderZ - VibeCoderz

Загрузка...

🎯 О чём этот конспект: Детальный разбор «мозга» AI-агента на примере архитектуры Claude Code (Anthropic). Рассматриваются инженерные подходы к управлению контекстом, выбору моделей и внедрению четырех типов памяти для создания эффективных и экономически выгодных IT-продуктов.

👤 Кому будет полезно: Вайбкодерам, разработчикам AI-сервисов и системным архитекторам, которые хотят перейти от простых чат-ботов к сложным автономным агентам уровня Production.

✨ Что получите: Готовую схему реализации многоуровневой памяти, алгоритмы роутинга для экономии бюджета и понимание того, как топовые компании (Anthropic) структурируют контекстное окно для своих агентов.

1. Роутинг моделей: Как экономить 50%+ бюджета

Контекст: Стоимость запроса к фронтир-моделям (Claude 3.5 Sonnet, GPT-4o) может быть в 100 раз выше, чем к бюджетным. Отправлять простые вопросы («Сколько стоит латте?») в дорогую модель — экономическое самоубийство для масштабируемого агента. Решение заключается в создании «сортировщика», который анализирует сложность задачи перед вызовом основной модели.

Выгода: Снижение затрат более чем в 2 раза при сохранении 95% качества работы системы.

Как применить:

Шаг 1: Фильтрация по типу данных — [Python/Node.js] — Проверьте входящий запрос на наличие медиафайлов (картинки, аудио). Если их нет, исключите мультимодальные модели из списка доступных.
Шаг 2: Классификация сложности — [RouterLLM / Small Model] — Используйте маленькую модель (например, Llama 3 8B или GPT-4o-mini) для определения категории запроса.
Шаг 3: Настройка Fallback — [Код] — Если классификатор не определился за 500мс или выдал ошибку, используйте жесткие правила по ключевым словам или модель по умолчанию.

Результат: Каждый запрос обрабатывается оптимальной по цене моделью, сохраняя ресурсы для действительно сложных задач.

2. RAG vs Long Context: Инженерный выбор

Контекст: Современные модели поддерживают до 1-2 млн токенов, что создает соблазн «запихнуть всё в контекст». Однако длинный контекст ведет к трем проблемам: огромные счета за перечитывание (Input Tokens), замедление ответа и эффект «Lost in the Middle» (потеря информации в середине текста).

Выгода: Сокращение задержки (Latency) с 70 секунд до 1.5 секунд и снижение стоимости за счет кэширования.

Сравнение подходов:

Длинный контекст: Идеален для глубоких рассуждений по ограниченному набору документов (например, анализ одной книги).
RAG (Retrieval Augmented Generation): Необходим для гигантских баз знаний (терабайты данных), где нужно находить «иголки в стоге сена».

Как применить (Гибридный подход):

Шаг 1: Обогащение запроса — Перед поиском в базе данных используйте LLM для превращения краткого запроса («А покрепче») в полный контекстный запрос («Пользователь хочет более крепкий кофе, основываясь на его прошлом заказе капучино»).
Шаг 2: Точечный ретривал — Используйте RAG, чтобы найти 5-10 самых релевантных фрагментов.
Шаг 3: Подача в окно — Поместите найденные фрагменты в длинное контекстное окно модели для финального рассуждения.

Результат: Точность фронтир-модели при стоимости и скорости работы локальной базы данных.

3. Четыре типа памяти AI-агента (Фреймворк Coala)

Контекст: Чтобы агент не был «врачом без карты пациента», ему нужна структурированная память. В индустрии часто используют только историю чата, но для серьезных задач этого мало. Существует 4 уровня памяти с разным жизненным циклом.

Выгода: Агент обучается на своих ошибках и помнит предпочтения пользователя годами, не раздувая текущий контекст.

Типы памяти и реализация:

Процедурная (Как делать): Системный промт и описание инструментов. Обновляется разработчиком.
Семантическая (Факты): База знаний, RAG. Долгосрочные знания о мире и проекте.
Эпизодическая (Что было): Дневник успехов и ошибок.
- Пример записи: Действие: Рефакторинг; Результат: Ошибка линтера; Урок: Всегда импортируй интерфейсы из папки /types.
Рабочая (Прямо сейчас): Контекст текущей задачи. Очищается после завершения сессии.

Результат: Агент становится самообучающейся системой, которая не наступает на одни и те же грабли дважды.

4. Секретная архитектура Claude Code (Разбор утечки)

Контекст: Утечка кода Anthropic показала, что их агент Claude Code использует 11 подсистем памяти, идеально ложащихся в 4 типа выше. Главный инсайт: память никогда не должна блокировать основной ответ пользователя.

Выгода: Максимальная производительность (UX) при глубокой проработке контекста.

Ключевые фишки архитектуры:

Memory Prefetch: Пока пользователь ждет ответ, дешевая модель (Sonnet) в фоне выбирает до 5 релевантных файлов памяти. Если не успела — ответ идет без них (Non-blocking).
Фоновый агент-экстрактор: После ответа запускается отдельный процесс, который анализирует диалог и записывает новые уроки в память.
Двухзонное контекстное окно:
- Статическая зона (вверху): Правила, инструкции. Кэшируется глобально для экономии.
- Динамическая зона (внизу): Память, история, файлы.

Результат: Использование промышленного стандарта организации кода и данных для своих AI-агентов.

5. Управление бюджетом контекста и мышления

Контекст: Каждая итерация агента пересчитывает контекст. Если агент «думает» (Reasoning/Thinking mode), выходные токены стоят в 5 раз дороже входных. Без лимитов один запуск агента может стоить $1.5 и выше.

Выгода: Контроль LTV и маржинальности вашего AI-продукта.

Как применить:

Шаг 1: Установка лимитов — [Конфиг] — Выделите жесткие квоты: System Prompt (неизменяем), История (старое удаляем), RAG (только суть).
Шаг 2: Динамический Thinking — Включайте режим глубокого мышления только на первой итерации (планирование). На этапе выполнения (Action) отключайте его для экономии.
Шаг 3: Пять уровней сжатия — Если контекст переполнен:
1. Пропустить саммари.
2. Сбросить крупные результаты инструментов на диск (оставить только ссылку).
3. Удалить старые сообщения.
4. Микро-компакт (замена текста заглушками).
5. Авто-компакт (полная суммаризация фоновым агентом).

Результат: Агент всегда имеет место для ответа и не обрывается на полуслове из-за переполнения окна.

FAQ

В: Зачем использовать роутинг, если Claude 3.5 Sonnet и так дешевый? О: Для одной задачи — это копейки. Для 100 000 задач в месяц разница между Sonnet и Haiku (или локальной Llama) составит тысячи долларов. Роутинг позволяет тратить "ум" модели только там, где он действительно нужен.

В: Как реализовать эпизодическую память, если я использую LangChain? О: В LangChain нет встроенного модуля эпизодической памяти. Вам нужно создать отдельную векторную базу "Уроки", куда фоновый агент будет записывать пары "Проблема -> Решение" после каждого успешного или провального завершения задачи.

В: Что делать, если кэш постоянно "протухает" при изменении контекста? О: Следуйте принципу Claude Code: помещайте статические данные (инструкции) в самое начало промта, а динамические (историю) — в конец. Никогда не меняйте середину контекста, иначе кэш придется пересчитывать полностью.

В: Как понять, что пора сжимать контекст (Compaction)? О: Установите порог в 70-80% от лимита контекстного окна модели. При достижении этого порога запускайте процедуру суммаризации старых сообщений, оставляя только ключевые факты.

В: Можно ли доверять дешевой модели выбор файлов из памяти? О: Да, если промт оптимизирован на "точность, а не полноту". Инструктируйте модель: "Если не уверена на 100% — не выбирай файл". Лучше не дать контекст, чем забить окно мусором, который запутает основную модель.

Конспект создан на основе видео «Анатомия AI-агента: Мозг. Память, Роутинг, Контекст» канала Дмитрий Березницкий. Все права на оригинальный материал принадлежат авторам. Источник: https://youtu.be/vjMxeQ3aIGM