В мае 2026 года Microsoft опубликовала два проекта которые закрывают слепое пятно агентной разработки. Все два года пока индустрия гналась за скоростью агентов — никто не измерял качество работы с ними. Теперь есть инструменты для этого.
10+ лет в маркетинге, 300+ клиентских проектов: сайты, реклама, боты. Создатель GoBanana (228K+ пользователей, 11.6 млн ₽ выручки) и VibeCoderz. Делаю AI-продукты сам через Claude Code, Cursor, Windsurf и консультирую тех, кто хочет так же.
Об авторе →Claude Code: новый CLI-агент от Anthropic
Anthropic выпустила Claude Code — терминальный AI-агент для разработчиков. Инструмент работает прямо в командной строке и умеет писать, редактировать и запускать код.
Zcode AI: Полный гид по визуальному интерфейсу для Claude Code и AI-агентов
Узнайте, как использовать Zcode для управления Claude Code, Gemini и Codex в едином GUI. Настройка провайдеров, MCP-серверов и визуальный вайбкодинг.
YouTube-канал с монетизацией из любой точки мира: Пошаговый гайд 2026
Инструкция по созданию YouTube-канала: обход блокировок SMS, настройка расширенных функций через виртуальные номера и правила безопасности для монетизации.
Windsurf Code Maps: Как глубоко понимать архитектуру проекта перед написанием кода
Полный гайд по Windsurf Code Maps, модели Sway 1.5 и Sway Grep. Узнайте, как визуализировать архитектуру кода и ускорить разработку в 13 раз.
Vk Fast Cash Strategy
Аудитория ВКонтакте — это те же люди, что и в Instagram, но 'социальный контракт' площадки другой. Если Instagram — это 'дорогой ресторан' с демонстрацией успеха, то VK — это 'душевная шашлычная'. Здесь не работает глянцевый 'успешный успех
В мае 2026 года Microsoft опубликовала два проекта которые закрывают слепое пятно агентной разработки. Все два года пока индустрия гналась за скоростью агентов — никто не измерял качество работы с ними. Теперь есть инструменты для этого.

AI Engineer Coach — VS Code плагин с открытым кодом, который анализирует ваши сессии с Claude Code, Copilot и Codex и показывает где вы теряете деньги, контекст и эффективность. Бесплатно, локально, без телеметрии.
SkillOpt — исследовательский проект Microsoft Research, который автоматически улучшает SKILL.md файлы агентов. На GPT-5.5 поднял среднюю точность на 23.5 пункта. Пока research, но уже вызвал интерес президента YC Гарри Тана.
Разбираем оба.
TL;DR
AI Engineer Coach: бесплатный VS Code плагин (MIT), читает логи Claude Code, Copilot, Codex — показывает дашборд с 45 анти-паттернами, Context Health, Skill Finder. Всё локально, read-only, ноль телеметрии. Установить прямо сейчас с github.com/microsoft/AI-Engineering-Coach.
SkillOpt: research-проект, автоматически обучает SKILL.md как внешнее состояние замороженного агента. Лучший результат на всех 52 комбинациях модель × бенчмарк × харнесс. Код на github.com/microsoft/SkillOpt, бумага — arXiv 2605.23904.

AI Engineer Coach — это open-source community effort от сотрудников Microsoft. Это не официальный продукт Microsoft и не часть какого-либо Microsoft-сервиса. Репозиторий на GitHub набрал около 890 звёзд за первые три недели.
Суть простая: все смотрят на то что агент выдаёт. Никто не смотрел на то как именно разработчик с ним работает. AI Engineer Coach — это инструмент который измеряет как люди используют AI coding assistants, вместо того чтобы просто позволять им использовать инструменты вслепую.
Плагин разделён на три секции: Observe → Measure → Improve. Это не случайный порядок — сначала наблюдаете что происходит, потом измеряете где теряете эффективность, потом улучшаете конкретные вещи.
Плагин работает с логами которые уже есть на вашей машине:
| Инструмент | Где лежат логи |
|---|---|
| GitHub Copilot (VS Code) | ~/.config/Code/User/workspaceStorage/ |
| Claude Code | ~/.claude/projects/ |
| Codex CLI | ~/.codex/sessions/ |
| OpenCode | ~/.local/share/opencode/ |
| GitHub Copilot CLI | ~/.copilot/session-state/ |
| Xcode Copilot Chat | ~/.config/github-copilot/xcode/ |
Совместимость с IDE: VS Code, Cursor, Antigravity. Читает логи, ничего не записывает — расширение read-only, не модифицирует файлы сессий, и проект говорит что не звонит домой и не собирает телеметрию.
Observe — смотрим что происходит
Dashboard с practice scores и недельными трендами. Timeline в стиле Gantt — сессии по дням, можно проваливаться в детали, детектируется overlap между сессиями. Страница Output показывает объём AI-сгенерированного кода по языкам, воркспейсам и моделям. Patterns — тепловая карта активности 7×24 с сигналами work-life balance.
Measure — измеряем потери
Это ключевая часть. Anti-Patterns включает пять practice score cards с severity-рейтингами, конкретными действиями, примерами промптов и библиотеку 45 редактируемых markdown-правил. Правила покрывают пять категорий:
Prompt Quality — промпты без файлового контекста, размытые инструкции. Это деньги на ветер: агент генерирует что-то, но не то.
Session Hygiene — mega-сессии с drift-off-topic, отсутствие перезапуска контекста. Каждая такая сессия тихо съедает токены и качество ответов.
Code Review — авто-одобрение терминальных команд без devcontainer, слепой accept чего угодно что предлагает агент.
Tool Mastery — трата премиум-токенов на тривиальные вопросы. Спросить Claude Opus что такое map() в Python — это буквально выброшенные деньги.
Context Management — раздутый CLAUDE.md или AGENTS.md, потеря контекста которая ведёт к compaction и дрейфу модели.
Skill Finder ищет повторяющиеся паттерны промптов и матчит их с community skills из open-source каталога. По сути: находит что вы делаете руками регулярно и предлагает автоматизировать через скилл.
Context Health даёт общий балл контекстной здоровности, agentic readiness checklist и workspace context map в виде treemap.
Improve — улучшаем конкретно
Learning Center с персонализированными квизами — не абстрактными, а на основе ваших реальных сессий. XP-based прогрессия Bronze → Silver → Gold → Diamond. Раздел Agentic SDLC показывает как вы используете AI на разных этапах цикла разработки.
Rule Playground предоставляет интерактивный REPL для правила DSL с field browser, function catalog и metric list. Каждый детектор — markdown-файл с expression language. Можно тюнить пороги под свой стиль работы, писать новые правила, описать правило на английском и попросить Copilot сгенерировать skeleton.
Это важно: библиотека анти-паттернов — не закрытый список от Microsoft, а краудсорсинговый ресурс. Сообщество добавляет новые правила, и все их получают.
Лиза: «Я сразу поставила и запустила на своих сессиях с Claude Code по VibeCoderz. Context Health показал 67/100 — оказалось, я держу CLAUDE.md который уже давно не обновлялся и тащит устаревший контекст в каждую сессию. Это ровно та невидимая потеря о которой никто не говорит — ты не видишь что теряешь, пока тебе не покажут.»

У каждого вайбкодера который работает с агентами есть один больной вопрос: SKILL.md файлы. Вы пишете их вручную, добавляете правила из опыта, иногда переписываете. Это работает, но это ручной процесс без гарантий что изменения реально улучшают результат.
Скилл-документы сегодня пишутся вручную, генерируются за один проход или эволюционируют через слабо контролируемую само-ревизию — ни один из подходов не ведёт себя как deep-learning оптимизатор для скилла.
SkillOpt решает это системно. SkillOpt — это text-space оптимизатор который тренирует переиспользуемые natural-language скиллы для замороженных LLM-агентов через trajectory-driven правки, validation-gated обновления и deployable best_skill.md артефакты.
Принципиальный момент: SkillOpt не трогает веса модели. Агент остаётся замороженным. Оптимизируется только текстовый документ — SKILL.md. Это как тренировать инструкцию, а не сам мозг.
Аналогия с машинным обучением помогает понять механику:
| ML-концепт | SkillOpt-эквивалент |
|---|---|
| Forward pass | Rollout — агент выполняет задачи с текущим скиллом |
| Backward pass (градиенты) | Reflection — optimizer-модель анализирует успехи и провалы |
| Learning rate | Textual learning rate — бюджет правок ограничивает агрессивность |
| Validation set | Held-out selection split |
| Gradient clipping | Bounded edits — только add/delete/replace |
Целевая модель выполняет задачи с текущим скиллом, отдельная frontier optimizer-модель конвертирует траектории в ограниченные add/delete/replace правки скилла, и held-out gate принимает только те правки которые улучшают validation-производительность. Принятые правки экспортируются как переиспользуемый скилл-артефакт, отклонённые правки становятся негативным фидбеком для последующих обновлений.
На шести бенчмарках, семи целевых моделях и трёх execution-харнессах (direct chat, Codex, Claude Code), SkillOpt лучший или tied-best на всех 52 оцениваемых ячейках (модель, бенчмарк, харнесс) и побеждает каждого per-cell конкурента среди human-written skills, one-shot LLM, Trace2Skill, TextGrad, GEPA и EvoSkill.
На GPT-5.5 приросты по бенчмаркам:
| Бенчмарк | Без скилла | SkillOpt | Прирост |
|---|---|---|---|
| SearchQA | 77.7 | 87.3 | +9.6 |
| SpreadsheetBench | 41.8 | 80.7 | +38.9 |
| OfficeQA | 33.1 | 72.1 | +39.0 |
| DocVQA | 78.8 | 91.2 | +12.4 |
| LiveMathematicianBench | 37.6 | 66.9 | +29.3 |
| ALFWorld | 83.6 | 95.5 | +11.9 |
Самые большие приросты — на SpreadsheetBench (+38.9) и OfficeQA (+39.0). Почему именно там? Это процедурные задачи со строгими требованиями к формату и конкретными последовательностями действий — именно то на чём frontier-модели без скилла регулярно проваливаются. SkillOpt находит эти паттерны и кодирует их в скилл.
На GPT-5.5 средний прирост: +23.5 пункта в direct chat, +24.8 внутри Codex и +19.1 внутри Claude Code.
Это важная часть результатов которую легко пропустить.
Скилл обученный на GPT-5.4 перенесли на GPT-5.4-nano — прирост +15.2 пункта. Скилл обученный в Codex перенесли в Claude Code — прирост +31.8 пункта. GPT-5.4-nano оптимизировал сам себя — прирост +10.4.
Это означает что не нужно запускать обучение заново под каждую модель. Один раз обученный скилл переносится между окружениями и моделями.
Три компонента которые нельзя убирать:
Textual Learning Rate — без него SearchQA падает с 87.1 до 84.6, LiveMath с 61.3 до 57.3.
Rejected-edit Buffer — без него Spreadsheet падает с 77.5 до 72.9.
Slow Update + Meta Skill — без них Spreadsheet падает с 77.5 до 55.0. Полный коллапс на процедурных задачах.
Финальный скилл — файл от 300 до 2000 токенов. Это крошечный артефакт собранный из 1-4 принятых правок. Читаемый человеком, редактируемый, переносимый.
SkillOpt — research, не готовый продукт. Нужен held-out validation split для гейтирования правок. Нужен сильный optimizer — чем мощнее, тем лучше прирост. Если стартовый скилл совсем пустой — оптимизация может не дать результата.
AI Engineer Coach → Показывает КАК вы работаете с агентами
(находит слабые места: контекст, промпты, токены)
↓
SkillOpt → Автоматически улучшает ЧТО агент использует
(тренирует SKILL.md как внешнее состояние)
↓
Microsoft Agent Framework → Стандарт для скиллов
(SKILL.md портируется между Claude Code, Codex, Copilot)Microsoft последовательно строит экосистему вокруг agent skills как first-class citizen: от observability через Coach до оптимизации через SkillOpt до инфраструктуры через Agent Framework и MCP. Та же стратегия что сработала с Azure и GitHub.
Бонус: что ещё Microsoft выкатила параллельно — AgentRC (генерирует CLAUDE.md из кодовой базы и оценивает эффективность), RAMPART (security-тестирование агентов), Clarity (structured sounding board для проверки идей до написания кода), 174+ Azure Skills в открытом каталоге.
AI Engineer Coach — установить сегодня:
# Через VS Code Extensions Marketplace
# Или напрямую с GitHub
git clone https://github.com/microsoft/AI-Engineering-CoachРаботает с любым из: GitHub Copilot, Claude Code, Codex CLI, OpenCode. Всё локально, данные никуда не уходят.
SkillOpt — для экспериментов:
git clone https://github.com/microsoft/SkillOpt
cd SkillOpt
pip install -e .
cp .env.example .env
# Прописать API credentials и запуститьНужен бенчмарк-датасет в нужном формате (см. skillopt/envs/<benchmark>/dataloader.py) и API ключ для optimizer-модели.
SKILL.md — markdown-файл с инструкциями для AI-агента. Описывает как агент должен работать в конкретном контексте: соглашения, паттерны, ограничения. Читается агентом перед выполнением задачи.
CLAUDE.md / AGENTS.md — аналоги SKILL.md для конкретных агентов. CLAUDE.md читает Claude Code при запуске в директории проекта.
Context compaction — сжатие контекста которое агент выполняет когда контекстное окно заполнено. После compaction агент может потерять часть истории и начать давать менее релевантные ответы.
Textual learning rate — ограничение на количество и размер правок которые оптимизатор может вносить за один шаг. Аналог learning rate в обычном машинном обучении, но в пространстве текста.
Held-out validation gate — набор задач которые не используются при обучении, только для проверки. Правка в скилл принимается только если она улучшает результат на этом наборе.
Rollout — запуск агента на задачах с текущей версией скилла для сбора данных об успехах и провалах.
Harness — среда выполнения агента. В контексте SkillOpt: direct chat (прямой разговор с моделью), Codex (через Codex CLI), Claude Code (через Claude Code агент).
Anti-pattern — паттерн поведения который снижает качество или эффективность работы. В контексте AI Engineer Coach: например, промпт без указания конкретных файлов или mega-сессия без перезапуска контекста.
AI Engineer Coach — официальный продукт Microsoft?
Нет. Это open-source community effort от сотрудников Microsoft, но не официальный продукт и не часть Microsoft-сервисов. Лицензия MIT, код открыт.
Мои данные куда-то уходят?
Нет. Плагин read-only, весь анализ локальный, телеметрии нет. Это явно прописано в README проекта.
AI Engineer Coach работает только с Copilot?
Нет. Читает логи Claude Code, Codex CLI, OpenCode, GitHub Copilot CLI и Xcode Copilot Chat. Если вы используете Claude Code — плагин уже может анализировать ваши сессии.
SkillOpt можно использовать прямо сейчас?
Можно, но это research-код. Нужно подготовить датасет в нужном формате, настроить API credentials и разобраться с конфигурацией. Готового продукта с UI пока нет.
Что значит «замороженный агент» в SkillOpt?
SkillOpt не меняет веса языковой модели — она остаётся неизменной. Оптимизируется только текстовый файл-инструкция (SKILL.md). Это принципиально дешевле и проще чем fine-tuning.
Почему такие большие приросты на SpreadsheetBench и OfficeQA?
Это процедурные задачи с жёсткими требованиями к формату и конкретными последовательностями действий. Zero-shot frontier-модели на них регулярно ошибаются именно из-за отсутствия процедурного контекста — и это то, что SkillOpt кодирует в скилл.
Скилл обученный для Claude Code работает в Codex?
Да. В paper показан transfer: скилл обученный в Codex перенесён в Claude Code с приростом +31.8 пункта.
Все инструменты для вайбкодинга в одном месте — каталог AI-инструментов. Разобраться как выстроить агентный стек и работать с SKILL.md — запишитесь на консультацию к Максиму.
Опубликовано: 26 мая 2026. Источники: github.com/microsoft/AI-Engineering-Coach, arxiv.org/abs/2605.23904, microsoft.github.io/SkillOpt, github.com/microsoft/SkillOpt, OpenClawsome, DEV Community.