GitHub анонсировал крутую фичу для тех, кто доверяет AI-агентам сложные задачи. В GitHub Copilot CLI появился экспериментальный режим Rubber Duck. Его суть проста, но эффективна: теперь за работой основного агента присматривает «второе мнение» — независимая модель из другого семейства.
Зачем агенту контролер?
Главная проблема современных AI-агентов — «уверенные ошибки». Если модель ошибается на этапе планирования архитектуры, вся последующая работа превращается в наслоение костылей. Саморефлексия (когда модель проверяет сама себя) помогает не всегда, так как нейросеть ограничена собственными весами и предвзятостью обучения.
Rubber Duck решает это через кросс-модельный аудит. Если ваш основной оркестратор — Claude 4.6 Sonnet, то в роли «резиновой уточки» выступит GPT-5.4. Разные семейства моделей имеют разные «слепые зоны», что позволяет находить баги там, где их пропустил основной агент.
Цифры и эффективность
GitHub протестировал связку на бенчмарке SWE-bench Pro (реальные задачи из open-source репозиториев). Результаты впечатляют:
- Связка Claude Sonnet + Rubber Duck (GPT-5.4) сократила разрыв в производительности между Sonnet и более мощной Opus на 74,7%.
- Инструмент лучше всего показывает себя в хардкорных задачах: правки в 3+ файлах и процессы, занимающие более 70 шагов.
- На самых сложных задачах точность решения выросла на 4,8% по сравнению с базовой Sonnet.
Что это значит для вайбкодеров?
Для нас это переход от простого «промптинга» к полноценному пайплайну качества. Rubber Duck не просто переписывает код, а выдает сфокусированный список критических замечаний: пропущенные edge-кейсы, сомнительные архитектурные допущения и детали, которые основной агент мог упустить в пылу генерации.
Это делает разработку через CLI еще более автономной. Пока агент «варится» в коде, вторая модель выступает в роли опытного техлида на код-ревью.
Как попробовать?
Функция уже доступна в экспериментальном режиме. Чтобы активировать Rubber Duck и другие новые фичи, используйте флаг:
/experimental в интерфейсе Copilot CLI.
Сейчас GitHub активно тестирует разные комбинации семейств моделей, чтобы найти идеальные пары для взаимной проверки.