Разработчики из Windsurf решили, что синтетические бенчмарки больше не отражают реальность, и представили Arena Mode. Это встроенный в IDE инструмент, который позволяет сравнивать работу разных LLM в режиме «слепого тестирования» прямо на вашем рабочем коде.
Как работает Arena Mode
Вместо того чтобы гадать, какая модель лучше справится с рефакторингом или дебагом, вы запускаете два агента Cascade параллельно.
- Слепое сравнение: Личности моделей скрыты, пока вы не выберете лучший вариант.
- Полный контекст: Оба агента имеют доступ к вашей кодовой базе, инструментам и текущему окружению.
- Синхронизация: Вы отправляете один промпт, а Cascade генерирует два решения. Можно продолжать диалог синхронно или разветвлять чаты для каждой модели отдельно.
- Голосование: После оценки результата вы выбираете победителя. Эти данные формируют персональный и глобальный лидерборды.
Почему это важно для вайбкодеров
Для тех, кто строит продукты с помощью AI-агентов, выбор модели часто превращается в лотерею. Arena Mode решает главную проблему внешних тестов — отсутствие контекста. Как отметила DevRel лид проекта: «Ваша кодовая база — это и есть настоящий бенчмарк».
Система позволяет тестировать как конкретные пары моделей, так и группы (например, «быстрые» против «умных»). Это помогает понять, стоит ли переплачивать за контекстное окно Claude 3.5 Sonnet или для текущей задачи достаточно условной GPT-4o mini.
План Mode и будущее
Помимо «Арены», в обновлении появился Plan Mode. Теперь Cascade сначала задает уточняющие вопросы и строит структурированный план действий, и только после вашего одобрения приступает к написанию кода. Это значительно снижает количество галлюцинаций при работе над сложными фичами.
На данный момент Arena Mode доступна бесплатно для всех групп моделей на ограниченный период. В будущем Windsurf планирует добавить детальные рейтинги по языкам программирования и типам задач, а также внедрить командные лидерборды для крупных организаций.