Новости

Последние обновления инструментов, релизы и важные события из мира вайб-кодинга

Загрузка...

Разработчики из Windsurf решили, что синтетические бенчмарки больше не отражают реальность, и представили Arena Mode. Это встроенный в IDE инструмент, который позволяет сравнивать работу разных LLM в режиме «слепого тестирования» прямо на вашем рабочем коде.

Как работает Arena Mode

Вместо того чтобы гадать, какая модель лучше справится с рефакторингом или дебагом, вы запускаете два агента Cascade параллельно.

Слепое сравнение: Личности моделей скрыты, пока вы не выберете лучший вариант.
Полный контекст: Оба агента имеют доступ к вашей кодовой базе, инструментам и текущему окружению.
Синхронизация: Вы отправляете один промпт, а Cascade генерирует два решения. Можно продолжать диалог синхронно или разветвлять чаты для каждой модели отдельно.
Голосование: После оценки результата вы выбираете победителя. Эти данные формируют персональный и глобальный лидерборды.

Почему это важно для вайбкодеров

Для тех, кто строит продукты с помощью AI-агентов, выбор модели часто превращается в лотерею. Arena Mode решает главную проблему внешних тестов — отсутствие контекста. Как отметила DevRel лид проекта: «Ваша кодовая база — это и есть настоящий бенчмарк».

Система позволяет тестировать как конкретные пары моделей, так и группы (например, «быстрые» против «умных»). Это помогает понять, стоит ли переплачивать за контекстное окно Claude 3.5 Sonnet или для текущей задачи достаточно условной GPT-4o mini.

План Mode и будущее

Помимо «Арены», в обновлении появился Plan Mode. Теперь Cascade сначала задает уточняющие вопросы и строит структурированный план действий, и только после вашего одобрения приступает к написанию кода. Это значительно снижает количество галлюцинаций при работе над сложными фичами.

На данный момент Arena Mode доступна бесплатно для всех групп моделей на ограниченный период. В будущем Windsurf планирует добавить детальные рейтинги по языкам программирования и типам задач, а также внедрить командные лидерборды для крупных организаций.

Новости

Новости

Windsurf представил Arena Mode: сравниваем AI-модели прямо в коде

Упомянутые инструменты

Автор

Содержание

Инструменты, упомянутые в новости

Читать далее

Как работает Arena Mode

Почему это важно для вайбкодеров

План Mode и будущее