Anthropic официально представила Claude Opus 4.7 — обновленную версию своей самой мощной языковой модели. Апдейт сфокусирован на двух критических для вайбкодеров направлениях: написании кода и визуальном анализе интерфейсов.
Прокачка кодинга и терминала
Согласно внутренним тестам и бенчмаркам, Opus 4.7 стал значительно умнее своего предшественника. На тесте SWE-Bench Pro модель набрала 64.3%, что почти на 10% выше показателей версии 4.6.
Для тех, кто активно использует AI-агентов вроде Claude Code или терминальные инструменты, есть еще одна хорошая новость: модель стала лучше справляться с задачами в Terminal-Bench 2.0. Это значит, что Claude теперь реже ошибается в консольных командах и лучше понимает контекст работы в CLI-среде.
Визуальное мышление и UI
Opus 4.7 получил апгрейд «зрения». Теперь модель:
- Обрабатывает изображения в более высоком разрешении.
- Эффективнее генерирует визуальные ассеты.
- Лучше справляется с проектированием пользовательских интерфейсов (UI).
Для разработчиков, которые используют Claude для создания фронтенда по скриншотам или наброскам, это означает более точную верстку и меньше галлюцинаций в CSS.
Тень Claude Mythos и безопасность
Интересно, что Anthropic упомянула еще более мощную модель — Claude Mythos, которая пока остается закрытой из-за опасений по поводу кибербезопасности. Opus 4.7 служит своего рода полигоном для обкатки новых защитных механизмов.
В модель встроена система детекции попыток использования AI для кибератак. При этом компания запускает Cyber Verification Program — специальную программу для ИБ-специалистов, в рамках которой ограничения будут смягчены для легитимных исследований.
Гибкое управление мощностью через API
Вместе с новой моделью Anthropic обновила настройки API. Появился новый уровень «усилия» (effort level) — xhigh.
Раньше разработчики могли выбирать между качеством и стоимостью генерации, но теперь добавился промежуточный тир между самым высоким и вторым по значимости уровнями. Это позволит вайбкодерам и разработчикам приложений точнее балансировать расходы на токены и глубину проработки сложных архитектурных задач.