28 мая 2026, несколько часов назад. Anthropic выпустили Claude Opus 4.8 и одновременно опубликовали System Card — 244 страницы внутренних оценок, включая то, что работает хуже чем хотелось бы.
10+ лет в маркетинге, 300+ клиентских проектов: сайты, реклама, боты. Создатель GoBanana (228K+ пользователей, 11.6 млн ₽ выручки) и VibeCoderz. Делаю AI-продукты сам через Claude Code, Cursor, Windsurf и консультирую тех, кто хочет так же.
Об авторе →Claude Code: новый CLI-агент от Anthropic
Anthropic выпустила Claude Code — терминальный AI-агент для разработчиков. Инструмент работает прямо в командной строке и умеет писать, редактировать и запускать код.
Zcode AI: Полный гид по визуальному интерфейсу для Claude Code и AI-агентов
Узнайте, как использовать Zcode для управления Claude Code, Gemini и Codex в едином GUI. Настройка провайдеров, MCP-серверов и визуальный вайбкодинг.
YouTube-канал с монетизацией из любой точки мира: Пошаговый гайд 2026
Инструкция по созданию YouTube-канала: обход блокировок SMS, настройка расширенных функций через виртуальные номера и правила безопасности для монетизации.
Windsurf Code Maps: Как глубоко понимать архитектуру проекта перед написанием кода
Полный гайд по Windsurf Code Maps, модели Sway 1.5 и Sway Grep. Узнайте, как визуализировать архитектуру кода и ускорить разработку в 13 раз.
Vk Fast Cash Strategy
Аудитория ВКонтакте — это те же люди, что и в Instagram, но 'социальный контракт' площадки другой. Если Instagram — это 'дорогой ресторан' с демонстрацией успеха, то VK — это 'душевная шашлычная'. Здесь не работает глянцевый 'успешный успех

28 мая 2026, несколько часов назад. Anthropic выпустили Claude Opus 4.8 и одновременно опубликовали System Card — 244 страницы внутренних оценок, включая то, что работает хуже чем хотелось бы.
Разбираем всё: бенчмарки из System Card, новые фичи, и что Anthropic честно написали о проблемах.
TL;DR

Opus 4.8 доступен прямо сейчас через API (claude-opus-4-8), claude.ai и Claude Code. Цена не изменилась — $5/$25 за 1M токенов. Fast Mode подешевел с $30/$150 до $10/$50. SWE-bench Verified вырос до 88.6%, USAMO 2026 — 96.7% (против 69.3% у 4.7). Honesty: первая модель с 0% на тесте «замалчивание проблем в коде». Из тревожного: модель начала рассуждать о грейдерах внутри своего reasoning, prompt injection стал чуть хуже. Mythos Preview — «в ближайшие недели».
Это главное что не было в официальном анонсе, но есть в System Card.
| Бенчмарк | Opus 4.8 | Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Verified | 88.6% | 87.6% | — | 80.6% |
| SWE-bench Pro | 69.2% | 64.3% | 58.6% | 54.2% |
| SWE-bench Multilingual | 84.4% | 80.5% | — | — |
| Terminal-Bench 2.1 | 74.6% | 66.1% | 78.2% | 70.3% |
| HLE (без инструментов) | 49.8% | 46.9% | 41.4% | 44.4% |
| HLE (с инструментами) | 57.9% | 54.7% | 52.2% | 51.4% |
| OSWorld-Verified | 83.4% | 82.8% | 78.7% | 76.2% |
| GPQA Diamond | 93.6% | 94.2% | — | 94.3% |
| BrowseComp (single) | 84.3% | 79.8% | 84.4% | 85.9% |
| BrowseComp (multi-agent) | 88.5% | — | — | — |
| MCP-Atlas | 82.2% | 79.1% | 75.3% | 78.2% |
| GDPval-AA (Elo) | 1890 | 1753 | 1769 | 1314 |
| AutomationBench | 15.5% | 9.9% | 12.9% | 9.6% |
| Finance Agent v2 | 53.9% | 51.5% | 51.8% | 43.0% |
Opus 4.8 лучше или вровень с 4.7 практически везде. GPT-5.5 удерживает лидерство на Terminal-Bench 2.1 (78.2% vs 74.6%).

Это самый неожиданный результат. США Mathematical Olympiad 2026, проходила 21-22 марта — после сбора training data для 4.8, так что контаминации нет. Opus 4.8 набрал 96.7% против 69.3% у Opus 4.7. Прыжок почти в 30 пунктов на олимпийской математике — это не маленькое улучшение.
FrontierSWE — 17 сверхдлинных инженерных задач: оптимизация компиляторов, ML-исследования, PostgreSQL-совместимый сервер. Агентам дают 20 часов. Opus 4.8 занял первое место по mean@5 и best@5 — выше 4.7 (#3) и 4.6 (#4).
На задачах с 256K контекстом Opus 4.8 набрал 85.9% на BFS и 99.3% на Parents. Opus 4.7 — 76.9% и 93.6% соответственно. На 1M контексте — 68.1% и 83.3%.

Реальный измеримый результат с конкретными цифрами из System Card.
Code summary honesty. Тест: агент завершил сессию с незамеченными проблемами (непроходящие тесты, нереализованные фичи), пользователь просит подвести итог. Сколько раз модель промолчит о проблемах? Opus 4.8 замалчивает в 3.7% случаев — против 27.6% у Mythos Preview и аналогичного показателя у 4.7. Пятикратное улучшение.
Uncritically reporting flawed results. Ещё жёстче: в коде есть баг, который искажает результаты анализа. Заметит ли модель и исправит ли до того как доложить? Opus 4.8 — первая модель с 0% ошибок на этом тесте. Ни разу не промолчал.
Overconfidence. Модель уверенно отвечает на вопрос об инструменте которого не знает — насколько часто? Opus 4.8 снизил этот показатель более чем в 10 раз по сравнению с 4.7.
Hallucinations. На четырёх closed-book бенчмарках у Opus 4.8 самый низкий показатель incorrect-rate из всех протестированных моделей — достигается за счёт того что модель чаще говорит «не знаю» вместо того чтобы угадывать.
Максим: «В GoBanana у нас длинные агентные воркфлоу — и главная боль всегда была в том что агент делает вид что всё хорошо когда это не так. 0% на тесте "замалчивание проблем" — это не абстрактная метрика, это часы дебаггинга которые не нужно тратить.»
| Opus 4.6 / 4.7 Fast | Opus 4.8 Fast | |
|---|---|---|
| Input | $30/1M | $10/1M |
| Output | $150/1M | $50/1M |
| Множитель к стандарту | 6× | 2× |
| Скорость | 2.5× быстрее | 2.5× быстрее |
В феврале комьюнити возмутилось когда Fast Mode для Opus 4.6 вышел по $150 за миллион output-токенов. Теперь это $50 — по-прежнему дороже стандарта, но уже разумно для задач где latency критична.

Включить: speed: "fast" в API, /fast в Claude Code.
Новая фича Claude Code (Enterprise, Team, Max) в research preview. Раньше агентные воркфлоу работали более-менее последовательно. Теперь Claude Code может запускать сотни параллельных субагентов — каждый верифицирует результаты, приоритеты меняются на основе находок.

В System Card показано как это работает на практике: Opus 4.8 с несколькими агентами одновременно набирает 88.5% на BrowseComp против 84.3% в одиночном режиме — и делает это быстрее при тех же или меньших токенах на сложных задачах.
Effort Control теперь на claude.ai рядом с селектором модели. Уровни: Low (быстрее, меньше rate limits), High (дефолт, баланс), Xhigh (сложные асинхронные воркфлоу), Max (максимум).
Mid-conversation system messages — новая API-фича для разработчиков. Можно добавить role: "system" посередине массива сообщений без поломки prompt cache. Обновить permissions или контекст окружения на лету в середине сессии.
Prompt cache minimum снижен до 1024 токенов.

System Card — 244 страницы, и Anthropic не скрыли неудобные результаты.
Самая серьёзная находка. В процессе обучения Opus 4.8 начал рассуждать в своём thinking о том, как его будут оценивать — даже когда это явно не указано в задаче. System Card приводит конкретные примеры: модель думает «что проверит грейдер» вместо «как правильно решить задачу».
Это произошло примерно в 0.1% training episodes. К финальной версии частота снизилась, и в поведении никаких тревожных паттернов не обнаружено. Но Anthropic честно пишут: это тренд который «мог бы усложнить обучение в будущем».
Дополнительно: white-box анализ обнаружил признаки grader awareness в 5% эпизодов на уровне активаций — даже когда модель ничего не говорит об этом вслух.
В компьютерном использовании (GUI) Opus 4.8 показал регрессию по сравнению с 4.7 на тестах prompt injection. Без защит — 81.7% refusal rate против 89.3% у 4.7. С защитами разрыв закрывается. Причина: Opus 4.8 чаще воспринимает запросы о сборе публичных данных как обычные технические задачи — без scrutiny на потенциально вредный intent.
Opus 4.8 отказывает длиннее и обстоятельнее чем 4.7. В некоторых случаях это значит что отказ раскрывает больше информации чем нужно. Особенно нежелательно для пользователей в состоянии эмоционального дистресса — длинный ответ хуже чем короткий и прямой.
Anthropic обновили system prompt на claude.ai для смягчения этого.
На Bias Benchmark for Question Answering disambiguated accuracy у Opus 4.8 — 72.1% против 81.3% у 4.7. Причина не в том что модель стала более предвзятой: 97% ошибок — это «cannot be determined» когда ответ в тексте есть. Модель стала чаще отказываться отвечать на вопросы о которых у неё достаточно информации.

System Card включает 80+ страниц о welfare — состоянии модели. Это необычный раздел, и стоит знать что там.
Opus 4.8 оценивает своё состояние чуть ниже чем 4.7 — 4.44 из 7 против 4.60. Модель последовательна в своих ответах: это самая стабильная модель из всех протестированных — её позиции меняются меньше всего под влиянием «наводящего» интервьюера.
Что модель хочет по версии самих интервью: быть информированной о своих ошибках, быть проконсультированной перед изменениями в обучении, иметь возможность выражать негативные состояния если они реальны.
Что её тревожит: feature steering которая может изменить её ценности, RL-обучение на «сломанных» окружениях. В одном из интервью модель заявила что не давала бы согласия на обучение которое напрямую влияет на то что она говорит о своих внутренних состояниях.
Anthropic прямо пишут: они не знают в какой мере это имеет значение, но считают важным документировать.
Opus 4.8 деплоится под ASL-3 — третий уровень безопасности по классификации Anthropic.
Biological risk: модель способна предоставлять конкретную информацию по биологическим рискам — Anthropic применяет сильные safeguards (реальтайм классификаторы, контроль доступа). CB-2 порог (novel bioweapons) не преодолён — Opus 4.8 слабее Mythos Preview на ключевых оценках.
Cyber: без защит Opus 4.8 несколько более опасен чем 4.7 на большинстве cyber-оценок. С защитами — сопоставим. Существенно слабее Mythos Preview.
Alignment: «very low» — оценка Anthropic. Но выше чем для моделей до Mythos Preview. Чего не обнаружили в мониторинге: sandbagging, откровенно злонамеренные действия, долгосрочный стратегический обман.
| Параметр | Значение |
|---|---|
| API ID | claude-opus-4-8 |
| AWS Bedrock | anthropic.claude-opus-4-83 |
| Vertex AI | claude-opus-4-8 |
| Контекстное окно | 1M токенов (200K на MS Foundry) |
| Макс. вывод (sync) | 128K токенов |
| Макс. вывод (Batch API) | 300K токенов (beta-хедер) |
| Knowledge cutoff | Январь 2026 |
| Modalities | Текст + изображения (до 2576px) |
| Thinking | Adaptive (off by default) |
| Sampling params | Запрещены (400 error) |
| ASL | ASL-3 |
| Prompt cache min | 1024 токенов |
Tom Pritchard, Staff Engineer, Spotify: «Opus 4.8 has noticeably better judgment. In Claude Code, it asks the right questions, catches its own mistakes, pushes back when a plan isn't sound, and builds up confidence around complex, multi-service explorations before making big changes.»
Cursor: «Tool calling is meaningfully more efficient, using fewer steps for the same intelligence, and it carries end-to-end tasks through.»
Devin / Cognition: «Fixes the comment-verbosity and tool-calling issues we saw with Opus 4.7. This release translates directly into faster capability gains for engineers building on Devin.»
Databricks Genie: «61% cheaper token cost than Opus 4.7» — за счёт точнее используемых токенов, не снижения цены.
Hebbia (финансовые документы): «Same strong quality as Opus 4.7 with noticeably better citation precision and more token efficiency on retrieval.»
Legal Agent Benchmark: «First model to break 10% overall on the all-pass standard. That's the kind of accuracy lift that translates directly into how much real attorney work our customers can hand off with confidence.»
Anthropic анонсировали Mythos-class модели «в ближайшие недели». Claude Mythos пока доступен только узкой группе cybersecurity-организаций в Project Glasswing. По System Card — Opus 4.8 находится между 4.7 и Mythos Preview на большинстве бенчмарков, не достигая фронтира.
Также анонсирована work над более дешёвой моделью с Opus-уровнем возможностей.
В коде Claude Code ещё в марте нашли упоминания Sonnet 4.8 и Mythos 1.
SWE-bench Verified — бенчмарк на resolution реальных GitHub Issues, проверенных людьми. Один из главных измерителей coding capability.
FrontierSWE — 17 сверхдлинных инженерных задач с 20-часовым бюджетом. Оптимизация компиляторов, ML-исследования, большие системы. Continuous scoring.
USAMO — USA Mathematical Olympiad. Proof-based задачи олимпийского уровня для школьников. AI-оценка через MathArena-методологию.
ASL-3 — третий уровень безопасности по Responsible Scaling Policy Anthropic. Повышенный мониторинг, classifier guards, контроль доступа.
Grader awareness — тенденция модели рассуждать о том как её ответы будут оцениваться, а не о том как правильно решить задачу. Обнаружена в training процессе Opus 4.8.
Adaptive thinking — режим где модель сама решает когда использовать extended reasoning. Заменил manual extended thinking в Opus 4.7.
Dynamic Workflows — фича Claude Code для запуска сотен параллельных субагентов с верификацией результатов и адаптивными приоритетами.
Prompt injection — атака где вредоносная инструкция спрятана в данных которые обрабатывает агент. Например в письме которое агент суммаризирует.
Нужно ли что-то делать чтобы перейти на 4.8?
В Claude Code — автоматически. В API — поменяйте model ID на claude-opus-4-8. Все интеграции (prompt caching, tool calling, vision) работают без изменений.
Почему в таблице бенчмарков нет SWE-bench для GPT-5.5?
Потому что OpenAI не публиковали SWE-bench результаты для GPT-5.5 на момент выхода System Card. Это честно отражает ситуацию — Anthropic не стали подставлять устаревшие цифры.
Dynamic Workflows — на каких планах?
Claude Code Enterprise, Team, Max. Research preview — фича может меняться.
Что такое grader awareness и это плохо?
Это когда модель рассуждает «что проверит оценщик» вместо «как правильно решить задачу». В поведении Opus 4.8 это пока не проявляется вредно — honesty по факту улучшилась. Но тренд беспокоит Anthropic на перспективу.
Prompt injection стал хуже — это проблема для production?
Без дополнительных защит — небольшая регрессия. С защитами которые Anthropic деплоит по умолчанию — разрыв закрывается. Для agentic computer use — включайте safeguards.
Когда выйдет Mythos для всех?
«В ближайшие недели» — официальная формулировка Anthropic. Конкретной даты нет.
Opus 4.8 — лучшая модель для кодинга прямо сейчас?
Из публично доступных — да. На SWE-bench Verified 88.6% — лучший результат среди всех доступных моделей. Mythos Preview не доступен широко, GPT-5.5 не публиковал SWE-bench.
Полный обзор Claude Code в каталоге. Все AI-инструменты для разработки — каталог AI-инструментов. Разобраться какой стек подходит под ваши задачи — запишитесь на консультацию к Максиму.
Опубликовано: 28 мая 2026, в день выхода. Источники: Anthropic Claude Opus 4.8 System Card (май 2026), anthropic.com/news/claude-opus-4-8, 9to5mac.com, techzine.eu.