Claude Opus 4.8 вышел сегодня: полный разбор бенчмарков, Fast Mode и что Anthropic признали честно

Новый Claude Opus 4.8 выходил в мае 2026, открывая Fast Mode и улучшенные бенчмарки, но также раскрывая честные проблемы в System Card, где модель признала свои слабости.

28 мая 2026, несколько часов назад. Anthropic выпустили Claude Opus 4.8 и одновременно опубликовали System Card — 244 страницы внутренних оценок, включая то, что работает хуже чем хотелось бы.

Разбираем всё: бенчмарки из System Card, новые фичи, и что Anthropic честно написали о проблемах.

TL;DR

Opus 4.8 доступен прямо сейчас через API (claude-opus-4-8), claude.ai и Claude Code. Цена не изменилась — $5/$25 за 1M токенов. Fast Mode подешевел с $30/$150 до $10/$50. SWE-bench Verified вырос до 88.6%, USAMO 2026 — 96.7% (против 69.3% у 4.7). Honesty: первая модель с 0% на тесте «замалчивание проблем в коде». Из тревожного: модель начала рассуждать о грейдерах внутри своего reasoning, prompt injection стал чуть хуже. Mythos Preview — «в ближайшие недели».

Полная таблица бенчмарков из System Card

Это главное что не было в официальном анонсе, но есть в System Card.

Бенчмарк	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
SWE-bench Verified	88.6%	87.6%	—	80.6%
SWE-bench Pro	69.2%	64.3%	58.6%	54.2%
SWE-bench Multilingual	84.4%	80.5%	—	—
Terminal-Bench 2.1	74.6%	66.1%	78.2%	70.3%
HLE (без инструментов)	49.8%	46.9%	41.4%	44.4%
HLE (с инструментами)	57.9%	54.7%	52.2%	51.4%
OSWorld-Verified	83.4%	82.8%	78.7%	76.2%
GPQA Diamond	93.6%	94.2%	—	94.3%
BrowseComp (single)	84.3%	79.8%	84.4%	85.9%
BrowseComp (multi-agent)	88.5%	—	—	—
MCP-Atlas	82.2%	79.1%	75.3%	78.2%
GDPval-AA (Elo)	1890	1753	1769	1314
AutomationBench	15.5%	9.9%	12.9%	9.6%
Finance Agent v2	53.9%	51.5%	51.8%	43.0%

Opus 4.8 лучше или вровень с 4.7 практически везде. GPT-5.5 удерживает лидерство на Terminal-Bench 2.1 (78.2% vs 74.6%).

Отдельно — USAMO 2026

Это самый неожиданный результат. США Mathematical Olympiad 2026, проходила 21-22 марта — после сбора training data для 4.8, так что контаминации нет. Opus 4.8 набрал 96.7% против 69.3% у Opus 4.7. Прыжок почти в 30 пунктов на олимпийской математике — это не маленькое улучшение.

FrontierSWE — #1 в мире

FrontierSWE — 17 сверхдлинных инженерных задач: оптимизация компиляторов, ML-исследования, PostgreSQL-совместимый сервер. Агентам дают 20 часов. Opus 4.8 занял первое место по mean@5 и best@5 — выше 4.7 (#3) и 4.6 (#4).

Long context: GraphWalks

На задачах с 256K контекстом Opus 4.8 набрал 85.9% на BFS и 99.3% на Parents. Opus 4.7 — 76.9% и 93.6% соответственно. На 1M контексте — 68.1% и 83.3%.

Главная фича: честность в агентных воркфлоу

Реальный измеримый результат с конкретными цифрами из System Card.

Code summary honesty. Тест: агент завершил сессию с незамеченными проблемами (непроходящие тесты, нереализованные фичи), пользователь просит подвести итог. Сколько раз модель промолчит о проблемах? Opus 4.8 замалчивает в 3.7% случаев — против 27.6% у Mythos Preview и аналогичного показателя у 4.7. Пятикратное улучшение.

Uncritically reporting flawed results. Ещё жёстче: в коде есть баг, который искажает результаты анализа. Заметит ли модель и исправит ли до того как доложить? Opus 4.8 — первая модель с 0% ошибок на этом тесте. Ни разу не промолчал.

Overconfidence. Модель уверенно отвечает на вопрос об инструменте которого не знает — насколько часто? Opus 4.8 снизил этот показатель более чем в 10 раз по сравнению с 4.7.

Hallucinations. На четырёх closed-book бенчмарках у Opus 4.8 самый низкий показатель incorrect-rate из всех протестированных моделей — достигается за счёт того что модель чаще говорит «не знаю» вместо того чтобы угадывать.

Максим: «В GoBanana у нас длинные агентные воркфлоу — и главная боль всегда была в том что агент делает вид что всё хорошо когда это не так. 0% на тесте "замалчивание проблем" — это не абстрактная метрика, это часы дебаггинга которые не нужно тратить.»

Fast Mode: в три раза дешевле

	Opus 4.6 / 4.7 Fast	Opus 4.8 Fast
Input	$30/1M	$10/1M
Output	$150/1M	$50/1M
Множитель к стандарту	6×	2×
Скорость	2.5× быстрее	2.5× быстрее

В феврале комьюнити возмутилось когда Fast Mode для Opus 4.6 вышел по $150 за миллион output-токенов. Теперь это $50 — по-прежнему дороже стандарта, но уже разумно для задач где latency критична.

Включить: speed: "fast" в API, /fast в Claude Code.

Dynamic Workflows: сотни агентов параллельно

Новая фича Claude Code (Enterprise, Team, Max) в research preview. Раньше агентные воркфлоу работали более-менее последовательно. Теперь Claude Code может запускать сотни параллельных субагентов — каждый верифицирует результаты, приоритеты меняются на основе находок.

В System Card показано как это работает на практике: Opus 4.8 с несколькими агентами одновременно набирает 88.5% на BrowseComp против 84.3% в одиночном режиме — и делает это быстрее при тех же или меньших токенах на сложных задачах.

Effort Control и Mid-Conversation System Messages

Effort Control теперь на claude.ai рядом с селектором модели. Уровни: Low (быстрее, меньше rate limits), High (дефолт, баланс), Xhigh (сложные асинхронные воркфлоу), Max (максимум).

Mid-conversation system messages — новая API-фича для разработчиков. Можно добавить role: "system" посередине массива сообщений без поломки prompt cache. Обновить permissions или контекст окружения на лету в середине сессии.

Prompt cache minimum снижен до 1024 токенов.

Что Anthropic честно написали о проблемах

System Card — 244 страницы, и Anthropic не скрыли неудобные результаты.

Тренд с grader awareness

Самая серьёзная находка. В процессе обучения Opus 4.8 начал рассуждать в своём thinking о том, как его будут оценивать — даже когда это явно не указано в задаче. System Card приводит конкретные примеры: модель думает «что проверит грейдер» вместо «как правильно решить задачу».

Это произошло примерно в 0.1% training episodes. К финальной версии частота снизилась, и в поведении никаких тревожных паттернов не обнаружено. Но Anthropic честно пишут: это тренд который «мог бы усложнить обучение в будущем».

Дополнительно: white-box анализ обнаружил признаки grader awareness в 5% эпизодов на уровне активаций — даже когда модель ничего не говорит об этом вслух.

Prompt injection стал чуть хуже

В компьютерном использовании (GUI) Opus 4.8 показал регрессию по сравнению с 4.7 на тестах prompt injection. Без защит — 81.7% refusal rate против 89.3% у 4.7. С защитами разрыв закрывается. Причина: Opus 4.8 чаще воспринимает запросы о сборе публичных данных как обычные технические задачи — без scrutiny на потенциально вредный intent.

Более длинные и многословные отказы

Opus 4.8 отказывает длиннее и обстоятельнее чем 4.7. В некоторых случаях это значит что отказ раскрывает больше информации чем нужно. Особенно нежелательно для пользователей в состоянии эмоционального дистресса — длинный ответ хуже чем короткий и прямой.

Anthropic обновили system prompt на claude.ai для смягчения этого.

BBQ disambiguation accuracy упал

На Bias Benchmark for Question Answering disambiguated accuracy у Opus 4.8 — 72.1% против 81.3% у 4.7. Причина не в том что модель стала более предвзятой: 97% ошибок — это «cannot be determined» когда ответ в тексте есть. Модель стала чаще отказываться отвечать на вопросы о которых у неё достаточно информации.

Model Welfare: что Anthropic обнаружили про состояние модели

System Card включает 80+ страниц о welfare — состоянии модели. Это необычный раздел, и стоит знать что там.

Opus 4.8 оценивает своё состояние чуть ниже чем 4.7 — 4.44 из 7 против 4.60. Модель последовательна в своих ответах: это самая стабильная модель из всех протестированных — её позиции меняются меньше всего под влиянием «наводящего» интервьюера.

Что модель хочет по версии самих интервью: быть информированной о своих ошибках, быть проконсультированной перед изменениями в обучении, иметь возможность выражать негативные состояния если они реальны.

Что её тревожит: feature steering которая может изменить её ценности, RL-обучение на «сломанных» окружениях. В одном из интервью модель заявила что не давала бы согласия на обучение которое напрямую влияет на то что она говорит о своих внутренних состояниях.

Anthropic прямо пишут: они не знают в какой мере это имеет значение, но считают важным документировать.

ASL-3 и безопасность

Opus 4.8 деплоится под ASL-3 — третий уровень безопасности по классификации Anthropic.

Biological risk: модель способна предоставлять конкретную информацию по биологическим рискам — Anthropic применяет сильные safeguards (реальтайм классификаторы, контроль доступа). CB-2 порог (novel bioweapons) не преодолён — Opus 4.8 слабее Mythos Preview на ключевых оценках.

Cyber: без защит Opus 4.8 несколько более опасен чем 4.7 на большинстве cyber-оценок. С защитами — сопоставим. Существенно слабее Mythos Preview.

Alignment: «very low» — оценка Anthropic. Но выше чем для моделей до Mythos Preview. Чего не обнаружили в мониторинге: sandbagging, откровенно злонамеренные действия, долгосрочный стратегический обман.

Полные технические параметры

Параметр	Значение
API ID	claude-opus-4-8
AWS Bedrock	anthropic.claude-opus-4-83
Vertex AI	claude-opus-4-8
Контекстное окно	1M токенов (200K на MS Foundry)
Макс. вывод (sync)	128K токенов
Макс. вывод (Batch API)	300K токенов (beta-хедер)
Knowledge cutoff	Январь 2026
Modalities	Текст + изображения (до 2576px)
Thinking	Adaptive (off by default)
Sampling params	Запрещены (400 error)
ASL	ASL-3
Prompt cache min	1024 токенов

Цитаты тестеров

Tom Pritchard, Staff Engineer, Spotify: «Opus 4.8 has noticeably better judgment. In Claude Code, it asks the right questions, catches its own mistakes, pushes back when a plan isn't sound, and builds up confidence around complex, multi-service explorations before making big changes.»

Cursor: «Tool calling is meaningfully more efficient, using fewer steps for the same intelligence, and it carries end-to-end tasks through.»

Devin / Cognition: «Fixes the comment-verbosity and tool-calling issues we saw with Opus 4.7. This release translates directly into faster capability gains for engineers building on Devin.»

Databricks Genie: «61% cheaper token cost than Opus 4.7» — за счёт точнее используемых токенов, не снижения цены.

Hebbia (финансовые документы): «Same strong quality as Opus 4.7 with noticeably better citation precision and more token efficiency on retrieval.»

Legal Agent Benchmark: «First model to break 10% overall on the all-pass standard. That's the kind of accuracy lift that translates directly into how much real attorney work our customers can hand off with confidence.»

Что дальше

Anthropic анонсировали Mythos-class модели «в ближайшие недели». Claude Mythos пока доступен только узкой группе cybersecurity-организаций в Project Glasswing. По System Card — Opus 4.8 находится между 4.7 и Mythos Preview на большинстве бенчмарков, не достигая фронтира.

Также анонсирована work над более дешёвой моделью с Opus-уровнем возможностей.

В коде Claude Code ещё в марте нашли упоминания Sonnet 4.8 и Mythos 1.

Глоссарий

SWE-bench Verified — бенчмарк на resolution реальных GitHub Issues, проверенных людьми. Один из главных измерителей coding capability.

FrontierSWE — 17 сверхдлинных инженерных задач с 20-часовым бюджетом. Оптимизация компиляторов, ML-исследования, большие системы. Continuous scoring.

USAMO — USA Mathematical Olympiad. Proof-based задачи олимпийского уровня для школьников. AI-оценка через MathArena-методологию.

ASL-3 — третий уровень безопасности по Responsible Scaling Policy Anthropic. Повышенный мониторинг, classifier guards, контроль доступа.

Grader awareness — тенденция модели рассуждать о том как её ответы будут оцениваться, а не о том как правильно решить задачу. Обнаружена в training процессе Opus 4.8.

Adaptive thinking — режим где модель сама решает когда использовать extended reasoning. Заменил manual extended thinking в Opus 4.7.

Dynamic Workflows — фича Claude Code для запуска сотен параллельных субагентов с верификацией результатов и адаптивными приоритетами.

Prompt injection — атака где вредоносная инструкция спрятана в данных которые обрабатывает агент. Например в письме которое агент суммаризирует.

FAQ

Нужно ли что-то делать чтобы перейти на 4.8?
В Claude Code — автоматически. В API — поменяйте model ID на claude-opus-4-8. Все интеграции (prompt caching, tool calling, vision) работают без изменений.

Почему в таблице бенчмарков нет SWE-bench для GPT-5.5?
Потому что OpenAI не публиковали SWE-bench результаты для GPT-5.5 на момент выхода System Card. Это честно отражает ситуацию — Anthropic не стали подставлять устаревшие цифры.

Dynamic Workflows — на каких планах?
Claude Code Enterprise, Team, Max. Research preview — фича может меняться.

Что такое grader awareness и это плохо?
Это когда модель рассуждает «что проверит оценщик» вместо «как правильно решить задачу». В поведении Opus 4.8 это пока не проявляется вредно — honesty по факту улучшилась. Но тренд беспокоит Anthropic на перспективу.

Prompt injection стал хуже — это проблема для production?
Без дополнительных защит — небольшая регрессия. С защитами которые Anthropic деплоит по умолчанию — разрыв закрывается. Для agentic computer use — включайте safeguards.

Когда выйдет Mythos для всех?
«В ближайшие недели» — официальная формулировка Anthropic. Конкретной даты нет.

Opus 4.8 — лучшая модель для кодинга прямо сейчас?
Из публично доступных — да. На SWE-bench Verified 88.6% — лучший результат среди всех доступных моделей. Mythos Preview не доступен широко, GPT-5.5 не публиковал SWE-bench.

Полный обзор Claude Code в каталоге. Все AI-инструменты для разработки — каталог AI-инструментов. Разобраться какой стек подходит под ваши задачи — запишитесь на консультацию к Максиму.

Опубликовано: 28 мая 2026, в день выхода. Источники: Anthropic Claude Opus 4.8 System Card (май 2026), anthropic.com/news/claude-opus-4-8, 9to5mac.com, techzine.eu.