Обновлено: июнь 2026
- Sol Ultra — 91.9%
- Sol Стандарт — 88.8%
- Mythos Preview — ниже Sol
Но одновременно с этим произошло кое-что ещё: правительство США впервые в истории превентивно попросило американскую AI-компанию ограничить релиз модели до выхода. ONCD, OSTP и Commerce одобряют доступ буквально для каждого клиента по отдельности. Широкая аудитория ждёт «пару недель».
Разбираем три модели, два режима reasoning, бенчмарки, цены и беспрецедентный прецедент с правительством.
GPT-5.6 Sol — новый SOTA на Terminal-Bench 2.1: 91.9% в Ultra, 88.8% в стандарте. Семейство: Sol ($5/$30), Terra ($2.50/$15), Luna ($1/$6). Ultra mode с multi-agent orchestration. Restricted preview с government approval на каждого клиента. Широкий запуск — скоро. В статье: архитектура reasoning modes, бенчмарки, цены, прецедент с правительством.
Ссылки:
- openai.com/index/previewing-gpt-5-6-sol — официальный анонс OpenAI
- Axios: правительство США попросило ограничить релиз
- Engadget: доступ только для одобренных клиентов
- ExploitBench: результаты на v8-bench
- Hacker News: обсуждение (83 поинта)
- Capital & Compute: сценарии ценообразования GPT-5.6
- TokenMix: детали regulated release
Три модели — три позиции в линейке
Sol — максимум мощности. Terra — уровень GPT-5.5 вдвое дешевле. Luna — быстро и доступно. Плюс предсказуемое кэширование с 30-минутным минимальным временем жизни.
GPT-5.6 — не одна модель. Это семейство с чёткими ролями, которые OpenAI разводит по цене и профилю задач.
- Sol — флагман, максимум. Вход $5 / выход $30 за 1M токенов.
- Terra — баланс, GPT-5.5 уровень. Вход $2.50 / выход $15 за 1M токенов.
- Luna — скорость, доступность. Вход $1 / выход $6 за 1M токенов.
Terra — самый интересный слот по соотношению цена/качество. Если обещания держатся, это GPT-5.5 в два раза дешевле. Для большинства продакшн-задач, где не нужен максимальный reasoning — Terra выглядит как основной рабочий инструмент после широкого запуска.
Кэширование тоже изменилось. Минимальное время жизни кэша — 30 минут с явными breakpoints. Запись кэша стоит 1.25× входной цены — но при правильном использовании длинных системных промптов это отбивается на повторных запросах. Предсказуемость кэша означает, что можно строить пайплайны, зная, что кэш не сбросится неожиданно.
⚠️ Важная оговорка: ценообразование из controlled preview, не подтверждено официально на странице OpenAI pricing.
Два режима reasoning: Max и Ultra
Max — максимальный reasoning effort в одной модели. Ultra — Sol сам нанимает субагентов. Multi-agent orchestration без фреймворка из коробки.
GPT-5.6 вводит два новых режима работы, которые принципиально меняют то, как модель подходит к задаче.
Max — режим максимального reasoning effort. Sol получает больше времени на обдумывание перед ответом. Аналог extended thinking в других моделях, но в исполнении OpenAI. Для сложных задач с требованием точности.
Ultra — другой уровень. Модель выходит за пределы одного агента и подключает субагентов. По сути, встроенный multi-agent orchestration без необходимости настраивать внешние фреймворки. OpenAI называет это аналогом ultracode — только теперь доступно через стандартный API.
В режиме Ultra Sol набирает 91.9% на Terminal-Bench 2.1. В стандартном режиме — 88.8%. Разрыв в 3 п.п. — это цена за подключение субагентов. Для задач, где нужна максимальная точность на сложных многошаговых задачах — Ultra оправдан. Для быстрых запросов — лишний overhead.
«GPT-5.6 Sol sets a new state of the art on Terminal-Bench 2.1» — OpenAI Blog
Бенчмарки: новый SOTA по кодингу, биологии и киберу
91.9% на Terminal-Bench 2.1 — выше Mythos Preview. На биологии меньше токенов при лучшем результате. На ExploitBench — ~1/3 токенов Mythos при сопоставимом уровне.
Кодинг: Terminal-Bench 2.1
- Sol Ultra — 91.9%
- Sol Стандарт — 88.8%
- Mythos Preview — ниже Sol
Terminal-Bench 2.1 — бенчмарк для CLI-агентов: планирование задач, итеративное выполнение, координация инструментов в терминале. 91.9% — новый абсолютный рекорд, превышающий Mythos Preview. Для вайбкодеров и разработчиков, которые работают с AI-агентами в терминале — это самый релевантный показатель.
Биология: GeneBench v1
Sol бьёт GPT-5.5 на задачах long-horizon genomics и quantitative biology, при этом используя меньше токенов. GPT-5.5 на xhigh: 25.0%. У Sol — выше (точная цифра не раскрыта в preview). Эффективность по токенам при лучшем качестве — это то, что на практике означает меньший чек за API при тех же задачах.
Кибербезопасность: ExploitBench
Самый чувствительный раздел. Sol конкурирует с Mythos Preview, тратя примерно треть токенов на достижение Tier 1 (full arbitrary code execution). Для контекста: Mythos Preview достигал полного ACE на 21 из 41 CVE (51%), типичная стоимость сессии $72–360.
Все три модели семейства (Sol, Terra, Luna) показывают рост на ExploitGym (UC Berkeley + OpenAI + frontier labs) с увеличением reasoning. OpenAI позиционирует Sol как «нашу наиболее способную модель для кибербезопасности» — с акцентом на defensive use: лучше находит и закрывает уязвимости, чем атакует.
⚠️ Все бенчмарки self-reported. Независимого воспроизведения нет, system card в открытом доступе отсутствует.
Sol на Cerebras: 750 токенов в секунду с июля 2026
Wafer-scale чипы Cerebras дают беспрецедентную скорость для флагманской модели. Анонс на июль 2026 — замеров ещё нет.
С июля 2026 Sol будет доступен на инференс-инфраструктуре Cerebras — компании, которая делает wafer-scale AI-чипы. Заявленная скорость: до 750 токенов в секунду.
Для сравнения: стандартный GPT-4o работает на скорости 50–100 tok/s, Claude Sonnet 4.6 — около 80–120 tok/s. 750 tok/s при флагманском качестве — это другая категория опыта. Длинные контексты, которые раньше занимали минуты, будут готовы за секунды.
Это пока анонс без независимых замеров. Но если цифры подтвердятся — Sol на Cerebras станет первым доступным сочетанием frontier-качества и реальной скорости.
Правительство США одобряет каждого клиента — как это работает
Первый в истории случай превентивного ограничения AI-релиза по запросу правительства. ONCD + OSTP + Commerce против OpenAI. Около двух дюжин организаций в первом круге.
Это важнее, чем бенчмарки. То, что произошло 25–26 июня — прецедент, которого не было раньше.
Хронология
2 июня 2026 — Трамп подписывает AI security executive order. Документ создаёт добровольное 30-дневное окно для government review перед выпуском мощных AI-моделей.
GPT-5.6 — первая модель, к которой это применили на практике. Но «добровольное» на Hacker News уже назвали «so much for voluntary review».
Коалиция трёх агентств: ONCD (Office of the National Cyber Director) + OSTP (Office of Science and Technology Policy) + Commerce Department. Howard Lutnick, Secretary of Commerce, лично обсуждал с Altman'ом в среду.
Механика: правительство одобряет доступ буквально customer by customer во время preview. Около двух дюжин организаций получили доступ в первом круге. Когда откроется широко — «a couple of weeks later» по словам Altman'а.
Что Altman сказал сотрудникам
По данным The Information: «We've made clear to the U.S. government that this is not our preferred long-term model». OpenAI сотрудничает, но публично дистанцируется от прецедента.
Контекст: почему именно сейчас
Это происходит в конкретном контексте:
Две недели назад Anthropic отозвала Fable 5 и Mythos 5 по директиве того же Commerce Department.
Alibaba обвинена в дистилляции Claude через ~25 000 фейковых аккаунтов и 28.8 миллиона взаимодействий.
Китайские open-source модели — GLM-5.2, DeepSeek V4, Kimi K2.7 — доступны без ограничений всему миру.
Американские frontier-модели уровня Sol теперь требуют government approval. Для всего остального мира это означает, что единственный unrestricted доступ к frontier-уровню — через китайские open-source релизы.
На Hacker News кто-то написал точно: «Don't worry though, the rest of the entire world gets access to better Chinese models. Once they get a taste for those, the US has lost their little trade game».
Три уровня защиты в Sol — Preparedness Framework
Sol не пересёк порог Cyber Critical. Трёхслойная защита: модель + real-time классификаторы + account-level review. Defenders priority.
OpenAI публично разобрала, где Sol находится по шкале опасности.
Cyber Critical threshold — не пересечён. В тестах на Chromium и Firefox: модель находила баги и exploitation primitives. Но не произвела автономно functional full-chain exploit в тестовых условиях. Sol лучше в defensive роли: находит и закрывает уязвимости эффективнее, чем атакует.
Три уровня защиты:
Первый — model-level training. Модель отказывает в prohibited cyber assistance даже при disguised intent и попытках jailbreak.
Второй — real-time misuse classifiers для cyber и biology. Вывод оценивается во время генерации. Для high-risk случаев: генерация ставится на паузу, более крупная reasoning-модель проверяет контекст. Если prohibited — вывод блокируется до того, как пользователь его видит.
Третий — account-level review. Анализ паттернов по множеству разговоров. Отличает persistent malicious intent от legitimate dual-use. Не один запрос, а история аккаунта.
Во время preview-периода: пользователи могут встречать блоки, отказы и задержки из-за safety reviews — это ожидаемое поведение, не баг.
Что это значит для вайбкодеров прямо сейчас
Sol недоступен. Это факт. Но семейство GPT-5.6 уже определило несколько вещей, которые важны для планирования:
Terra — вероятно, главный рабочий инструмент после запуска. GPT-5.5 уровень за $2.50/$15 против $5/$30 у Sol. Для большинства продакшн-задач — оптимальный баланс.
Ultra mode меняет архитектуру агентных пайплайнов. Если multi-agent orchestration теперь встроен в API без внешних фреймворков — это упрощает стек. Меньше кода для оркестрации, меньше точек отказа.
Cerebras + Sol с июля — если 750 tok/s подтвердится, интерактивные агентные задачи, которые сейчас занимают минуты, станут работать в реальном времени.
Кэш с 30-минутным минимумом — для пайплайнов с длинными системными промптами это означает предсказуемую экономию. Строй prompt caching осознанно.
Максим: «Сделал — получил цифру. Terra за $2.50/$15 при уровне GPT-5.5 — это та модель, которая перестраивает юнит-экономику продуктов. Мы на GoBanana смотрим на это внимательно: если Terra держит качество, это в 2× дешевле текущего стека».
Когда ждать широкого запуска
Altman сказал «a couple of weeks» — это оптимистичная оценка. Реальность: правительство США одобряет каждого клиента, и скорость этого процесса зависит не от OpenAI.
Что известно точно: Sol на Cerebras (750 tok/s) — июль 2026. Широкий API — «скоро». Terra и Luna, вероятно, откроются раньше Sol как менее чувствительные модели.
Следи за openai.com/index/previewing-gpt-5-6-sol — официальные обновления там.
FAQ
Что такое GPT-5.6 Sol и почему он важен? Флагманская модель OpenAI, анонсированная 25–26 июня 2026. 91.9% на Terminal-Bench 2.1 в режиме Ultra — новый абсолютный мировой рекорд для AI-агентов в терминальных задачах. Первая модель, релиз которой был превентивно ограничен правительством США до широкого запуска.
Чем Ultra отличается от Max? Max — максимальный reasoning effort в рамках одной модели, больше времени на обдумывание. Ultra — модель сама подключает субагентов, это встроенный multi-agent orchestration без внешних фреймворков. Ultra даёт +3 п.п. к бенчмаркам (91.9% vs 88.8%) ценой дополнительных токенов.
Когда GPT-5.6 станет доступен всем? «A couple of weeks» — слова Altman'а по состоянию на 25–26 июня. Зависит от скорости government review. Terra и Luna могут открыться раньше Sol как менее чувствительные модели.
Почему правительство США ограничило релиз? Высокие cybersecurity-возможности Sol: модель достигает Tier 1 (full arbitrary code execution) на ExploitBench при ~1/3 токенов Mythos Preview. Executive Order Трампа от 2 июня 2026 создал 30-дневное window для government review. GPT-5.6 — первое живое применение этого EO.
Чем Terra лучше GPT-5.5? Та же производительность при вдвое меньшей цене: $2.50/$15 за 1M токенов против ~$5/$30 у GPT-5.5. Плюс доступ к Ultra mode с мультиагентами.
Что такое Sol на Cerebras? С июля 2026 Sol будет доступен на инференс-инфраструктуре Cerebras (wafer-scale чипы) со скоростью до 750 токенов в секунду. Пока анонс без независимых замеров.
Как три уровня защиты Sol работают на практике? Model-level training не даёт модели помогать с prohibited задачами даже при jailbreak. Real-time classifiers проверяют вывод во время генерации — если флаг, пауза и проверка более крупной моделью. Account-level review смотрит на паттерны аккаунта, а не отдельный запрос. Результат: в preview возможны задержки и блоки — это намеренно.
Глоссарий
Terminal-Bench 2.1 — бенчмарк для оценки AI-агентов в терминальных CLI-задачах: планирование многошаговых операций, итеративное выполнение, координация инструментов. Считается наиболее практичным для оценки coding-агентов.
Sol Ultra — режим работы GPT-5.6 Sol с автоматическим подключением субагентов. Multi-agent orchestration встроен в API без внешних фреймворков.
Max mode — режим максимального reasoning effort одной модели. Больше времени на обдумывание перед ответом, более глубокий анализ задачи.
ExploitBench — бенчмарк для оценки cybersecurity-возможностей AI: насколько модель способна находить и эксплуатировать уязвимости в реальных CVE. Tier 1 = full arbitrary code execution.
ACE (Arbitrary Code Execution) — тип уязвимости, позволяющий выполнять произвольный код на целевой системе. Один из наиболее серьёзных классов эксплойтов.
GeneBench v1 — бенчмарк для оценки AI-моделей на задачах биоинформатики: long-horizon genomics, quantitative biology.
ONCD — Office of the National Cyber Director. Государственный орган США, координирующий кибербезопасность на национальном уровне. Один из трёх агентств, запросивших restricted release GPT-5.6.
OSTP — Office of Science and Technology Policy. Советник президента США по научно-технической политике. Участвовал в запросе на ограничение релиза.
Preparedness Framework — система оценки рисков OpenAI, определяющая пороги безопасности для выпуска моделей. Cyber Critical — один из высших уровней риска. Sol не пересёк этот порог.
Кэш write / кэш read — механизм prompt caching в OpenAI API. Запись кэша стоит 1.25× входной цены, чтение — дешевле стандарта. Минимальное время жизни кэша в GPT-5.6 — 30 минут.
Wafer-scale чипы Cerebras — архитектура AI-чипов, где весь кремниевый wafer образует один чип вместо нарезки на отдельные die. Даёт экстремально высокую пропускную способность для AI-инференса.
Официальный анонс OpenAI — openai.com/index/previewing-gpt-5-6-sol. Детали restricted release — Axios и Engadget. Обсуждение сообщества — Hacker News. Анализ ценообразования — Capital & Compute.
Смотрите актуальные сравнения AI-моделей в каталоге VibeCoderz. Claude Sonnet 4.6 — наш текущий рекомендуемый инструмент для ежедневной работы, пока GPT-5.6 не открылся широко.
Вопросы по выбору модели под конкретные задачи и юнит-экономику — к Максиму.
Обновлено: июнь 2026. Источники: