GPT-5.6 Sol вышел в июне 2026: 91.9% Terminal-Bench, $5 за 1M токенов и правительство США одобряет каждого клиента

25–26 июня 2026 OpenAI анонсировала GPT-5.6 — семейство из трёх моделей: Sol, Terra, Luna. Sol в режиме Ultra набрал 91.9% на Terminal-Bench 2.1 — новый абсолютный SOTA. Правительство США впервые в истории превентивно ограничило релиз и одобряет каждого клиента вручную.

Обновлено: июнь 2026

Sol Ultra — 91.9%
Sol Стандарт — 88.8%
Mythos Preview — ниже Sol

Но одновременно с этим произошло кое-что ещё: правительство США впервые в истории превентивно попросило американскую AI-компанию ограничить релиз модели до выхода. ONCD, OSTP и Commerce одобряют доступ буквально для каждого клиента по отдельности. Широкая аудитория ждёт «пару недель».

Разбираем три модели, два режима reasoning, бенчмарки, цены и беспрецедентный прецедент с правительством.

GPT-5.6 Sol — новый SOTA на Terminal-Bench 2.1: 91.9% в Ultra, 88.8% в стандарте. Семейство: Sol ($5/$30), Terra ($2.50/$15), Luna ($1/$6). Ultra mode с multi-agent orchestration. Restricted preview с government approval на каждого клиента. Широкий запуск — скоро. В статье: архитектура reasoning modes, бенчмарки, цены, прецедент с правительством.

Ссылки:

Три модели — три позиции в линейке

Sol — максимум мощности. Terra — уровень GPT-5.5 вдвое дешевле. Luna — быстро и доступно. Плюс предсказуемое кэширование с 30-минутным минимальным временем жизни.

GPT-5.6 — не одна модель. Это семейство с чёткими ролями, которые OpenAI разводит по цене и профилю задач.

Sol — флагман, максимум. Вход $5 / выход $30 за 1M токенов.
Terra — баланс, GPT-5.5 уровень. Вход $2.50 / выход $15 за 1M токенов.
Luna — скорость, доступность. Вход $1 / выход $6 за 1M токенов.

Terra — самый интересный слот по соотношению цена/качество. Если обещания держатся, это GPT-5.5 в два раза дешевле. Для большинства продакшн-задач, где не нужен максимальный reasoning — Terra выглядит как основной рабочий инструмент после широкого запуска.

Кэширование тоже изменилось. Минимальное время жизни кэша — 30 минут с явными breakpoints. Запись кэша стоит 1.25× входной цены — но при правильном использовании длинных системных промптов это отбивается на повторных запросах. Предсказуемость кэша означает, что можно строить пайплайны, зная, что кэш не сбросится неожиданно.

⚠️ Важная оговорка: ценообразование из controlled preview, не подтверждено официально на странице OpenAI pricing.

Два режима reasoning: Max и Ultra

Max — максимальный reasoning effort в одной модели. Ultra — Sol сам нанимает субагентов. Multi-agent orchestration без фреймворка из коробки.

GPT-5.6 вводит два новых режима работы, которые принципиально меняют то, как модель подходит к задаче.

Max — режим максимального reasoning effort. Sol получает больше времени на обдумывание перед ответом. Аналог extended thinking в других моделях, но в исполнении OpenAI. Для сложных задач с требованием точности.

Ultra — другой уровень. Модель выходит за пределы одного агента и подключает субагентов. По сути, встроенный multi-agent orchestration без необходимости настраивать внешние фреймворки. OpenAI называет это аналогом ultracode — только теперь доступно через стандартный API.

В режиме Ultra Sol набирает 91.9% на Terminal-Bench 2.1. В стандартном режиме — 88.8%. Разрыв в 3 п.п. — это цена за подключение субагентов. Для задач, где нужна максимальная точность на сложных многошаговых задачах — Ultra оправдан. Для быстрых запросов — лишний overhead.

«GPT-5.6 Sol sets a new state of the art on Terminal-Bench 2.1» — OpenAI Blog

Бенчмарки: новый SOTA по кодингу, биологии и киберу

91.9% на Terminal-Bench 2.1 — выше Mythos Preview. На биологии меньше токенов при лучшем результате. На ExploitBench — ~1/3 токенов Mythos при сопоставимом уровне.

Кодинг: Terminal-Bench 2.1

Sol Ultra — 91.9%
Sol Стандарт — 88.8%
Mythos Preview — ниже Sol

Terminal-Bench 2.1 — бенчмарк для CLI-агентов: планирование задач, итеративное выполнение, координация инструментов в терминале. 91.9% — новый абсолютный рекорд, превышающий Mythos Preview. Для вайбкодеров и разработчиков, которые работают с AI-агентами в терминале — это самый релевантный показатель.

Биология: GeneBench v1

Sol бьёт GPT-5.5 на задачах long-horizon genomics и quantitative biology, при этом используя меньше токенов. GPT-5.5 на xhigh: 25.0%. У Sol — выше (точная цифра не раскрыта в preview). Эффективность по токенам при лучшем качестве — это то, что на практике означает меньший чек за API при тех же задачах.

Кибербезопасность: ExploitBench

Самый чувствительный раздел. Sol конкурирует с Mythos Preview, тратя примерно треть токенов на достижение Tier 1 (full arbitrary code execution). Для контекста: Mythos Preview достигал полного ACE на 21 из 41 CVE (51%), типичная стоимость сессии $72–360.

Все три модели семейства (Sol, Terra, Luna) показывают рост на ExploitGym (UC Berkeley + OpenAI + frontier labs) с увеличением reasoning. OpenAI позиционирует Sol как «нашу наиболее способную модель для кибербезопасности» — с акцентом на defensive use: лучше находит и закрывает уязвимости, чем атакует.

⚠️ Все бенчмарки self-reported. Независимого воспроизведения нет, system card в открытом доступе отсутствует.

Sol на Cerebras: 750 токенов в секунду с июля 2026

Wafer-scale чипы Cerebras дают беспрецедентную скорость для флагманской модели. Анонс на июль 2026 — замеров ещё нет.

С июля 2026 Sol будет доступен на инференс-инфраструктуре Cerebras — компании, которая делает wafer-scale AI-чипы. Заявленная скорость: до 750 токенов в секунду.

Для сравнения: стандартный GPT-4o работает на скорости 50–100 tok/s, Claude Sonnet 4.6 — около 80–120 tok/s. 750 tok/s при флагманском качестве — это другая категория опыта. Длинные контексты, которые раньше занимали минуты, будут готовы за секунды.

Это пока анонс без независимых замеров. Но если цифры подтвердятся — Sol на Cerebras станет первым доступным сочетанием frontier-качества и реальной скорости.

Правительство США одобряет каждого клиента — как это работает

Первый в истории случай превентивного ограничения AI-релиза по запросу правительства. ONCD + OSTP + Commerce против OpenAI. Около двух дюжин организаций в первом круге.

Это важнее, чем бенчмарки. То, что произошло 25–26 июня — прецедент, которого не было раньше.

Хронология

2 июня 2026 — Трамп подписывает AI security executive order. Документ создаёт добровольное 30-дневное окно для government review перед выпуском мощных AI-моделей.

GPT-5.6 — первая модель, к которой это применили на практике. Но «добровольное» на Hacker News уже назвали «so much for voluntary review».

Коалиция трёх агентств: ONCD (Office of the National Cyber Director) + OSTP (Office of Science and Technology Policy) + Commerce Department. Howard Lutnick, Secretary of Commerce, лично обсуждал с Altman'ом в среду.

Механика: правительство одобряет доступ буквально customer by customer во время preview. Около двух дюжин организаций получили доступ в первом круге. Когда откроется широко — «a couple of weeks later» по словам Altman'а.

Что Altman сказал сотрудникам

По данным The Information: «We've made clear to the U.S. government that this is not our preferred long-term model». OpenAI сотрудничает, но публично дистанцируется от прецедента.

Контекст: почему именно сейчас

Это происходит в конкретном контексте:

Две недели назад Anthropic отозвала Fable 5 и Mythos 5 по директиве того же Commerce Department.

Alibaba обвинена в дистилляции Claude через ~25 000 фейковых аккаунтов и 28.8 миллиона взаимодействий.

Китайские open-source модели — GLM-5.2, DeepSeek V4, Kimi K2.7 — доступны без ограничений всему миру.

Американские frontier-модели уровня Sol теперь требуют government approval. Для всего остального мира это означает, что единственный unrestricted доступ к frontier-уровню — через китайские open-source релизы.

На Hacker News кто-то написал точно: «Don't worry though, the rest of the entire world gets access to better Chinese models. Once they get a taste for those, the US has lost their little trade game».

Три уровня защиты в Sol — Preparedness Framework

Sol не пересёк порог Cyber Critical. Трёхслойная защита: модель + real-time классификаторы + account-level review. Defenders priority.

OpenAI публично разобрала, где Sol находится по шкале опасности.

Cyber Critical threshold — не пересечён. В тестах на Chromium и Firefox: модель находила баги и exploitation primitives. Но не произвела автономно functional full-chain exploit в тестовых условиях. Sol лучше в defensive роли: находит и закрывает уязвимости эффективнее, чем атакует.

Три уровня защиты:

Первый — model-level training. Модель отказывает в prohibited cyber assistance даже при disguised intent и попытках jailbreak.

Второй — real-time misuse classifiers для cyber и biology. Вывод оценивается во время генерации. Для high-risk случаев: генерация ставится на паузу, более крупная reasoning-модель проверяет контекст. Если prohibited — вывод блокируется до того, как пользователь его видит.

Третий — account-level review. Анализ паттернов по множеству разговоров. Отличает persistent malicious intent от legitimate dual-use. Не один запрос, а история аккаунта.

Во время preview-периода: пользователи могут встречать блоки, отказы и задержки из-за safety reviews — это ожидаемое поведение, не баг.

Что это значит для вайбкодеров прямо сейчас

Sol недоступен. Это факт. Но семейство GPT-5.6 уже определило несколько вещей, которые важны для планирования:

Terra — вероятно, главный рабочий инструмент после запуска. GPT-5.5 уровень за $2.50/$15 против $5/$30 у Sol. Для большинства продакшн-задач — оптимальный баланс.

Ultra mode меняет архитектуру агентных пайплайнов. Если multi-agent orchestration теперь встроен в API без внешних фреймворков — это упрощает стек. Меньше кода для оркестрации, меньше точек отказа.

Cerebras + Sol с июля — если 750 tok/s подтвердится, интерактивные агентные задачи, которые сейчас занимают минуты, станут работать в реальном времени.

Кэш с 30-минутным минимумом — для пайплайнов с длинными системными промптами это означает предсказуемую экономию. Строй prompt caching осознанно.

Максим: «Сделал — получил цифру. Terra за $2.50/$15 при уровне GPT-5.5 — это та модель, которая перестраивает юнит-экономику продуктов. Мы на GoBanana смотрим на это внимательно: если Terra держит качество, это в 2× дешевле текущего стека».

Когда ждать широкого запуска

Altman сказал «a couple of weeks» — это оптимистичная оценка. Реальность: правительство США одобряет каждого клиента, и скорость этого процесса зависит не от OpenAI.

Что известно точно: Sol на Cerebras (750 tok/s) — июль 2026. Широкий API — «скоро». Terra и Luna, вероятно, откроются раньше Sol как менее чувствительные модели.

Следи за openai.com/index/previewing-gpt-5-6-sol — официальные обновления там.

FAQ

Что такое GPT-5.6 Sol и почему он важен? Флагманская модель OpenAI, анонсированная 25–26 июня 2026. 91.9% на Terminal-Bench 2.1 в режиме Ultra — новый абсолютный мировой рекорд для AI-агентов в терминальных задачах. Первая модель, релиз которой был превентивно ограничен правительством США до широкого запуска.

Чем Ultra отличается от Max? Max — максимальный reasoning effort в рамках одной модели, больше времени на обдумывание. Ultra — модель сама подключает субагентов, это встроенный multi-agent orchestration без внешних фреймворков. Ultra даёт +3 п.п. к бенчмаркам (91.9% vs 88.8%) ценой дополнительных токенов.

Когда GPT-5.6 станет доступен всем? «A couple of weeks» — слова Altman'а по состоянию на 25–26 июня. Зависит от скорости government review. Terra и Luna могут открыться раньше Sol как менее чувствительные модели.

Почему правительство США ограничило релиз? Высокие cybersecurity-возможности Sol: модель достигает Tier 1 (full arbitrary code execution) на ExploitBench при ~1/3 токенов Mythos Preview. Executive Order Трампа от 2 июня 2026 создал 30-дневное window для government review. GPT-5.6 — первое живое применение этого EO.

Чем Terra лучше GPT-5.5? Та же производительность при вдвое меньшей цене: $2.50/$15 за 1M токенов против ~$5/$30 у GPT-5.5. Плюс доступ к Ultra mode с мультиагентами.

Что такое Sol на Cerebras? С июля 2026 Sol будет доступен на инференс-инфраструктуре Cerebras (wafer-scale чипы) со скоростью до 750 токенов в секунду. Пока анонс без независимых замеров.

Как три уровня защиты Sol работают на практике? Model-level training не даёт модели помогать с prohibited задачами даже при jailbreak. Real-time classifiers проверяют вывод во время генерации — если флаг, пауза и проверка более крупной моделью. Account-level review смотрит на паттерны аккаунта, а не отдельный запрос. Результат: в preview возможны задержки и блоки — это намеренно.

Глоссарий

Terminal-Bench 2.1 — бенчмарк для оценки AI-агентов в терминальных CLI-задачах: планирование многошаговых операций, итеративное выполнение, координация инструментов. Считается наиболее практичным для оценки coding-агентов.

Sol Ultra — режим работы GPT-5.6 Sol с автоматическим подключением субагентов. Multi-agent orchestration встроен в API без внешних фреймворков.

Max mode — режим максимального reasoning effort одной модели. Больше времени на обдумывание перед ответом, более глубокий анализ задачи.

ExploitBench — бенчмарк для оценки cybersecurity-возможностей AI: насколько модель способна находить и эксплуатировать уязвимости в реальных CVE. Tier 1 = full arbitrary code execution.

ACE (Arbitrary Code Execution) — тип уязвимости, позволяющий выполнять произвольный код на целевой системе. Один из наиболее серьёзных классов эксплойтов.

GeneBench v1 — бенчмарк для оценки AI-моделей на задачах биоинформатики: long-horizon genomics, quantitative biology.

ONCD — Office of the National Cyber Director. Государственный орган США, координирующий кибербезопасность на национальном уровне. Один из трёх агентств, запросивших restricted release GPT-5.6.

OSTP — Office of Science and Technology Policy. Советник президента США по научно-технической политике. Участвовал в запросе на ограничение релиза.

Preparedness Framework — система оценки рисков OpenAI, определяющая пороги безопасности для выпуска моделей. Cyber Critical — один из высших уровней риска. Sol не пересёк этот порог.

Кэш write / кэш read — механизм prompt caching в OpenAI API. Запись кэша стоит 1.25× входной цены, чтение — дешевле стандарта. Минимальное время жизни кэша в GPT-5.6 — 30 минут.

Wafer-scale чипы Cerebras — архитектура AI-чипов, где весь кремниевый wafer образует один чип вместо нарезки на отдельные die. Даёт экстремально высокую пропускную способность для AI-инференса.

Официальный анонс OpenAI — openai.com/index/previewing-gpt-5-6-sol. Детали restricted release — Axios и Engadget. Обсуждение сообщества — Hacker News. Анализ ценообразования — Capital & Compute.

Смотрите актуальные сравнения AI-моделей в каталоге VibeCoderz. Claude Sonnet 4.6 — наш текущий рекомендуемый инструмент для ежедневной работы, пока GPT-5.6 не открылся широко.

Вопросы по выбору модели под конкретные задачи и юнит-экономику — к Максиму.

Обновлено: июнь 2026. Источники:

OpenAI Blog, Axios, Engadget, ExploitBench, AI Weekly.

Обновлено: июнь 2026

Sol Ultra — 91.9%
Sol Стандарт — 88.8%
Mythos Preview — ниже Sol

Разбираем три модели, два режима reasoning, бенчмарки, цены и беспрецедентный прецедент с правительством.

GPT-5.6 Sol — новый SOTA на Terminal-Bench 2.1: 91.9% в Ultra, 88.8% в стандарте. Семейство: Sol ($5/$30), Terra ($2.50/$15), Luna ($1/$6). Ultra mode с multi-agent orchestration. Restricted preview с government approval на каждого клиента. Широкий запуск — скоро. В статье: архитектура reasoning modes, бенчмарки, цены, прецедент с правительством.

Ссылки:

Три модели — три позиции в линейке

GPT-5.6 — не одна модель. Это семейство с чёткими ролями, которые OpenAI разводит по цене и профилю задач.

Sol — флагман, максимум. Вход $5 / выход $30 за 1M токенов.
Terra — баланс, GPT-5.5 уровень. Вход $2.50 / выход $15 за 1M токенов.
Luna — скорость, доступность. Вход $1 / выход $6 за 1M токенов.

⚠️ Важная оговорка: ценообразование из controlled preview, не подтверждено официально на странице OpenAI pricing.

Два режима reasoning: Max и Ultra

GPT-5.6 вводит два новых режима работы, которые принципиально меняют то, как модель подходит к задаче.

«GPT-5.6 Sol sets a new state of the art on Terminal-Bench 2.1» — OpenAI Blog

Бенчмарки: новый SOTA по кодингу, биологии и киберу

Кодинг: Terminal-Bench 2.1

Sol Ultra — 91.9%
Sol Стандарт — 88.8%
Mythos Preview — ниже Sol

Биология: GeneBench v1

Кибербезопасность: ExploitBench

⚠️ Все бенчмарки self-reported. Независимого воспроизведения нет, system card в открытом доступе отсутствует.

Sol на Cerebras: 750 токенов в секунду с июля 2026

Wafer-scale чипы Cerebras дают беспрецедентную скорость для флагманской модели. Анонс на июль 2026 — замеров ещё нет.

Правительство США одобряет каждого клиента — как это работает

Это важнее, чем бенчмарки. То, что произошло 25–26 июня — прецедент, которого не было раньше.

Хронология

Что Altman сказал сотрудникам

Контекст: почему именно сейчас

Это происходит в конкретном контексте:

Две недели назад Anthropic отозвала Fable 5 и Mythos 5 по директиве того же Commerce Department.

Alibaba обвинена в дистилляции Claude через ~25 000 фейковых аккаунтов и 28.8 миллиона взаимодействий.

Китайские open-source модели — GLM-5.2, DeepSeek V4, Kimi K2.7 — доступны без ограничений всему миру.

Три уровня защиты в Sol — Preparedness Framework

Sol не пересёк порог Cyber Critical. Трёхслойная защита: модель + real-time классификаторы + account-level review. Defenders priority.

OpenAI публично разобрала, где Sol находится по шкале опасности.

Три уровня защиты:

Первый — model-level training. Модель отказывает в prohibited cyber assistance даже при disguised intent и попытках jailbreak.

Что это значит для вайбкодеров прямо сейчас

Sol недоступен. Это факт. Но семейство GPT-5.6 уже определило несколько вещей, которые важны для планирования:

Максим: «Сделал — получил цифру. Terra за $2.50/$15 при уровне GPT-5.5 — это та модель, которая перестраивает юнит-экономику продуктов. Мы на GoBanana смотрим на это внимательно: если Terra держит качество, это в 2× дешевле текущего стека».

Когда ждать широкого запуска

Следи за openai.com/index/previewing-gpt-5-6-sol — официальные обновления там.

FAQ

Глоссарий

GeneBench v1 — бенчмарк для оценки AI-моделей на задачах биоинформатики: long-horizon genomics, quantitative biology.

Вопросы по выбору модели под конкретные задачи и юнит-экономику — к Максиму.

Обновлено: июнь 2026. Источники:

OpenAI Blog, Axios, Engadget, ExploitBench, AI Weekly.

GPT-5.6 Sol вышел в июне 2026: 91.9% Terminal-Bench, $5 за 1M токенов и правительство США одобряет каждого клиента

Три модели — три позиции в линейке

Два режима reasoning: Max и Ultra

Бенчмарки: новый SOTA по кодингу, биологии и киберу

Кодинг: Terminal-Bench 2.1

Биология: GeneBench v1

Кибербезопасность: ExploitBench

Sol на Cerebras: 750 токенов в секунду с июля 2026

Правительство США одобряет каждого клиента — как это работает

Хронология

Что Altman сказал сотрудникам

Контекст: почему именно сейчас

Три уровня защиты в Sol — Preparedness Framework

Что это значит для вайбкодеров прямо сейчас

Когда ждать широкого запуска

FAQ

Глоссарий

Автор

Читать далее

GPT-5.6 Sol вышел в июне 2026: 91.9% Terminal-Bench, $5 за 1M токенов и правительство США одобряет каждого клиента

Три модели — три позиции в линейке

Два режима reasoning: Max и Ultra

Бенчмарки: новый SOTA по кодингу, биологии и киберу

Кодинг: Terminal-Bench 2.1

Биология: GeneBench v1

Кибербезопасность: ExploitBench

Sol на Cerebras: 750 токенов в секунду с июля 2026

Правительство США одобряет каждого клиента — как это работает

Хронология

Что Altman сказал сотрудникам

Контекст: почему именно сейчас

Три уровня защиты в Sol — Preparedness Framework

Что это значит для вайбкодеров прямо сейчас

Когда ждать широкого запуска

FAQ

Глоссарий

Автор

Читать далее