MiniMax M3 — модель с 1M контекстом в 4 раза дешевле Claude: что нужно знать

1 июня 2026 года китайская компания MiniMax выпустила M3. Это open-weight модель с миллионным контекстом, нативной мультимодальностью и ценой $0.30 за миллион токенов на входе — в период запуска со скидкой 50%.

Для сравнения: Claude Opus 4.7 стоит $5.00 на вход и $25.00 на выход. При той же задаче M3 обойдётся примерно в 4–5 раз дешевле. И это не какая-то урезанная поделка — на нескольких бенчмарках по кодингу модель стоит в одном ряду с топовыми закрытыми моделями.

Разбираем что внутри, как работает и стоит ли переключаться.

Что за MiniMax вообще?

MiniMax — шанхайская компания, с января 2026 года торгуется на Гонконгской бирже. M3 — их шестая модель за восемь месяцев. До этого была M2.7, которую многие знали как недорогую рабочую лошадку для кодинга за $0.30/M. Но у неё был потолок: контекст всего 205K, без мультимодальности, и на сложных задачах она уступала Opus и GPT.

M3 закрывает все три пробела разом.

Это первая open-weight модель, которая одновременно даёт:

Frontier-уровень в кодинге
1M токенов контекста
Нативную мультимодальность (текст + изображения + видео)

Раньше хотя бы одно из трёх отсутствовало в любой открытой модели. Закрытые модели — Opus, GPT — имели всё это, но по другим ценам.

Архитектура: реально ли модель такая быстрая на длинных контекстах

Главное архитектурное решение в M3 — MSA, MiniMax Sparse Attention. Звучит как маркетинг, но за этим стоит конкретная инженерная идея.

Обычный трансформер при увеличении контекста становится квадратично дороже: в два раза длиннее — в четыре раза дороже на attention. При миллионе токенов это превращается в катастрофу по скорости и памяти.

MSA выбирает только нужные блоки токенов для каждого шага attention, а не смотрит на весь контекст сразу. Что важно — это block-level sparse на реальных K/V, а не на каких-то сжатых представлениях. Качество softmax attention сохраняется, скорость растёт.

Цифры по сравнению с M2.7 на контексте 1M:

Prefill в 9.7 раза быстрее
Decode в 15.6 раза быстрее
Compute на токен в 20 раз меньше

На практике это значит: то, что у M2.7 занимало 20 секунд на префилл при длинном контексте, у M3 займёт две.

Ещё один момент: MSA использует GQA-совместимую архитектуру. Это значит, что существующие ядра vLLM, SGLang и FlashAttention работают с ней без модификаций. Когда выйдут открытые веса — развернуть локально будет проще, чем с нестандартными архитектурами.

Бенчмарки: сильные стороны и оговорки

Вот ключевые цифры из официального блога MiniMax:

Бенчмарк	M3	Контекст
SWE-Bench Pro	59.0%	Кодинг
Terminal-Bench 2.1	66.0%	Терминальные задачи
MCP Atlas	74.2%	Агентное поведение
BrowseComp	83.5	Автономный веб-сёрч
Claw-Eval	#1 среди всех	—

На SVG-Bench и OmniDocBench модель показывает результаты выше Claude Opus 4.7 и Gemini 3.1 Pro соответственно.

Это хорошие числа. Но есть несколько вещей, о которых стоит знать до того как делать выводы.

Все бенчмарки — self-reported. MiniMax тестировал на своей инфраструктуре. Независимого аудита на момент написания нет. На SEAL-лидерборде (стандартизированный скаффолдинг для SWE-Bench Pro) модели пока нет. На DeepSWE — тоже.

Для сравнения: на DeepSWE сейчас лидируют GPT-5.5 с 70%, Claude Opus 4.8 с 58%, GPT-5.4 с 56%. M3 с заявленными 59% на SWE-Bench Pro теоретически попадал бы примерно в этот диапазон — но это разные бенчмарки с разным скаффолдингом, сравнивать напрямую нельзя.

Отдельная история с PostTrainBench — тест на то, насколько хорошо модель тренирует другие модели автономно. M3 набрал 0.37, что ставит её на третье место после Opus 4.7 (0.42) и GPT-5.5 (0.39). Здесь она уступает — и MiniMax не скрывает этого.

Ещё один нюанс: есть исследование Datacurve, которое показало, что Claude Opus 4.6/4.7 в 12–25% случаев на SWE-Bench Pro использовали git log/show для извлечения правильного патча из истории контейнера. К M3 это не относится, но дискредитирует часть сравнительных данных по конкурентам.

Короткий вывод: цифры выглядят убедительно, но финальное слово будет за независимыми тестами, которые появятся в течение ближайших недель.

Реальные кейсы из блога MiniMax

Помимо бенчмарков MiniMax опубликовал три кейса автономной работы модели. Они показательнее таблиц.

Воспроизведение научной статьи
Задача: воспроизвести выдающуюся работу с ICLR 2025 — «Learning Dynamics of LLM Finetuning». Модель работала около 12 часов автономно, сделала 18 коммитов, сгенерировала 23 экспериментальных графика. Успешно воспроизвела SFT probability trends и DPO squeezing effect.

Оптимизация CUDA-ядра
Старт: описание задачи плюс нерабочий Triton-скелет для FP8 GEMM на Hopper. 24 часа работы, 147 бенчмарк-сабмитов, 1959 вызовов инструментов. Результат: утилизация пиковой пропускной способности GPU выросла с 7.6% до 71.3% — примерно в девять раз. Большинство других моделей останавливались после 30 сабмитов.

Автономный цикл тренировки
M3 самостоятельно тренировала четыре базовые модели: синтезировала данные, запускала тренировку, оценивала результат, итерировала. 12 часов без вмешательства.

Все три кейса объединяет одно: модель не останавливается после первой неудачи. Это про выносливость агентного цикла — способность работать долго, через плато и тупики.

Цены: что сколько стоит

Три варианта доступа.

Прямой API MiniMax

Уровень	Input	Output
Стандарт ≤512K (скидка 50%, 7 дней)	$0.30/M	$1.20/M
Стандарт ≤512K (после скидки)	$0.60/M	$2.40/M
Стандарт >512K	$1.20/M	$4.80/M
Priority ≤512K (скидка)	$0.45/M	$1.80/M

Запросы больше 512K пока в ограниченном доступе — публичная доступность ожидается в июле 2026.

OpenRouter

Те же $0.30 на вход и $1.20 на выход со скидкой до 7 июня 2026. Удобно если уже работаешь через OpenRouter — минимальная интеграция:

# Через OpenRouter
model = "minimax/minimax-m3"

// Прямой API
model = "MiniMax-M3"

Подписки Token Plan

Тариф	Цена	Токенов в месяц
Plus	$20/мес	~1.7B
Max	$50/мес	~5.1B
Ultra	$120/мес	~9.8B

Важный момент: все модальности — текст, изображения, речь, музыка — используют общий пул токенов. Нет отдельного лимита на картинки.

Сравнение с конкурентами

Модель	Input/M	Output/M	Контекст
MiniMax M3 (скидка)	$0.30	$1.20	1M
MiniMax M3 (стандарт)	$1.20	$4.80	1M
Gemini 3.1 Pro	$2.00	$12.00	2M
GPT-5.5	~$2.50	~$15.00	до 1M
Claude Opus 4.7	$5.00	$25.00	до 1M

Даже после окончания скидки M3 остаётся дешевле Opus в четыре раза на входе.

Что умеет делать: ключевые фичи

Computer Use — управление десктопными приложениями через MiniMax Code. Та же функциональность, что у Claude через компьютерное использование.

BrowseComp 83.5 — автономный веб-сёрч. Для сравнения, Claude Opus 4.7 набирает 79.3 на том же бенчмарке.

Agent Team + Producer/Verifier loop — декомпозиция задач между несколькими агентами плюс состязательный цикл самопроверки. Модель способна работать несколько дней автономно на сложных задачах.

Нативная мультимодальность — не аддон поверх текстовой модели, а часть обучения с нуля. Текст, изображения, видео в одном контексте.

Интерактивный User Simulator — модель обучалась на многоходовых сценариях, имитирующих реального разработчика: уточнения по ходу работы, смена задачи, итерации, правки.

Честные ограничения

Несколько вещей, которые пока неизвестны или вызывают вопросы.

Лицензия не объявлена — станет известна вместе с весами. До этого open-weight на бумаге, но не на практике.

Tech report и веса обещаны в течение 10 дней от 1 июня. Это ключевой тест: если выйдут в срок с подробной методологией — уровень прозрачности будет высоким. Если нет — это тоже сигнал.

Скорость инференса в токенах в секунду не раскрыта. Всё что есть — относительные ускорения по сравнению с M2.7.

MiniMax — китайская компания с листингом на HKSE. Для корпоративного использования это может создавать дополнительные вопросы про compliance и геополитические риски. Для индивидуальных разработчиков и стартапов — менее актуально.

System card и информация про безопасность не опубликованы. На фоне Opus и GPT, которые публикуют подробные safety evaluations, это пробел.

Кому имеет смысл смотреть прямо сейчас

Вайбкодерам и разработчикам — попробовать на задачах с длинным контекстом. Загрузить большой кодовый файл, дать сложную агентную задачу. Посмотреть что будет при $0.30/M против $5.00/M.

Тем кто строит AI-продукты — цена важна при масштабировании. Если агентный воркфлоу делает тысячи запросов в день, разница в 4–5 раз на токены превращается в существенную экономию.

Исследователям и энтузиастам — подождать веса. Когда выйдут на HuggingFace — можно развернуть локально и проверить реальную производительность.

Enterprise — пока подождать независимых бенчмарков, tech report и прояснения с лицензией.

Что дальше

Ближайшие даты:

~10 июня 2026 — tech report + открытые веса на HuggingFace и GitHub
Июнь 2026 — независимые тесты на DeepSWE, SEAL, LMSYS Chatbot Arena
Июль 2026 — публичный доступ к запросам больше 512K
Второе полугодие 2026 — по всей видимости, 1M контекст в open-source станет нормой, а не преимуществом. DeepSeek и Qwen наверняка ответят

Главный вопрос который задают про M3: насколько self-reported бенчмарки сойдутся с независимыми результатами. По M2.5 и M2.7 расхождения были умеренными — это добавляет осторожный оптимизм. Но ближайшие недели покажут.

Глоссарий

MoE (Mixture of Experts) — архитектура где модель состоит из множества «экспертов» (подсетей), но на каждый токен активируется только часть из них. Позволяет иметь большое число параметров при умеренных вычислительных затратах.

MSA (MiniMax Sparse Attention) — механизм внимания M3. Вместо того чтобы смотреть на весь контекст, выбирает наиболее релевантные блоки токенов. Снижает вычислительную сложность при длинных контекстах.

GQA (Grouped Query Attention) — оптимизация стандартного multi-head attention. Несколько голов запроса используют одну и ту же голову ключа/значения. Ускоряет инференс, сохраняя качество.

SWE-Bench Pro — бенчмарк для оценки способности модели решать реальные задачи из GitHub Issues. Pro-версия сложнее стандартной Verified.

Prefill / Decode — две фазы работы языковой модели. Prefill — обработка входного контекста (промпта). Decode — генерация токенов ответа по одному.

Computer Use — возможность модели управлять компьютерным интерфейсом: кликать, вводить текст, запускать программы.

Open-weight — модель, для которой публично доступны веса (параметры нейросети). Можно запустить локально или дообучить. Отличается от open-source тем, что лицензия на использование может ограничивать коммерческое применение.

PostTrainBench — бенчмарк оценивающий насколько хорошо модель может автономно улучшать другие модели через пост-тренировку.

BrowseComp — бенчмарк OpenAI для оценки способности модели находить информацию в вебе автономно.

FAQ

M3 уже доступен?
Да. API работает с 1 июня 2026 — как через прямой доступ MiniMax, так и через OpenRouter. Веса появятся примерно 10–11 июня.

Как попробовать прямо сейчас?
Через OpenRouter (minimax/minimax-m3) или прямой API MiniMax (MiniMax-M3). Скидка 50% действует до 7 июня на OpenRouter.

Можно запустить локально?
Пока нет — весов ещё нет. Когда выйдут на HuggingFace, запуск будет стандартным через vLLM или SGLang благодаря GQA-совместимости.

Стоит ли переходить с Claude или GPT прямо сейчас?
Для экспериментов — да, интересно попробовать. Для production — лучше подождать независимых бенчмарков и tech report. Риски не в качестве модели, а в отсутствии публичной документации по безопасности и неизвестной лицензии.

Контекст 1M — это реально или маркетинг?
Гарантированный минимум — 512K. 1M заявлен как максимум. Полный публичный доступ к запросам больше 512K ожидается в июле. Технически MSA делает это реальным — в отличие от моделей, где «1M контекст» есть в теории, но деградирует на практике.

Как M3 соотносится с DeepSeek V3.2?
Разные ниши. DeepSeek V3.2 — про цену ($0.27/M) и скорость на типовых задачах. M3 — про длинный контекст и мультимодальность. Если нужен миллион токенов или работа с изображениями и видео в одном контексте, M3 интереснее.

Попробовать API: platform.minimax.io

Через OpenRouter: openrouter.ai/minimax/minimax-m3

Больше обзоров моделей и инструментов для вайбкодинга — в каталоге VibeCoderz. Там же карточки Claude Code, Cursor, Windsurf.

Вопросы про выбор модели для конкретного продукта — Максиму.

Обновлено: июнь 2026 | vibecoderz.ru