1 июня 2026 года китайская компания MiniMax выпустила M3. Это open-weight модель с миллионным контекстом, нативной мультимодальностью и ценой $0.30 за миллион токенов на входе — в период запуска со скидкой 50%.
400 000+ органических переходов за 3 месяца. Со-основатель GoBanana (231K пользователей, 12+ млн ₽ без рекламы) и NeuroScribe (65K пользователей). SEO/GEO-стратегии для AI-поисковиков, 1 700+ единиц контента, 17+ реализованных стратегий.
Об авторе →Claude Code: новый CLI-агент от Anthropic
Anthropic выпустила Claude Code — терминальный AI-агент для разработчиков. Инструмент работает прямо в командной строке и умеет писать, редактировать и запускать код.
Zcode AI: Полный гид по визуальному интерфейсу для Claude Code и AI-агентов
Узнайте, как использовать Zcode для управления Claude Code, Gemini и Codex в едином GUI. Настройка провайдеров, MCP-серверов и визуальный вайбкодинг.
YouTube-канал с монетизацией из любой точки мира: Пошаговый гайд 2026
Инструкция по созданию YouTube-канала: обход блокировок SMS, настройка расширенных функций через виртуальные номера и правила безопасности для монетизации.
Windsurf Code Maps: Как глубоко понимать архитектуру проекта перед написанием кода
Полный гайд по Windsurf Code Maps, модели Sway 1.5 и Sway Grep. Узнайте, как визуализировать архитектуру кода и ускорить разработку в 13 раз.
Vk Fast Cash Strategy
Аудитория ВКонтакте — это те же люди, что и в Instagram, но 'социальный контракт' площадки другой. Если Instagram — это 'дорогой ресторан' с демонстрацией успеха, то VK — это 'душевная шашлычная'. Здесь не работает глянцевый 'успешный успех
1 июня 2026 года китайская компания MiniMax выпустила M3. Это open-weight модель с миллионным контекстом, нативной мультимодальностью и ценой $0.30 за миллион токенов на входе — в период запуска со скидкой 50%.

Для сравнения: Claude Opus 4.7 стоит $5.00 на вход и $25.00 на выход. При той же задаче M3 обойдётся примерно в 4–5 раз дешевле. И это не какая-то урезанная поделка — на нескольких бенчмарках по кодингу модель стоит в одном ряду с топовыми закрытыми моделями.
Разбираем что внутри, как работает и стоит ли переключаться.

MiniMax — шанхайская компания, с января 2026 года торгуется на Гонконгской бирже. M3 — их шестая модель за восемь месяцев. До этого была M2.7, которую многие знали как недорогую рабочую лошадку для кодинга за $0.30/M. Но у неё был потолок: контекст всего 205K, без мультимодальности, и на сложных задачах она уступала Opus и GPT.
M3 закрывает все три пробела разом.

Это первая open-weight модель, которая одновременно даёт:
Раньше хотя бы одно из трёх отсутствовало в любой открытой модели. Закрытые модели — Opus, GPT — имели всё это, но по другим ценам.
Главное архитектурное решение в M3 — MSA, MiniMax Sparse Attention. Звучит как маркетинг, но за этим стоит конкретная инженерная идея.
Обычный трансформер при увеличении контекста становится квадратично дороже: в два раза длиннее — в четыре раза дороже на attention. При миллионе токенов это превращается в катастрофу по скорости и памяти.
MSA выбирает только нужные блоки токенов для каждого шага attention, а не смотрит на весь контекст сразу. Что важно — это block-level sparse на реальных K/V, а не на каких-то сжатых представлениях. Качество softmax attention сохраняется, скорость растёт.
Цифры по сравнению с M2.7 на контексте 1M:
На практике это значит: то, что у M2.7 занимало 20 секунд на префилл при длинном контексте, у M3 займёт две.
Ещё один момент: MSA использует GQA-совместимую архитектуру. Это значит, что существующие ядра vLLM, SGLang и FlashAttention работают с ней без модификаций. Когда выйдут открытые веса — развернуть локально будет проще, чем с нестандартными архитектурами.

Вот ключевые цифры из официального блога MiniMax:
| Бенчмарк | M3 | Контекст |
|---|---|---|
| SWE-Bench Pro | 59.0% | Кодинг |
| Terminal-Bench 2.1 | 66.0% | Терминальные задачи |
| MCP Atlas | 74.2% | Агентное поведение |
| BrowseComp | 83.5 | Автономный веб-сёрч |
| Claw-Eval | #1 среди всех | — |
На SVG-Bench и OmniDocBench модель показывает результаты выше Claude Opus 4.7 и Gemini 3.1 Pro соответственно.
Это хорошие числа. Но есть несколько вещей, о которых стоит знать до того как делать выводы.
Все бенчмарки — self-reported. MiniMax тестировал на своей инфраструктуре. Независимого аудита на момент написания нет. На SEAL-лидерборде (стандартизированный скаффолдинг для SWE-Bench Pro) модели пока нет. На DeepSWE — тоже.
Для сравнения: на DeepSWE сейчас лидируют GPT-5.5 с 70%, Claude Opus 4.8 с 58%, GPT-5.4 с 56%. M3 с заявленными 59% на SWE-Bench Pro теоретически попадал бы примерно в этот диапазон — но это разные бенчмарки с разным скаффолдингом, сравнивать напрямую нельзя.
Отдельная история с PostTrainBench — тест на то, насколько хорошо модель тренирует другие модели автономно. M3 набрал 0.37, что ставит её на третье место после Opus 4.7 (0.42) и GPT-5.5 (0.39). Здесь она уступает — и MiniMax не скрывает этого.
Ещё один нюанс: есть исследование Datacurve, которое показало, что Claude Opus 4.6/4.7 в 12–25% случаев на SWE-Bench Pro использовали git log/show для извлечения правильного патча из истории контейнера. К M3 это не относится, но дискредитирует часть сравнительных данных по конкурентам.
Короткий вывод: цифры выглядят убедительно, но финальное слово будет за независимыми тестами, которые появятся в течение ближайших недель.

Помимо бенчмарков MiniMax опубликовал три кейса автономной работы модели. Они показательнее таблиц.
Воспроизведение научной статьи
Задача: воспроизвести выдающуюся работу с ICLR 2025 — «Learning Dynamics of LLM Finetuning». Модель работала около 12 часов автономно, сделала 18 коммитов, сгенерировала 23 экспериментальных графика. Успешно воспроизвела SFT probability trends и DPO squeezing effect.
Оптимизация CUDA-ядра
Старт: описание задачи плюс нерабочий Triton-скелет для FP8 GEMM на Hopper. 24 часа работы, 147 бенчмарк-сабмитов, 1959 вызовов инструментов. Результат: утилизация пиковой пропускной способности GPU выросла с 7.6% до 71.3% — примерно в девять раз. Большинство других моделей останавливались после 30 сабмитов.
Автономный цикл тренировки
M3 самостоятельно тренировала четыре базовые модели: синтезировала данные, запускала тренировку, оценивала результат, итерировала. 12 часов без вмешательства.
Все три кейса объединяет одно: модель не останавливается после первой неудачи. Это про выносливость агентного цикла — способность работать долго, через плато и тупики.
Три варианта доступа.
| Уровень | Input | Output |
|---|---|---|
| Стандарт ≤512K (скидка 50%, 7 дней) | $0.30/M | $1.20/M |
| Стандарт ≤512K (после скидки) | $0.60/M | $2.40/M |
| Стандарт >512K | $1.20/M | $4.80/M |
| Priority ≤512K (скидка) | $0.45/M | $1.80/M |
Запросы больше 512K пока в ограниченном доступе — публичная доступность ожидается в июле 2026.
Те же $0.30 на вход и $1.20 на выход со скидкой до 7 июня 2026. Удобно если уже работаешь через OpenRouter — минимальная интеграция:
# Через OpenRouter
model = "minimax/minimax-m3"// Прямой API
model = "MiniMax-M3"| Тариф | Цена | Токенов в месяц |
|---|---|---|
| Plus | $20/мес | ~1.7B |
| Max | $50/мес | ~5.1B |
| Ultra | $120/мес | ~9.8B |
Важный момент: все модальности — текст, изображения, речь, музыка — используют общий пул токенов. Нет отдельного лимита на картинки.
| Модель | Input/M | Output/M | Контекст |
|---|---|---|---|
| MiniMax M3 (скидка) | $0.30 | $1.20 | 1M |
| MiniMax M3 (стандарт) | $1.20 | $4.80 | 1M |
| Gemini 3.1 Pro | $2.00 | $12.00 | 2M |
| GPT-5.5 | ~$2.50 | ~$15.00 | до 1M |
| Claude Opus 4.7 | $5.00 | $25.00 | до 1M |
Даже после окончания скидки M3 остаётся дешевле Opus в четыре раза на входе.
Computer Use — управление десктопными приложениями через MiniMax Code. Та же функциональность, что у Claude через компьютерное использование.
BrowseComp 83.5 — автономный веб-сёрч. Для сравнения, Claude Opus 4.7 набирает 79.3 на том же бенчмарке.
Agent Team + Producer/Verifier loop — декомпозиция задач между несколькими агентами плюс состязательный цикл самопроверки. Модель способна работать несколько дней автономно на сложных задачах.
Нативная мультимодальность — не аддон поверх текстовой модели, а часть обучения с нуля. Текст, изображения, видео в одном контексте.
Интерактивный User Simulator — модель обучалась на многоходовых сценариях, имитирующих реального разработчика: уточнения по ходу работы, смена задачи, итерации, правки.
Несколько вещей, которые пока неизвестны или вызывают вопросы.
Лицензия не объявлена — станет известна вместе с весами. До этого open-weight на бумаге, но не на практике.
Tech report и веса обещаны в течение 10 дней от 1 июня. Это ключевой тест: если выйдут в срок с подробной методологией — уровень прозрачности будет высоким. Если нет — это тоже сигнал.
Скорость инференса в токенах в секунду не раскрыта. Всё что есть — относительные ускорения по сравнению с M2.7.
MiniMax — китайская компания с листингом на HKSE. Для корпоративного использования это может создавать дополнительные вопросы про compliance и геополитические риски. Для индивидуальных разработчиков и стартапов — менее актуально.
System card и информация про безопасность не опубликованы. На фоне Opus и GPT, которые публикуют подробные safety evaluations, это пробел.
Вайбкодерам и разработчикам — попробовать на задачах с длинным контекстом. Загрузить большой кодовый файл, дать сложную агентную задачу. Посмотреть что будет при $0.30/M против $5.00/M.
Тем кто строит AI-продукты — цена важна при масштабировании. Если агентный воркфлоу делает тысячи запросов в день, разница в 4–5 раз на токены превращается в существенную экономию.
Исследователям и энтузиастам — подождать веса. Когда выйдут на HuggingFace — можно развернуть локально и проверить реальную производительность.
Enterprise — пока подождать независимых бенчмарков, tech report и прояснения с лицензией.

Ближайшие даты:
Главный вопрос который задают про M3: насколько self-reported бенчмарки сойдутся с независимыми результатами. По M2.5 и M2.7 расхождения были умеренными — это добавляет осторожный оптимизм. Но ближайшие недели покажут.
MoE (Mixture of Experts) — архитектура где модель состоит из множества «экспертов» (подсетей), но на каждый токен активируется только часть из них. Позволяет иметь большое число параметров при умеренных вычислительных затратах.
MSA (MiniMax Sparse Attention) — механизм внимания M3. Вместо того чтобы смотреть на весь контекст, выбирает наиболее релевантные блоки токенов. Снижает вычислительную сложность при длинных контекстах.
GQA (Grouped Query Attention) — оптимизация стандартного multi-head attention. Несколько голов запроса используют одну и ту же голову ключа/значения. Ускоряет инференс, сохраняя качество.
SWE-Bench Pro — бенчмарк для оценки способности модели решать реальные задачи из GitHub Issues. Pro-версия сложнее стандартной Verified.
Prefill / Decode — две фазы работы языковой модели. Prefill — обработка входного контекста (промпта). Decode — генерация токенов ответа по одному.
Computer Use — возможность модели управлять компьютерным интерфейсом: кликать, вводить текст, запускать программы.
Open-weight — модель, для которой публично доступны веса (параметры нейросети). Можно запустить локально или дообучить. Отличается от open-source тем, что лицензия на использование может ограничивать коммерческое применение.
PostTrainBench — бенчмарк оценивающий насколько хорошо модель может автономно улучшать другие модели через пост-тренировку.
BrowseComp — бенчмарк OpenAI для оценки способности модели находить информацию в вебе автономно.
M3 уже доступен?
Да. API работает с 1 июня 2026 — как через прямой доступ MiniMax, так и через OpenRouter. Веса появятся примерно 10–11 июня.
Как попробовать прямо сейчас?
Через OpenRouter (minimax/minimax-m3) или прямой API MiniMax (MiniMax-M3). Скидка 50% действует до 7 июня на OpenRouter.
Можно запустить локально?
Пока нет — весов ещё нет. Когда выйдут на HuggingFace, запуск будет стандартным через vLLM или SGLang благодаря GQA-совместимости.
Стоит ли переходить с Claude или GPT прямо сейчас?
Для экспериментов — да, интересно попробовать. Для production — лучше подождать независимых бенчмарков и tech report. Риски не в качестве модели, а в отсутствии публичной документации по безопасности и неизвестной лицензии.
Контекст 1M — это реально или маркетинг?
Гарантированный минимум — 512K. 1M заявлен как максимум. Полный публичный доступ к запросам больше 512K ожидается в июле. Технически MSA делает это реальным — в отличие от моделей, где «1M контекст» есть в теории, но деградирует на практике.
Как M3 соотносится с DeepSeek V3.2?
Разные ниши. DeepSeek V3.2 — про цену ($0.27/M) и скорость на типовых задачах. M3 — про длинный контекст и мультимодальность. Если нужен миллион токенов или работа с изображениями и видео в одном контексте, M3 интереснее.
Попробовать API: platform.minimax.io
Через OpenRouter: openrouter.ai/minimax/minimax-m3
Больше обзоров моделей и инструментов для вайбкодинга — в каталоге VibeCoderz. Там же карточки Claude Code, Cursor, Windsurf.
Вопросы про выбор модели для конкретного продукта — Максиму.
Обновлено: июнь 2026 | vibecoderz.ru