Сбер выкатил масштабное обновление своей нейросетевой модели — GigaChat Max. Релиз 2026 года сфокусирован на «тяжелом» техническом контенте: коде, химии и инженерном проектировании. Для тех, кто привык собирать продукты через AI-агентов, это важный сигнал — отечественные LLM становятся пригодными для сложного продакшена.
Главные цифры: контекст и точность
Основной рывок произошел в работе с кодом и объемом данных. Разработчики внедрили архитектуру Mixture-of-Experts (MoE) с динамической маршрутизацией, что позволило модели лучше специализироваться на конкретных задачах.
| Характеристика | GigaChat Max (2026) | Изменение vs 2025 | | :--- | :--- | :--- | | Контекстное окно | 512k токенов | в 4 раза больше | | HumanEval (Python) | 86.8% | +12.6% | | Latency (задержка) | 28 мс/токен | на 37% быстрее | | Мультимодальность | Текст + Видео + CAD | Добавлен .step и видео |
Что это дает вайбкодеру?
- Прощай, дробление файлов. С окном в 512k токенов в GigaChat Max можно «скормить» практически весь репозиторий среднего проекта целиком. Это критично для Cursor или Claude Code, когда нужно, чтобы агент понимал взаимосвязи во всей архитектуре, а не только в открытом файле.
- Точность в CUDA и специфическом синтаксисе. Ведущий архитектор Sber AI отметил: «Мы пересмотрели подход к токенизации. Теперь операторы CUDA и нотации вроде SMILES обрабатываются как атомарные единицы». Это снижает количество галлюцинаций при написании низкоуровневого кода.
- Интеграция с интерпретатором. Модель работает по RAG-схеме с прямым доступом к Python-интерпретатору. Она может сама проверить свои расчеты или валидировать код перед выдачей ответа.
Инженерный уклон и CAD
Вайбкодинг выходит за пределы веба. GigaChat Max теперь нативно понимает формат .step (CAD-файлы). Это открывает путь к созданию AI-агентов для промышленного дизайна и проектирования «железа». В тестах на расчет энтальпии реакций модель показала точность 98.5%, что ставит её в один ряд с узкоспециализированным софтом.
Инфраструктура и доступ
Благодаря переходу на новые чипы в кластере «Кристофари» и использованию FP8-квантования, инференс стал значительно быстрее. Потребление видеопамяти снизилось на 40%, что позволяет Сберу держать старые цены при возросшей мощности.
Для тех, кто заботится о приватности кода: модель доступна через API SberCloud и в On-premise варианте. Это жирный плюс для корпоративных вайбкодеров, работающих в закрытых контурах.