Новости
Последние обновления инструментов, релизы и важные события из мира вайб-кодинга
Загрузка...
Последние обновления инструментов, релизы и важные события из мира вайб-кодинга
Свежий тест 10 моделей на агентских задачах выявил новых лидеров по соотношению цены и качества. Qwen3 Coder и оригинальный DeepSeek Chat доминируют, а LFM 2 ставит рекорды дешевизны.
10+ лет в маркетинге, 300+ клиентских проектов: сайты, реклама, боты. Создатель GoBanana (228K+ пользователей, 11.6 млн ₽ выручки) и VibeCoderz. Делаю AI-продукты сам через Claude Code, Cursor, Windsurf и консультирую тех, кто хочет так же.
Об авторе →DeepSeek V4 Pro: новый король open-weight с 80.6% на SWE-Bench
DeepSeek выпустила V4 Pro, которая обошла Claude 4 и GPT-5 в кодинге. Теперь лучшую модель для разработки можно захостить на своем железе.
Обзор Qwen 3.6: опенсорсная модель, которая догнала Claude 4.6 и GPT-5.4
Alibaba выпустила Qwen 3.6. В свежих бенчмарках версия 27B на старой видеокарте за $200 выдает код уровня платных подписок за $20/мес.
Qwen3.6-27B: Компактная модель, которая обходит гигантов в кодинге
Alibaba выпустила Qwen3.6-27B — плотную модель, которая на задачах кодинга побеждает MoE-монстров весом в 400 миллиардов параметров.
Alibaba представила Qoder 1.0: полноценный «автопилот» для разработки на базе агентов
Alibaba Cloud выпустила мажорное обновление Qoder 1.0. Это больше не просто IDE, а полноценная среда для управления командами автономных AI-агентов с поддержкой мультизадачности.
Quest Software представила облачный дата-моделер и расширенный пакет QuestAI
Quest Software объединила проектирование данных и AI-ассистентов в единую SaaS-платформу, решая проблему фрагментированных метаданных.
Coder представил self-hosted агентов: полный контроль над кодом и моделями
Компания Coder выпустила бету Coder Agents — нативную архитектуру для запуска ИИ-агентов на собственной инфраструктуре без передачи данных вовне.
Опубликованы результаты десятого батча тестов на профпригодность AI-агентов. В этот раз проверяли 10 моделей на реальных задачах: работа с файлами, выполнение shell-команд, обработка ошибок и парсинг данных. Результаты ломают стереотип о том, что за качество нужно платить сотни долларов.
Две модели повторили исторический рекорд бенчмарка, сравнявшись с MiniMax M2 и Ernie 4.5:
Настоящим открытием стала LFM 2 24B A2B от Liquid. Она показала 85% точности, но сделала это за феноменальные $0.0002 и 15 секунд. Это самая дешевая и быстрая модель в истории теста. Если вы строите массовый продукт, где важна экономика каждого вызова — это ваш выбор.
Mistral Small 3.2 тоже показала рост: прыжок с 75% до 85% точности в рамках одного бюджетного тира.
А вот флагманы разочаровали. Qwen3.7 Max выдала те же 85%, что и бюджетники, но обошлась в 300 раз дороже ($0.13) из-за «налога на размышления» (thinking tokens). Claude Opus 4 и вовсе допустил критическую ошибку (hard fail), что при цене в $0.10 за 10 задач выглядит сомнительно.
Для разработки через Cursor или кастомных агентов сейчас наступает золотое время «малых» моделей.
Методология теста: 10 задач через OpenRouter, лимит 300 токенов, температура 0.1. Проверка велась по паттернам ожидаемых выходных данных.