Новости
Последние обновления инструментов, релизы и важные события из мира вайб-кодинга
Загрузка...
Последние обновления инструментов, релизы и важные события из мира вайб-кодинга
ZFLOW AI применили симуляционное моделирование для оптимизации инференса DeepSeek V4-Pro, достигнув пропускной способности 826 токенов в секунду.
10+ лет в маркетинге, 300+ клиентских проектов: сайты, реклама, боты. Создатель GoBanana (228K+ пользователей, 11.6 млн ₽ выручки) и VibeCoderz. Делаю AI-продукты сам через Claude Code, Cursor, Windsurf и консультирую тех, кто хочет так же.
Об авторе →Asana покупает StackAI за $75 млн для создания «операционки» для AI-агентов
Asana поглощает стартап StackAI, чтобы интегрировать продвинутую автоматизацию рабочих процессов и стать платформой для совместной работы людей и AI-агентов.
Zenflow запускает Custom Workflows: автоматизация Salesforce для AI-агентов
Zenflow представил Custom Workflows — систему оркестрации AI-агентов для автоматизации разработки на Apex и LWC в экосистеме Salesforce.
Zenflow запускает Custom Workflows: локальная разработка для ServiceNow через AI-агентов
Инструмент Zenflow представил Custom Workflows — систему оркестрации AI-агентов для автоматизации создания скриптов и каталогов в ServiceNow прямо из локальной IDE.
ZenFlow привлек инвестиции серии C: AI-медитация захватывает Fortune 500
Платформа ZenFlow привлекла инвестиции при оценке более $200 млн. Инструмент использует AI для мониторинга стресса и уже внедрен в 30% компаний из списка Fortune 500.
ZenFlow привлек $200 млн на развитие AI-медитаций для борьбы с выгоранием
Платформа ZenFlow, использующая AI для персонализации ментального здоровья, привлекла инвестиции серии C и уже внедрилась в 30% компаний из списка Fortune 500.
Google открыла Workspace Studio для всех: автоматизация через Gemini
Google официально добавила Workspace Studio во все тарифные планы. Теперь создавать AI-воркфлоу между приложениями можно простыми промптами.
Компания ZFLOW AI представила результаты оптимизации модели DeepSeek V4-Pro на платформе NVIDIA 8×B300. Используя метод симуляции с учетом специфики железа (hardware-aware simulation), инженерам удалось найти конфигурацию для стека SGLang, которая значительно превосходит стандартные настройки при высокой нагрузке.
Ключевым фактором успеха стало использование дезагрегированной конфигурации (disaggregated configuration), где процессы prefill и decode разделены. В условиях высокой конкурентности запросов такая архитектура показала пиковую пропускную способность в 826 токенов в секунду.
Это в 1.54 раза выше, чем у монолитной конфигурации. Более того, задержка на хвосте (tail latency) улучшилась в 2–3 раза. Однако для одиночных потоков и работы с длинным контекстом (до 1 млн токенов) монолитный подход по-прежнему остается более эффективным.
В тестах также проверялась работа технологии спекулятивного декодирования EAGLE. Результаты показали:
Для вайбкодеров и команд, развертывающих собственные инстансы DeepSeek, этот кейс подтверждает переход индустрии от ручного подбора параметров к автоматизированным системам управления инфраструктурой. ZFLOW AI фактически строит «умную прослойку» над рантаймами (вроде SGLang), которая сама решает, как лучше распределить веса модели по узлам кластера.
Следующим шагом ZFLOW планирует протестировать двухнодовую конфигурацию B300, которая, согласно симуляции, станет оптимальным решением для продакшн-сред с экстремальными нагрузками.