Конспекты
Смарт-конспекты YouTube-видео — ключевые идеи и инсайты без необходимости смотреть часовые ролики
Загрузка...
Смарт-конспекты YouTube-видео — ключевые идеи и инсайты без необходимости смотреть часовые ролики
Практический гид по запуску GLM-4.5, Qwen2.5 и GPT-OSS локально для кодинга. Настройка LM Studio, борьба с тайм-аутами и выбор железа.
Маркетинг-стратег, IT-предприниматель, ментор по вайбкодингу
10+ лет в маркетинге, 300+ клиентских проектов: сайты, реклама, боты. Создатель GoBanana (228K+ пользователей, 11.6 млн ₽ выручки) и VibeCoderz. Делаю AI-продукты сам через Claude Code, Cursor, Windsurf и консультирую тех, кто хочет так же.
Об авторе →Zcode AI: Полный гид по визуальному интерфейсу для Claude Code и AI-агентов
Узнайте, как использовать Zcode для управления Claude Code, Gemini и Codex в едином GUI. Настройка провайдеров, MCP-серверов и визуальный вайбкодинг.
YouTube-канал с монетизацией из любой точки мира: Пошаговый гайд 2026
Инструкция по созданию YouTube-канала: обход блокировок SMS, настройка расширенных функций через виртуальные номера и правила безопасности для монетизации.
Windsurf Code Maps: Как глубоко понимать архитектуру проекта перед написанием кода
Полный гайд по Windsurf Code Maps, модели Sway 1.5 и Sway Grep. Узнайте, как визуализировать архитектуру кода и ускорить разработку в 13 раз.
Vk Fast Cash Strategy
Аудитория ВКонтакте — это те же люди, что и в Instagram, но 'социальный контракт' площадки другой. Если Instagram — это 'дорогой ресторан' с демонстрацией успеха, то VK — это 'душевная шашлычная'. Здесь не работает глянцевый 'успешный успех
Visual Prompt Engineering: Как создавать предсказуемый ИИ-дизайн в Nano Banana и Gemini
Методика Visual Prompt Engineering для создания профессионального дизайна: управление оптикой, текстом и материалами в связке Gemini и Nano Banana Pro.
Viral AI Apps Strategy 2026
Анализ более 100 виральных AI-приложений (Lerna, Cali, Reframe) показывает, что сложность продукта не коррелирует с доходом. Большинство лидеров рынка с выручкой от $300k до $2M в месяц — это простые утилиты с ОДНОЙ ключевой функцией. Весь
GLM-5.1 от Z.ai: новый лидер SWE-bench Pro, обученный без NVIDIA
Модель GLM-5.1 заняла первое место в сложнейшем бенчмарке для инженеров, используя железо Huawei вместо привычных H100. Разбираемся, как работает «break-and-repair» и почему это важно для вайбкодинга.
Z.AI представила GLM-5.1: open-weight модель на 754B параметров для AI-агентов
Новая модель GLM-5.1 установила рекорд на SWE-Bench Pro, обойдя GPT-5 и Claude 4.6, и способна на 8-часовую автономную работу.
Z.ai представила GLM-5.1: автономный кодинг до 8 часов подряд
Новая open-source модель GLM-5.1 обходит решения от OpenAI и Anthropic на SWE-Bench Pro и поддерживает непрерывные циклы разработки.
🎯 О чём этот конспект: Разбор реального опыта перехода на 100% локальную разработку с использованием мощных LLM (GLM-4.5 Air, Qwen2.5-Coder-32B, GPT-OSS-120B). Автор тестирует связку из двух машин (Framework Desktop с 128 ГБ RAM и ПК с RTX 5090), пытаясь заставить агентные инструменты (Cursor, OpenCode, Crush) работать без облачных API.
👤 Кому будет полезно: Вайбкодерам, которые хотят приватности, независимости от подписок и готовы инвестировать в собственное железо для запуска моделей уровня GPT-4 локально.
✨ Что получите: Понимание ограничений локальных моделей в агентных циклах, оптимальные настройки LM Studio для скорости и готовую стратегию распределения задач между «умными, но медленными» и «быстрыми» моделями.
Контекст: Для запуска моделей уровня 100B+ параметров требуется огромный объем видеопамяти (VRAM). Автор использует Framework Desktop с 128 ГБ объединенной памяти (Unified Memory), из которых 96 ГБ выделено под VRAM в BIOS. Однако главной проблемой становится не объем, а пропускная способность памяти (Memory Bandwidth) — у данной системы она составляет 256 ГБ/с, что значительно медленнее топовых GPU (например, RTX 5090). Это создает «бутылочное горлышко» при обработке длинных контекстов.
Выгода: Возможность запускать модели, которые не влезают в обычные потребительские видеокарты (до 120B параметров), сохраняя тишину и умеренное энергопотребление (около 140 Вт).
Как применить:
Результат: Стабильная работа тяжелых моделей (GLM-4.5 Air) на скорости 14-18 токенов в секунду (TPS).
Контекст: Самая долгая часть в локальном кодинге — это не сама генерация текста, а обработка входного промпта (Prompt Processing). Если вы скармливаете агенту весь кодовую базу (20k+ токенов), ожидание может составить 2-3 минуты. Автор экспериментально подобрал параметры, которые минимизируют это время.
Выгода: Сокращение времени ожидания первого токена (TTFB) и предотвращение тайм-аутов в IDE.
Как применить:
Evaluation Batch Size на значение 2048. Это «золотая середина» между 512 и 4096, дающая максимальный прирост скорости на Framework Desktop.K-cache Quantization и V-cache Quantization (выберите Q8). Это немного увеличит задержку, но существенно снизит потребление VRAM, позволяя работать с контекстом 100k+.Flash Attention для ускорения обработки длинных последовательностей.Результат: Скорость обработки промпта около 170 токенов в секунду, что позволяет «переварить» 20k токенов за ~2 минуты.
Контекст: Популярные инструменты (OpenCode, Roo Code) не рассчитаны на медленную работу локальных моделей. Когда локальная LLM тратит 3 минуты на обдумывание, IDE обрывает соединение по тайм-ауту. Единственным инструментом, который позволил ждать завершения генерации сколько угодно долго, оказался Crush.
Выгода: Возможность использовать «тяжелые» модели в автоматических циклах правки кода без вылетов.
Как применить:
Результат: Работающая агентная связка, которая не «отваливается» на середине сложной задачи.
Контекст: Попытка использовать одну тяжелую модель для всего провалилась из-за медлительности. Автор пришел к гибридной схеме: маленькая и быстрая модель делает «грязную» работу, а большая — планирует и отвечает на сложные вопросы.
Выгода: Баланс между качеством кода и скоростью разработки.
Как применить:
Результат: Вы получаете интеллект уровня GPT-4 для сложных задач и мгновенный отклик для рутинного кодинга.
В: Какую модель лучше всего использовать для локального дизайна и фронтенда? О: Автор выделил GLM-4.5 Air. Несмотря на медлительность, она лучше всех справилась с задачей стилизации UI и создания современного дизайна страниц, превзойдя Qwen 30B и GPT-OSS-120B.
В: Почему агентные IDE (Roo Code, OpenCode) выдают ошибку при работе с локальными моделями? О: Основная причина — тайм-ауты. Локальные модели долго обрабатывают контекст (Prompt Processing), и IDE считает, что сервер не отвечает. Используйте Crush, так как он более терпим к задержкам.
В: Стоит ли покупать Framework Desktop для AI-кодинга? О: Да, если вам нужно 96ГБ+ VRAM по доступной цене. Но помните, что из-за низкой пропускной способности памяти (DDR5 vs VRAM на видеокартах) генерация будет медленной (около 15 TPS для больших моделей).
В: Какие настройки в LM Studio сильнее всего влияют на скорость? О: Evaluation Batch Size (ставьте 2048) и использование Flash Attention. Также важно следить за температурой: если процессор троттлит выше 80°C, скорость резко падает.
В: Можно ли полностью отказаться от Claude/GPT-4 в пользу локальных моделей? О: Да, но придется изменить стиль работы. Вместо полностью автономных агентов придется чаще использовать чат-интерфейсы (Back to Basics) и вручную переносить код, так как агентные циклы на локальном железе пока слишком медленны и склонны к ошибкам.
Конспект создан на основе видео «I coded locally all day... it was painful.» канала [Mckay Wrigley]. Все права на оригинальный материал принадлежат авторам. Источник: https://www.youtube.com/watch?v=0DET4YFzS6A