🎯 О чём этот конспект: Разбор личной AI-инфраструктуры эксперта, построенной на базе мощного локального сервера (8x RTX 3090) и стека инструментов для автономной работы. Автор показывает, как уйти от подписок Claude/OpenAI к собственным моделям, которые не уступают в кодинге и анализе данных.
👤 Кому будет полезно: Вайбкодерам, разработчикам и AI-энтузиастам, которые хотят запускать тяжелые модели (Qwen 2.5, GLM 4) локально и интегрировать их в свой рабочий процесс через агентов.
✨ Что получите: Готовый список «железа», софта и CLI-инструментов для создания единой точки управления всеми AI-моделями (локальными и облачными), а также методику использования агентов для кодинга и работы с приватными данными.
1. Железо для локального AI: Экономика и выбор
Контекст: Для запуска серьезных моделей уровня GPT-4 (например, GLM 4.5 или Qwen 2.5 72B) требуется огромный объем видеопамяти (VRAM). Автор собрал кастомный сервер, отказавшись от Mac M3 Ultra в пользу б/у видеокарт, что позволило получить 192 ГБ VRAM. Этого достаточно для запуска практически любой современной open-weight модели с высоким контекстом. Однако это сопряжено с проблемами: шум, тепловыделение и сложность настройки.
Выгода: Полная независимость от цензуры и подписок API, возможность работать с приватными данными локально, огромная скорость генерации при использовании правильных движков.
Как применить:
Шаг 1: Оценка бюджета — Если есть $10,000, можно собрать систему на 8x RTX 3090 (24GB VRAM каждая) и 512GB RAM. Если бюджет ограничен — начните с Mac с 32GB+ объединенной памяти.
Шаг 2: Выбор модели — Для 32GB RAM идеально подходит GLM 4.7 Flash (30B параметров). В квантовании 4-bit она занимает ~16GB, оставляя место под контекст.
Шаг 3: Оптимизация — Используйте квантование (4-bit или 8-bit), чтобы уместить большие модели в имеющуюся память без потери качества кодинга.
Результат: Собственный сервер, способный выдавать до 300+ токенов в секунду на топовых open-source моделях.
2. Софтверный стек: VLM Studio и Vibe CLI
Контекст: Просто запустить модель недостаточно — нужно удобно обращаться к ней из разных приложений (Cursor, Claude Code, терминал). Автор использует связку из движка инференса и единого интерфейса управления. Ключевая проблема стандартных решений (типа LM Studio) — низкая скорость. Переход на VLM (Vectorized Language Model engine) дает ускорение префикса (чтения промпта) в 6 раз и генерации в 2-3 раза.
Выгода: Единый эндпоинт для всех AI-инструментов, управление затратами и мониторинг нагрузки на GPU в реальном времени.
Как применить:
Шаг 1: Установка движка — Используйте VLM Studio (open-source) для хостинга моделей. Он поддерживает VLM и SGLang для максимальной производительности.
Шаг 2: Настройка рецептов (Recipes) — Создайте конфигурации для каждой модели: лимиты контекста, системные промпты и параметры GPU.
Шаг 3: Объединение провайдеров — Установите Vibe CLI. Это инструмент, который позволяет сгруппировать локальные модели (Home Lab) и облачные подписки в один интерфейс.
# Пример концепции Vibe CLI (интеграция в агентов)vibe use local-qwen-72b --port 8000
Результат: Все ваши AI-агенты (Droid, Claude Code) видят локальные модели как обычный API OpenAI/Anthropic.
3. Агенты для кодинга и анализа: Droid и Codeex
Контекст: Для реальной работы вайбкодеру нужны не просто чаты, а агенты, которые могут читать файлы, выполнять команды в терминале и запускать браузер. Автор выделяет Droid как основной инструмент благодаря его структурированному подходу: агент сначала создает план и список задач, а только потом пишет код. Это снижает количество галлюцинаций.
Выгода: Автоматизация рутинных задач (написание тестов, рефакторинг, создание визуальных схем архитектуры) на локальных моделях.
Как применить:
Шаг 1: Подключение Droid — Настройте Droid на использование вашего локального эндпоинта через Vibe CLI.
Шаг 2: Использование навыков (Skills) — Используйте специфические промпты-навыки, например Visual Explainer.
Шаг 3: Промпт для анализа архитектуры:
Используй навык Visual Explainer. Проанализируй этот репозиторий и создай визуальную схему архитектуры в HTML. Опиши основные узлы, горячие точки сложности и предложи шаги по оптимизации. Открой результат в моем браузере по умолчанию.
Результат: Агент самостоятельно изучает код и выдает интерактивный отчет в браузере.
4. Работа с приватными данными через RAG
Контекст: Одно из главных преимуществ локального AI — возможность «скормить» модели свои личные данные (архивы переписок, финансовые документы, приватный код) без риска утечки. Автор загружает свои архивы из Twitter (X) и превращает их в базу знаний (RAG), с которой можно общаться.
Выгода: Мгновенный поиск и анализ по тысячам личных документов.
Как применить:
Шаг 1: Сбор данных — Выгрузите свои данные (например, архив Twitter или Notion).
Шаг 2: Индексация — Используйте встроенные инструменты в Droid или аналогичные RAG-системы для индексации папки с данными.
Шаг 3: Запрос к данным:
Найди в моих архивах посты про [Название технологии] с самым большим количеством лайков и суммаризируй основные тезисы.
Результат: Модель находит конкретные факты в ваших личных файлах, к которым у ChatGPT нет доступа.
5. Голосовой интерфейс и автоматизация браузера
Контекст: Для ускорения взаимодействия автор использует Super Whisper (голосовой ввод) и Party (автоматизация браузера). Super Whisper позволяет надиктовать сложную задачу, которую AI превращает в структурированный текст и отправляет агенту. Party используется для глубокого исследования (Deep Research) в вебе, когда агент сам ходит по ссылкам и собирает отчет.
Выгода: Сокращение времени на набор текста и ручной поиск информации в сети.
Как применить:
Шаг 1: Голос в текст — Установите Super Whisper. Настройте горячую клавишу (например, Option + Control) для записи.
Шаг 2: Автоматизация поиска — Используйте инструмент типа Party или агентские функции в Droid для задачи «Deep Research».
Шаг 3: Промпт для исследования:
Проведи глубокое исследование компании [Название]. Узнай, кто их фаундеры, какие продукты они выпустили за последний год и что о них пишут в Twitter. Составь подробный отчет.
Результат: Вы просто надиктовываете задачу голосом, а через 2-3 минуты получаете готовый отчет, собранный агентом из сети.
FAQ
В: Стоит ли собирать сервер на видеокартах, если я новичок? О: Автор рекомендует 90% людей начинать с Mac (M2/M3/M4) с большим объемом RAM. Сборка на GPU — это много шума, тепла и проблем с драйверами/кабелями. Переходите на сервер только если вам не хватает 128ГБ+ памяти для специфических задач.
В: Какие модели сейчас лучше всего подходят для замены Claude 3.5 Sonnet локально? О: На текущий момент лидеры — это Qwen 2.5 72B (или его дистиллированные версии) и GLM 4 (особенно версии 4.7 Flash). Они показывают отличные результаты в кодинге и следовании инструкциям (tool calling).
В: Что такое Vibe CLI и зачем он нужен? О: Это «швейцарский нож» для управления AI-провайдерами. Он позволяет объединить локальный сервер (через VLM Studio), OpenRouter, Anthropic и OpenAI в один поток. Вы просто переключаете модель одной командой в терминале, и все ваши приложения начинают работать с ней.
В: Можно ли использовать локальные модели для написания контента? О: Да, но автор советует использовать их только для черновиков. AI-генерация часто выглядит как «слоп» (бессмысленный текст). Лучшая связка: AI пишет структуру и драфт, человек полностью переписывает стиль вручную.
В: Сколько RAM нужно минимум для комфортного вайбкодинга? О: Минимум 32 ГБ. Это позволит запустить модель уровня 30B параметров в хорошем квантовании, чего достаточно для большинства задач по написанию кода и автоматизации.
Конспект создан на основе видео «My Personal AI Infrastructure (Local LLMs, Agents, and Hardware)» канала [Vibe]. Все права на оригинальный материал принадлежат авторам.Источник: https://www.youtube.com/watch?v=mqOMsSa4Eys