🎯 О чём этот конспект: Разбор архитектуры и реализации автономной системы генерации видеоконтента. Автор показывает, как превратить одно слово (название покемона) в полноценный двухминутный ролик с сюжетом, консистентными персонажами, озвучкой и звуковыми эффектами, используя связку AI-агентов и специализированных API.
👤 Кому будет полезно: Вайбкодерам, разработчикам AI-агентов и контент-мейкерам, желающим автоматизировать создание YouTube/TikTok каналов с минимальными затратами времени.
✨ Что получите: Готовую логику построения многошаговых AI-воркфлоу, промпты для каждой стадии производства и понимание стека технологий (Kling 2.5, 11 Labs, Claude Code) для запуска собственного видео-продакшена.
1. Декомпозиция видео: От идеи до финального монтажа
Контекст: Чтобы автоматизировать сложный процесс, его нужно разбить на атомарные части. Автор использует метод «Video Decomposition», где ролик рассматривается не как единое целое, а как последовательность 10-секундных клипов. Каждый клип состоит из четырех элементов: стартовое изображение (seed image), видео-движение на основе этого изображения, закадровый голос и фоновые звуковые эффекты. Такой подход позволяет контролировать качество на каждом этапе и обеспечивать консистентность персонажей.
Выгода: Возможность масштабирования контента. Стоимость создания одного такого видео составляет около $7–8, в то время как подобные каналы приносят от $4,000 до $12,000 в месяц на AdSense.
Как применить:
Шаг 1: Определение структуры — Разбейте сценарий на сцены по 10 секунд.
Шаг 2: Подбор инструментов — Используйте Kling 2.5 для видео (лучше всего работает с авторскими правами), 11 Labs для голоса и SFX, и Flux/Midjourney (или аналоги через API) для генерации базовых изображений.
2. Система «Smart Agents + Dumb Code»
Контекст: Это ключевой архитектурный принцип. Вместо написания сложного кода, который пытается предусмотреть все нюансы генерации, автор создает «умных» AI-агентов (на базе Claude 3.5 Sonnet), которые принимают решения. Эти агенты анализируют контекст и вызывают «глупые» функции (Python-скрипты), которые просто делают API-запрос к сервису (например, к Kling или 11 Labs).
Выгода: Гибкость системы. Если вы захотите сменить модель генерации видео, вам нужно обновить только одну простую функцию, не меняя логику работы агента.
Как применить:
Шаг 1: Создание функций (Dumb Code) — Напишите простые Python-скрипты для вызова API.
Шаг 2: Обучение агента (Smart Agent) — Дайте агенту системный промпт, описывающий, когда и какую функцию вызывать.
Пример структуры функции для генерации изображения:
import requestsdef generate_image(prompt, output_file): # Простейший вызов API (например, через Fal.ai или Midjourney API) url = "https://api.example.com/generate" payload = {"prompt": prompt} response = requests.post(url, json=payload) with open(output_file, "wb") as f: f.write(response.content)
3. Итеративное обучение агентов через Claude Code
Контекст: Автор не пишет промпты с нуля. Он использует Claude Code для создания «AI-сотрудников». Процесс выглядит как цикл: постановка задачи -> генерация промпта агентом -> тест -> фидбек от человека -> улучшение промпта. После 3-5 итераций получается промпт, который выдает идеальный результат без участия человека.
Выгода: Высокое качество «инструкций» для агентов, которые учитывают нюансы биологии покемонов, освещения и динамики кадра.
Как применить:
Шаг 1: Инициализация — Запустите Claude Code и опишите роль (например, "Ты эксперт-ксенобиолог покемонов").
Шаг 2: Цикл улучшения — Попросите Claude составить промпт для исследования. Если результат плохой, укажите на ошибки:
"Это было плохо. Ты забыл упомянуть текстуру кожи (она должна быть как у комодского варана) и среду обитания. Исправь промпт и попробуй снова."
4. Консистентность персонажей и композитные изображения
Контекст: Главная проблема AI-видео — персонаж меняется от кадра к кадру. Решение: сначала генерируется «эталонный» ассет персонажа, а затем для каждой сцены создается «композитное изображение» (Composite Image). Это статичный кадр, где персонаж уже находится в нужной позе и окружении, который затем подается в Image-to-Video модель.
Выгода: Зритель видит одного и того же героя на протяжении всего ролика, что критично для удержания внимания.
Как применить:
Шаг 1: Генерация эталона — Создайте детальное изображение персонажа на нейтральном фоне.
Шаг 2: Image-to-Image / Reference — При генерации сцены используйте эталон как image_reference.
Шаг 3: Видео из кадра — Подавайте готовый композитный кадр в Kling 2.5 с промптом на микродвижения.
Пример промпта для микродвижений (Kling):
[Character Name] standing in [Environment], cinematic lighting, slight head tilt, breathing animation, wind rustling leaves in background, 4k, highly detailed.
5. Работа со звуком: Синхронизация и SFX
Контекст: В 11 Labs сложно предсказать длительность озвучки (10 слов могут звучать и 5, и 8 секунд). Автор использует формулу: 2 слова ≈ 1 секунда + учет пауз. Агент генерирует текст так, чтобы он укладывался в 8 секунд для 10-секундного видео. Это оставляет по 1 секунде тишины в начале и конце для мягких переходов.
Выгода: Профессиональное звучание без резких обрывов звука.
Как применить:
Шаг 1: Настройка 11 Labs — Используйте модель V3 Alpha и голос David для повествования в стиле National Geographic.
Шаг 2: Генерация SFX — Используйте функцию Sound Effects, описывая не просто "лес", а "хруст веток под лапами, далекий крик птицы, шелест влажных листьев".
Шаг 3: Сборка в FFmpeg — Автоматизируйте наложение дорожек.
Команда FFmpeg для объединения (примерная логика):
В: Какую модель видео лучше использовать для проектов, не нарушающих авторские права?
О: Автор рекомендует Luma Ray или VEO 3.1, так как они лучше соблюдают физику движений. Kling 2.5 используется здесь только из-за лояльности к персонажам покемонов.
В: Сколько стоит создание одного видео?
О: Примерно $7–8. Основные затраты: генерация видео в Kling 2.5 ($0.42 за 10 сек) и генерация изображений ($0.14 за шт). Озвучка и SFX стоят копейки.
В: Как добиться того, чтобы AI не делал "галлюцинации" в движениях?
О: Используйте промпты для "микродвижений" (micromovements). Не просите AI сделать сложное действие (например, прыжок с переворотом), лучше сфокусируйтесь на ходьбе, дыхании или движении камеры.
В: Можно ли использовать этот воркфлоу в Cursor?
О: Да, система универсальна. Вы можете использовать Cursor, Windsurf или Claude Code — главное, чтобы у агента был доступ к вашим файлам промптов и скриптам вызова API.
В: Зачем нужен этап исследования (Research), если можно сразу писать сценарий?
О: Исследование создает базу знаний (lore). Когда AI знает, что у Бульбазавра кожа как у лягушки, а семя на спине — отдельная структура, он пишет гораздо более точные промпты для генерации изображений, что повышает реализм.
Конспект создан на основе видео «I Built a Fully Automated AI Video Generator (Free Download)» канала Brandon Hancock. Все права на оригинальный материал принадлежат авторам.Источник: https://www.youtube.com/watch?v=QQNQc7cIbu0