🎯 О чём этот конспект: Разбор новой модели DeepSeek-V2.7, которая, по заявлениям разработчиков, на 30% написала саму себя через цикл самообучения (self-improvement loop). Автор тестирует модель в реальных задачах: разработка игр, веб-дизайн и создание агентских фреймворков, чтобы проверить, оправдан ли хайп вокруг «самоулучшения».
👤 Кому будет полезно: Вайбкодерам, разработчикам на AI-агентах и тем, кто следит за эффективностью новых LLM в разрезе «цена/качество».
✨ Что получите: Объективную оценку возможностей DeepSeek-V2.7, понимание концепции Agent Harness (агентской обвязки) и инструкцию, как использовать дешевые модели для сложных итеративных задач.
1. Феномен «Self-Improvement Loop»: Маркетинг vs Реальность
Контекст: DeepSeek-V2.7 привлекла внимание тем, что модель версии 2.5 использовалась для улучшения собственного кода и архитектуры, что привело к созданию версии 2.7. Разработчики разделили процесс на «агентскую обвязку» (agent harness) и саму модель, зациклив планирование, написание кода и оценку результатов. Автор отмечает, что хотя это звучит как путь к суперинтеллекту, на деле это скорее тонкая оптимизация весов и параметров под конкретные бенчмарки, а не качественный скачок (модель назвали 2.7, а не 3.0).
Выгода: Понимание того, что «самоулучшение» — это эффективный инструмент оптимизации, который позволяет получать 90% качества топовых моделей (Claude 3.5 Sonnet / GPT-4o) за 10% их стоимости.
Как применить:
Шаг 1: Изучение концепции Agent Harness — Поймите, что модель — это лишь «мозг», а обвязка (инструменты, доступ к файлам, терминалу) — это «руки». Для самообучения AI нужна среда, где он может запускать свой код и проверять его.
Шаг 2: Внедрение автоматической оценки (Evaluations) — Чтобы цикл улучшения работал, у вас должны быть четкие критерии успеха (тесты). Без них модель будет «галлюцинировать» улучшения, которых нет.
Результат: Трезвый взгляд на технологию без лишнего страха перед «восстанием машин», используемый для экономии бюджета на API.
2. Тестирование в разработке игр: Spec-Driven Development
Контекст: При попытке воссоздать игру Candy Box 3, DeepSeek-V2.7 показала поведение, отличное от типичных «торопливых» LLM. Вместо того чтобы сразу писать код (ошибка джуниоров), модель начала с исследования (exploration) и создания спецификации. Она автоматически создала файл spec.md, где описала арт-стиль, архитектуру и план работ.
Выгода: Модель демонстрирует встроенную склонность к планированию, что критично для сложных проектов, где важна последовательность действий.
Как применить:
Шаг 1: Промпт на исследование — Не просите сразу код. Используйте промпт:
Я хочу создать игру [Название]. Прежде чем писать код, проведи исследование механик оригинала, составь архитектурный план в файле spec.md и опиши этапы реализации. Не приступай к кодингу, пока я не утвержу план.
Шаг 2: Использование Playwright для верификации — DeepSeek-V2.7 умеет использовать Playwright для проверки того, что она создала. Требуйте от агента запускать тесты в браузере после каждой итерации.
Результат: Работающий прототип с меньшим количеством багов за счет предварительного планирования и автоматической проверки.
3. DeepSeek в веб-дизайне: Сильные и слабые стороны
Контекст: Автор тестировал модель на воссоздании сложного визуального стиля по референсам. Результат оказался спорным: структура сайта была неплохой, но цветовые решения и юзабилити (кликабельность кнопок) оставляли желать лучшего. В этом аспекте модель всё еще проигрывает Gemini или Claude.
Выгода: Экономия времени на верстке структуры, но понимание необходимости ручного контроля эстетики.
Шаг 2: Итеративная правка цветов — Если модель ошибается в палитре, давайте точные указания:
Структура отличная, но цвета ужасные. Используй темную тему с акцентами #FF5733, исправь отступы у кнопок и сделай их интерактивными.
Результат: Быстрая генерация каркаса сайта (boilerplate), который требует минимальной доработки «руками» или более дорогой моделью.
4. Экономическая эффективность: 90% качества за копейки
Контекст: Главное преимущество DeepSeek-V2.7 — её цена. Она в 16-20 раз дешевле, чем топовые модели уровня Opus или GPT-4. Автор потратил всего 22% от лимита в $10 за целый день активного тестирования и работы агентов.
Выгода: Возможность запускать «армию» агентов для рутинных задач, не боясь огромных счетов за API.
Как применить:
Шаг 1: Сегментация задач — Используйте Claude 3.5 Sonnet для высокоуровневого планирования и сложной логики.
Шаг 2: Делегирование рутины DeepSeek — Передавайте DeepSeek задачи по написанию простых юнит-тестов, документации или рефакторингу небольших функций.
Результат: Снижение затрат на разработку AI-продуктов в 5-10 раз при сохранении общего качества проекта.
FAQ
В: Действительно ли DeepSeek-V2.7 может сама себя программировать? О: Да, в ограниченном масштабе. Разработчики используют цикл, где модель пишет код для своей обвязки, тестирует его и оставляет только удачные варианты. Это помогает оптимизировать производительность, но не делает модель «сверхразумом» мгновенно.
В: Стоит ли переходить на DeepSeek с Cursor или Claude? О: Полностью — нет. Для сложного архитектурного проектирования Claude 3.5 всё еще лидирует. Но DeepSeek — отличный выбор как вспомогательная модель для рутинных итераций внутри вашего агентского флоу из-за её дешевизны.
В: Что такое "Agent Harness", о котором говорит автор? О: Это программная среда вокруг AI-модели. Она включает в себя инструменты (доступ к файлам, терминал, браузер), которые позволяют AI не просто выдавать текст, а совершать действия в реальном мире и видеть их результат.
В: Насколько хорош DeepSeek в дизайне? О: Модель справляется с базовой версткой, но часто ошибается в UX (неработающие кнопки) и эстетике (странные цвета). Для фронтенда лучше использовать её в связке с четкими дизайн-системами или референсами.
В: Нужно ли уметь кодить, чтобы работать с такими агентами? О: Базовые знания необходимы. Автор подчеркивает, что даже новичок может разобраться в «агентских обвязках» за 60 минут, но понимание структуры кода помогает точнее ставить задачи и исправлять мелкие ошибки AI.
Конспект создан на основе видео «DeepSeek-V2.7: The self-improvement loop is here... should you freak out?» канала [Ivan Stevkovski]. Все права на оригинальный материал принадлежат авторам.Источник: https://youtu.be/Vcy9tugCCv8