Ollama позволяет запускать языковые модели прямо на своём компьютере: без подписки, без облака, без утечки кода. В 2026 году это реальная альтернатива платным сервисам для большинства задач вайбкодинга. Достаточно 16 ГБ RAM и видеокарты хотя бы с 4 Г…
10+ лет в маркетинге, 300+ клиентских проектов: сайты, реклама, боты. Создатель GoBanana (228K+ пользователей, 11.6 млн ₽ выручки) и VibeCoderz. Делаю AI-продукты сам через Claude Code, Cursor, Windsurf и консультирую тех, кто хочет так же.
Об авторе →Claude Code
free
Claude Code — это автономный AI-агент от Anthropic, который живёт прямо в вашем терминале, сам читает файлы, запускает тесты и пишет код без постоянного микроменеджмента.
Windsurf
free
Windsurf — это продвинутая AI-среда разработки (IDE) от стартапа Cognition, которая автоматически индексирует кодовую базу и вносит мультифайловые изменения с максимальной автономностью.
VS Code
free
Самый популярный редактор кода от Microsoft с огромной экосистемой расширений.
Cursor
free
Cursor — это AI-нативная IDE (интегрированная среда разработки) на базе VS Code, которая превращает написание кода в управление автономными ИИ-агентами.
Aider
free
Aider — это бесплатный AI-ассистент для терминала, который работает напрямую с вашим Git-репозиторием и пишет код с помощью любых доступных LLM-моделей.
Google I/O 2026: все анонсы — Gemini Omni, 3.5 Flash, Spark агент, Antigravity 2.0 и ещё 20+ обновлений
Полный разбор Google I/O 2026: Gemini Omni с нативной генерацией видео, Gemini 3.5 Flash быстрее конкурентов в 4 раза, личный агент Spark, Antigravity 2.0, умные очки Samsung, Universal Cart и всё остальное с keynote 19 мая 2026.
Gemini 3.5 на LM Arena 2026: правда, слух или что-то среднее
По сети ходит утверждение: «Gemini 3.5 уже тестируется на LM Arena». В русскоязычном AI-комьюнити это разошлось быстро, с уверенными формулировками и скриншотами. Мы прошлись по официальным источникам Google и DeepMind, публичным страницам Arena, Git…
Gemini 3.5 - вышла или нет? Разбираемся
Дата исследования: 18 мая 2026 Повод: Инсайдерская информация о выходе Gemini 3.5 на LM Arena Google I/O 2026: 19–20 мая (завтра!) Статус: НЕ анонсирован официально, активно тестируется
Gemini 3.5: что это такое и почему об этом говорит весь AI-интернет
Если вы видели в последние дни посты про «Gemini 3.5 уже вышел» — вы не одни. Тема взорвала X, Reddit и русскоязычные AI-каналы. Но правда немного сложнее, чем кажется. Разбираем без технического жаргона: что происходит, что уже можно использовать и…
Gemini 3 для кода: что изменилось и стоит ли переходить прямо сейчас
Google выпустил Gemini 3 в ноябре 2025, и это серьезный скачок. По SWE-bench Verified модель набрала 76.2% против 56.6% у Gemini 2.5 Pro. Потом вышел Flash, разогнавший эту цифру до 78%. А в феврале 2026 появился Gemini 3.1 Pro с результатом 80.6% на…
DeepSeek Coder API как подключить к своему проекту за 15 минут
DeepSeek API подключается через тот же OpenAI Python SDK — меняете только два параметра: base_url и api_key. Стоит $0.14 за миллион входных токенов для V4 Flash, новые аккаунты получают несколько миллионов бесплатных токенов. Один $2 депозит — это де…
Ollama позволяет запускать языковые модели прямо на своём компьютере: без подписки, без облака, без утечки кода. В 2026 году это реальная альтернатива платным сервисам для большинства задач вайбкодинга. Достаточно 16 ГБ RAM и видеокарты хотя бы с 4 ГБ VRAM.
В этой статье: как установить Ollama, какую модель выбрать под свои задачи, как подключить её к Cursor и Aider, и в каких случаях локальный кодинг реально выгоднее облака.
Ollama -- это open-source инструмент для загрузки и запуска LLM локально. Он устанавливается за пару минут, запускает HTTP-сервер на localhost:11434 и предоставляет API, совместимый с OpenAI-форматом. Это значит, что его понимают Cursor, Claude Code, Aider и большинство других AI-инструментов без дополнительных настроек.

Для вайбкодера локальная модель решает три проблемы сразу: не нужно платить за токены, код остаётся на машине, и работать можно хоть в самолёте без Wi-Fi.
Это первый вопрос, который задают все. Хорошая новость: корпоративного железа не нужно.
| Конфигурация | Что запускается | Скорость |
|---|---|---|
| 8 ГБ RAM, нет GPU | Малые модели 3-7B (Llama 3.2, Qwen 2.5 3B) | 5-15 токенов/с |
| 16 ГБ RAM, 4-8 ГБ VRAM | Модели 7-14B (Qwen2.5-Coder, CodeLlama 13B) | 20-40 токенов/с |
| 32 ГБ RAM, 16+ ГБ VRAM | Модели 30-34B (Qwen3-Coder, CodeLlama 34B) | 40-100 токенов/с |
| Apple Silicon M1/M2/M3 | До 34B в хорошем качестве | 30-80 токенов/с |
| Mac Studio / M4 Pro 64 ГБ | Qwen3-Coder-Next 80B (Q4) | 60-120 токенов/с |
Apple Silicon с объединённой памятью -- лучший выбор для локального вайбкодинга. Модель целиком помещается в память, без выгрузки в RAM, и скорость не падает.

Важный момент: если модель не помещается полностью в VRAM, она начинает использовать системную RAM и скорость резко падает. Лучше взять модель поменьше, чем гнаться за параметрами.
Ollama устанавливается на macOS, Linux и Windows.

macOS / Linux:
curl -fsSL https://ollama.com/install.sh | shWindows: скачать установщик с ollama.com и запустить как обычную программу.
После установки Ollama автоматически запускает фоновый сервер. Проверить, что всё работает:
ollama --versionЕсли видите версию -- установка прошла успешно.
Если нужно запустить сервер вручную (например, через терминал без UI):
ollama serve
Это самый важный выбор. В 2026 году лидером среди локальных кодинг-моделей стал Qwen3-Coder-Next: он использует только 3 млрд активных параметров из 80 млрд за счёт архитектуры MoE (Mixture of Experts), что даёт скорость сопоставимую с моделями на 7B, но качество -- ближе к 34B.
| Модель | Размер | Для чего | Минимум RAM |
|---|---|---|---|
| Qwen3-Coder-Next | 80B (MoE, 3B активных) | Лучший выбор 2026, агентный кодинг | 45+ ГБ (Q4) |
| Qwen2.5-Coder 14B | 14B | Генерация кода, рефакторинг | 12 ГБ |
| Qwen2.5-Coder 7B | 7B | Быстрый ассистент, дополнение кода | 6 ГБ |
| CodeLlama 34B | 34B | Универсальный кодинг, поддерживает много языков | 24 ГБ |
| CodeLlama 13B | 13B | Середина: скорость + качество | 10 ГБ |
| Llama 3.2 3B | 3B | Быстрые задачи, слабое железо | 3 ГБ |
| GLM4-9B | 9B | Хорош с русским языком | 8 ГБ |

Скачать модель просто:
ollama pull qwen2.5-coder:14b
ollama pull codellama:13b
ollama pull qwen3-coder-nextЗапустить в режиме чата:
ollama run qwen2.5-coder:14bВыйти из режима чата: /bye
Cursor не принимает localhost напрямую в поле для URL модели -- нужен внешний адрес. Для этого используется ngrok: он создаёт публичный туннель к локальному серверу.

Шаг 1. Запустить Ollama с открытым CORS:
OLLAMA_ORIGINS="*" ollama serveШаг 2. Установить и запустить ngrok:
ngrok http 11434Ngrok выдаст URL вида https://xxxx.ngrok.io.
Шаг 3. В Cursor: Settings > Models > добавить кастомную модель.
https://xxxx.ngrok.ioollama)ollama listШаг 4. Отключить все остальные модели в Cursor, оставив только свою локальную. Иначе Cursor будет делать запросы к GPT-4o при верификации и получать ошибку 404.
Максим: «Мы с Лизой тестировали Cursor с локальными моделями ещё на ранних версиях. Ngrok-туннель звучит страшно, но на практике это пять минут настройки. Реальный кейс -- когда работаешь с проектом, где нельзя отправлять код в облако. Для NanaBanana мы именно так и делали часть задач в офлайне.»

Самый популярный кейс 2026 года -- использовать Claude Code как CLI-оболочку с локальной моделью внутри вместо Anthropic API. По сути, Claude Code -- это "обвязка" вокруг LLM. Модель внутри можно заменить.
Важный момент: Claude Code требует минимум 64K контекстного окна. Большинство моделей по умолчанию настроены на меньший контекст, поэтому нужна кастомная конфигурация.
Шаг 1. Создать файл Modelfile (без расширения):
FROM qwen2.5-coder:14b
PARAMETER num_ctx 65536Шаг 2. Создать кастомную модель:
ollama create my-coder -f ./ModelfileШаг 3. Запустить Claude Code с локальной моделью:
claude-code ollama launch --model my-coderВсё. Claude Code теперь работает через вашу локальную модель -- бесплатно и без лимитов токенов.
Практический совет из видео: при работе с фронтендом через Claude Code + локальная модель используйте Storybook. Разбивайте задачи на отдельные компоненты, а не просите генерировать всё приложение целиком. Локальная модель работает лучше с маленькими задачами, потому что контекстное окно расходуется экономнее.
Aider -- ещё один популярный AI-кодинг ассистент для терминала. С Ollama он работает нативно, без ngrok.
pip install aider-chat
aider --model ollama/qwen2.5-coder:14bИли через переменную окружения:
export OLLAMA_API_BASE=http://localhost:11434
aider --model qwen2.5-coder:14bAider сам обращается к локальному серверу на localhost:11434. Никакого туннеля не нужно.
Вот что реально работает:
localhost:11434 принимает запросы в OpenAI-формате. Можно строить свои инструменты.Честно о проблемах:
num_ctx 65536.| Критерий | Ollama (локально) | Cursor Pro | Claude Code |
|---|---|---|---|
| Стоимость | 0 руб/мес | ~1500 руб/мес | По токенам |
| Качество | Хорошее (для 70-80% задач) | Отличное | Отличное |
| Приватность | Полная | Код уходит в облако | Код уходит в облако |
| Офлайн | Да | Нет | Нет |
| Скорость настройки | 10-15 минут | 5 минут | 5 минут |
| Интеграция с IDE | Через ngrok / API | Нативная | Нативная |
| Лучший сценарий | Приватные проекты, офлайн, объём | Повседневный кодинг | Агентные задачи |

Вывод: Ollama не заменяет платные инструменты полностью -- он дополняет их. Оптимальная схема для вайбкодера в 2026 году: локальная модель через Ollama для рутинных задач и когда важна приватность, платная модель -- для сложного архитектурного кода.

Из практики работы с Ollama в 2026 году можно выделить задачи, где локальная модель отрабатывает на уровне платных решений:
Сложнее всего локально: многошаговые агентные задачи, сложная архитектура с несколькими зависимостями, генерация кода по размытому ТЗ.
Лиза: «Я тестировала Ollama с Qwen2.5-Coder для написания SEO-скриптов на Python. Рутинные задачи -- парсинг, обработка CSV, автоматизация -- модель закрывает отлично. Главное преимущество: работаешь с базой клиентских данных и не паришься, что она куда-то ушла.»
Если хотите глубже разобраться в инструментах вайбкодинга:
Можно ли запустить Ollama на Windows без GPU? Да, Ollama работает и без GPU, только на CPU. Скорость будет медленной -- 3-8 токенов/с для модели 7B. Для комфортной работы рекомендуется хотя бы 16 ГБ RAM.
Ollama и Cursor -- как избавиться от ngrok? Пока никак: Cursor не принимает localhost в поле URL. Альтернатива -- использовать Continue (расширение для VS Code), которое работает с localhost напрямую, без туннеля.
Какая модель лучше всего поддерживает русский язык? Qwen3-Coder-Next хорошо понимает и генерирует код с русскими комментариями. GLM4-9B тоже показывает хорошие результаты на русском. CodeLlama справляется хуже.
Claude Code зависает при работе с локальной моделью -- что делать? Скорее всего, системный промпт Claude Code превышает контекстное окно модели. Создайте Modelfile с num_ctx 65536 и пересоздайте модель. Если модель задана с 4K контекстом, Claude Code просто зависнет без явной ошибки.
Можно ли использовать Ollama на двух машинах? Да. Запустите Ollama на мощной машине, пробросьте порт 11434 через LM Studio Link (используется Tailscale внутри) -- и подключайтесь с ноутбука. Это позволяет запускать огромные модели (80B+) на десктопе и работать с MacBook Air.
Ollama платный? Нет, Ollama полностью бесплатный и open-source. Платите только за электричество.
Что такое Modelfile и зачем он нужен? Modelfile -- это конфигурационный файл для создания кастомной версии модели. Через него задаётся контекстное окно, системный промпт, температура. Нужен прежде всего для Claude Code, которому нужен контекст 64K+.

Ollama -- open-source инструмент для запуска и управления языковыми моделями локально. Предоставляет CLI и HTTP API.
LLM (Large Language Model) -- большая языковая модель. GPT, Claude, Qwen, Llama -- всё это LLM разных размеров и производителей.
VRAM -- видеопамять на видеокарте. Чем больше VRAM, тем крупнее модель помещается целиком в GPU, тем выше скорость генерации.
Квантизация (Q4, Q8) -- сжатие весов модели для уменьшения размера. Q4 -- агрессивное сжатие, Q8 -- мягкое. Q8 даёт лучшее качество, Q4 работает на меньшем объёме памяти.
MoE (Mixture of Experts) -- архитектура, при которой активируется только часть параметров модели. Qwen3-Coder-Next имеет 80B параметров, но активирует только 3B -- отсюда высокая скорость.
Контекстное окно (Context Window) -- максимальный объём текста, который модель учитывает за один запрос. Измеряется в токенах. Claude Code требует минимум 64K.
ngrok -- сервис для создания публичного HTTPS-туннеля к локальному серверу. Используется для подключения Cursor к Ollama через localhost.
Modelfile -- конфигурационный файл Ollama для создания кастомной версии модели с заданными параметрами.
Ollama API -- HTTP-интерфейс на localhost:11434, совместимый с форматом OpenAI. Принимают большинство AI-инструментов.
Tool calling -- возможность модели вызывать внешние инструменты (чтение файлов, выполнение команд). Не все локальные модели обучены на протоколе Claude Code.
Статья подготовлена командой VibeCoderz -- крупнейшей базы знаний по AI IDE и вайбкодингу в СНГ. Если хотите разобраться с локальным кодингом лично -- запишитесь на консультацию к Максиму. Последнее обновление: апрель 2026.