GGUF — это формат хранения языковых моделей для запуска на локальном железе. Если ищете DeepSeek Coder 6.7B на HuggingFace или в LM Studio, увидите десяток файлов с именами вроде deepseek-coder-6.7b-instruct.Q4_K_M.gguf. Эти буквы и цифры в конце — тип квантизации, который определяет, сколько RAM занимает модель и насколько хорошо она пишет код.

Разбираем: что значат обозначения Q4, Q5, Q8 и буква K, какую версию выбрать для DeepSeek Coder 7B, 6.7B, 1.3B и 33B, и почему Q4_K_M лучше Q4_0, хотя обе «четырёхбитные».
Что такое GGUF и зачем он нужен
Оригинальная модель весит столько же, сколько занимает в памяти при запуске: каждый параметр хранится как 16-битное число (BF16 или FP16). DeepSeek Coder 6.7B в полной точности: около 13 ГБ. Это слишком много для большинства ноутбуков.

GGUF решает это через квантизацию: параметры модели сжимаются с 16 бит до меньшего количества: 8, 5 или 4 бита на вес. Файл становится в 2-4 раза меньше, и всё это умещается в оперативную память обычного ноутбука.
Аналогия: RAW-фотография и JPEG с тем же кадром. JPEG весит в 10 раз меньше, но на экране разница почти незаметна. Квантизация работает похоже. Модель теряет часть точности, но на большинстве задач разница не ощущается. До определённого предела.

Почему именно GGUF, а не другие форматы? GPTQ и AWQ работают только на GPU через PyTorch. GGUF работает через llama.cpp, и именно на нём построены Ollama и LM Studio. Это значит: GGUF запускается на CPU без видеокарты, на Mac с Apple Silicon, на Windows без CUDA. Для большинства разработчиков — единственный практичный вариант локального запуска.
Как читать название файла GGUF
Имя deepseek-coder-6.7b-instruct.Q4_K_M.gguf говорит сразу три вещи.
deepseek-coder-6.7b-instruct — модель DeepSeek Coder 6.7B в версии Instruct (обученной следовать инструкциям). Бывает ещё Base — она просто продолжает текст, для диалога не подходит.
Q4_K_M — тип квантизации. Q4 означает 4-битное сжатие, K — семейство K-quant (умнее, чем старые форматы), M — размер блока (Medium, средний).
.gguf — расширение файла. Преемник старого .ggml, появился в 2023 году. Сейчас стандарт для llama.cpp и совместимых инструментов.
Ключевой момент: всегда ищите Instruct-версию для работы с кодом через чат. Base-версия не умеет отвечать на вопросы, она просто дописывает то, что вы ввели.
Таблица квантизаций: Q4, Q5, Q6, Q8
Прежде чем смотреть конкретные числа для DeepSeek Coder, нужно понять, что скрывается за каждым обозначением.
| Формат | Бит/вес | Что значит на практике | Для кого |
|---|---|---|---|
| BF16 (оригинал) | 16 | Исходная точность, полный вес | Только серверные GPU |
| Q8_0 | 8 | Практически неотличим от BF16 | 24+ ГБ RAM |
| Q6_K | ~6.5 | Почти незаметная потеря точности | 16-24 ГБ RAM |
| Q5_K_M | ~5.5 | Лучший баланс качества и размера | 12-16 ГБ RAM |
| Q4_K_M | ~4.5 | Умеренная потеря, работает хорошо | 8-12 ГБ RAM |
| Q3_K_M | ~3.5 | Заметная деградация на сложном коде | 6-8 ГБ RAM |
| Q2_K | ~2.5 | Сильная потеря, крайний случай | 4-6 ГБ RAM |

Про суффиксы K, M, S. Буква K означает семейство K-quants — метод квантизации из 2023 года, который значительно умнее старых форматов Q4_0 и Q5_0. Старые форматы применяли одинаковое сжатие ко всем блокам весов. K-quants анализируют каждый блок отдельно и применяют оптимальный коэффициент. Результат: Q4_K_M лучше Q4_0 при примерно том же размере. Всегда выбирайте K-версии, если они доступны.

M (Medium) и S (Small): вариант размера блока внутри K-quants. M чуть больше и качественнее, S: меньше и быстрее. Большинство пользователей берут M.
Размеры файлов и RAM для DeepSeek Coder 6.7B
Самая популярная версия, поэтому разбираем её детально.
| Квантизация | Размер файла | RAM для запуска | Минимальная RAM в системе |
|---|---|---|---|
| BF16 (оригинал) | ~13 ГБ | 13+ ГБ | 24 ГБ минимум |
| Q8_0 | ~7.2 ГБ | 8-9 ГБ | 16 ГБ |
| Q6_K | ~5.5 ГБ | 6-7 ГБ | 12-16 ГБ комфортно |
| Q5_K_M | ~4.8 ГБ | 5-6 ГБ | 8-12 ГБ хороший вариант |
| Q4_K_M | ~3.9 ГБ | 4-5 ГБ | 8 ГБ минимально рабочий |
| Q3_K_M | ~3.1 ГБ | 3-4 ГБ | 6 ГБ, качество падает |
Как выбирать: берите самую высокую квантизацию, которая комфортно помещается в RAM, оставляя место для ОС и IDE. На 8 ГБ суммарной RAM: Q4_K_M. На 16 ГБ: Q5_K_M или Q6_K. На 24 ГБ GPU: Q8_0.
Размеры файлов для deepseek coder 1.3b и 33B
Модель 1.3B настолько маленькая, что разница между Q4 и Q8 в абсолютных цифрах несущественна.
DeepSeek Coder 1.3B:
| Квантизация | Размер файла | Рекомендация |
|---|---|---|
| Q4_K_M | ~0.8 ГБ | Для автокомплита, работает везде |
| Q5_K_M | ~0.9 ГБ | Чуть лучше, разница небольшая |
| Q8_0 | ~1.4 ГБ | Максимальное качество для 1.3B |
На модели 1.3B квантизация почти не влияет на качество кода, сама модель слишком маленькая, чтобы писать сложный код в любом формате. Берите Q4_K_M и не думайте об этом.
DeepSeek Coder 33B:
| Квантизация | Размер файла | Минимальный RAM |
|---|---|---|
| Q4_K_M | ~19 ГБ | 24 ГБ RAM |
| Q5_K_M | ~22 ГБ | 32 ГБ RAM |
| Q8_0 | ~36 ГБ | 48 ГБ RAM |
33B без GPU требует 20+ ГБ свободной оперативной памяти, это минимум. Реально комфортно на машине с 32 ГБ RAM для Q4_K_M. При нехватке памяти Ollama начнёт выгружать части модели в файл подкачки на SSD, и скорость упадёт до 0.5-1 токена в секунду, непригодно для работы.
Для кода важнее не квантизация, а размер модели
Вот нюанс, который часто упускают. На DeepSeek Coder 6.7B разница между Q4_K_M и Q8_0 составляет примерно 5-8% по качеству кода. Но разница между 1.3B и 6.7B, это пропасть в уровне задач.
Q4_K_M на 6.7B пишет более сложный и правильный код, чем Q8_0 на 1.3B. Если стоит выбор "взять Q4_K_M на 6.7B или Q8_0 на 1.3B", берите 6.7B.

Из практики сообщества: для сложного кода (алгоритмы, граничные случаи, рефакторинг) лучше взять Q4_K_M на 33B, чем Q8_0 на 6.7B. При схожем потреблении памяти большая модель выигрывает.
Дополнительный нюанс: Q4_K_M на deepseek coder 7b показывает первые заметные провалы на задачах с генерацией структурированного JSON и сложными цепочками рассуждений. Если нужен строгий вывод в формат для API: берите Q5_K_M или выше.
Лиза: "Прикинь, мы тестировали разные квантизации на задачах автоматизации для NanaBanana. Q4_K_M на 6.7B периодически делала мелкие логические ошибки в JSON-ответах, которые ломали парсинг. Переключились на Q5_K_M — ошибки ушли почти полностью. Разница в RAM 800 МБ, разница в стабильности ощутимая. Вот такие пироги)"
Где найти GGUF-файлы для DeepSeek Coder
HuggingFace — основной источник. Ищите репозитории с суффиксом -GGUF. Популярные паки:
TheBloke/deepseek-coder-6.7B-instruct-GGUFTheBloke/deepseek-coder-33B-instruct-GGUFTheBloke/deepseek-coder-1.3b-instruct-GGUF
Ollama — скачивает и управляет квантизацией автоматически:
# Ollama сам выберет подходящий вариант
ollama run deepseek-coder:6.7bOllama по умолчанию подбирает Q4 или Q5 в зависимости от вашего железа. Удобно, если не хочется разбираться в деталях.
LM Studio — GUI-инструмент, скачивает GGUF с HuggingFace. Удобнее Ollama для тех, кто не работает с командной строкой. При выборе модели LM Studio показывает, сколько RAM потребует каждый вариант.

Совет из практики: после появления новой модели подождите несколько дней перед скачиванием GGUF. Первые квантизации часто выходят с артефактами, и через 2-3 дня появляются более качественные версии.
Как скачать конкретный GGUF через HuggingFace CLI
Если не хочется скачивать весь репозиторий, можно взять только нужный файл:

# Установить huggingface_hub
pip install huggingface_hub
# Скачать конкретный файл Q4_K_M для 6.7B
huggingface-cli download TheBloke/deepseek-coder-6.7B-instruct-GGUF \
deepseek-coder-6.7b-instruct.Q4_K_M.gguf \
--local-dir ./models
# Быстрое скачивание на хорошем интернете
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download \
TheBloke/deepseek-coder-6.7B-instruct-GGUF \
deepseek-coder-6.7b-instruct.Q5_K_M.gguf \
--local-dir .После скачивания файл подключается к llama.cpp, LM Studio или через Ollama Modelfile.
Выбор под железо: быстрая шпаргалка
Простое правило: берите самую высокую квантизацию, при которой модель полностью помещается в RAM, оставляя 4-6 ГБ на ОС и приложения.
| Ваш RAM | deepseek coder 1.3b | deepseek coder 6.7b | 33B |
|---|---|---|---|
| 8 ГБ RAM | Q8_0 (1.4 ГБ) | Q4_K_M (3.9 ГБ) | Нет |
| 16 ГБ RAM | Q8_0 | Q6_K или Q5_K_M | Нет |
| 24 ГБ RAM | Q8_0 | Q8_0 (7.2 ГБ) | Q4_K_M — тесно |
| 32 ГБ RAM | Q8_0 | Q8_0 | Q4_K_M — нормально |
| 8 ГБ GPU VRAM | Q8_0 | Q4_K_M + кеш | Нет |
| 16 ГБ GPU VRAM | Q8_0 | Q8_0 или Q6_K | Нет |
| 24 ГБ GPU VRAM | Q8_0 | Q8_0 | Q4_K_M — комфортно |
Ключевой момент: если модель не помещается в RAM и уходит в файл подкачки, скорость падает катастрофически. На SSD это 0.5-2 токена в секунду. Лучше взять Q4_K_M на версию меньшего размера, чем Q8_0, который пойдёт в своп.

FAQ
Что такое GGUF формат и зачем он нужен для deepseek coder 7b? GGUF это контейнерный формат для хранения квантизированных языковых моделей, разработанный командой llama.cpp. Позволяет запускать DeepSeek Coder на обычном железе без GPU: модель загружается в оперативную память и генерирует код на CPU. Поддерживается Ollama, LM Studio и любым инструментом на базе llama.cpp.
Чем Q4_K_M лучше старого Q4_0? Q4_K_M использует K-quants: умное сжатие, которое анализирует чувствительность каждого блока весов и сжимает их по-разному. Q4_0 применяет одинаковый коэффициент ко всем блокам. В результате Q4_K_M теряет меньше качества при том же объёме файла. Всегда выбирайте K-версии, если они доступны.
Какая квантизация нужна для deepseek coder 6.7b на 8 ГБ RAM? Q4_K_M (файл ~3.9 ГБ). На 8 ГБ RAM это работает, если закрыть лишние приложения. Браузер с несколькими вкладками лучше свернуть. Если хочется комфортнее, 16 ГБ RAM позволят взять Q5_K_M или Q6_K и оставить буфер на ОС и IDE.
Что выбрать для deepseek coder 1.3b: Q4 или Q8? Для 1.3B квантизация почти не влияет на качество кода, модель слишком маленькая, чтобы заметить разницу между 4 и 8 битами. Берите Q4_K_M: весит 776 МБ, работает на любом железе, скачивается за минуту.
Стоит ли брать deepseek coder 33b Q4_K_M вместо 6.7b Q8_0? Да, если RAM позволяет (нужно 24+ ГБ). 33B Q4_K_M на кодинге выигрывает у 6.7B Q8_0, потому что размер модели важнее точности квантизации. Instruct-версия 33B обходит GPT-3.5 Turbo на HumanEval, качественный скачок по сравнению с 6.7B.
Где скачать GGUF файлы для DeepSeek Coder? HuggingFace: репозитории TheBloke с суффиксом -GGUF. Ollama автоматически скачивает нужный вариант по команде ollama run deepseek-coder:6.7b. LM Studio ищет GGUF прямо в интерфейсе без командной строки.
Влияет ли квантизация на скорость генерации? Да. Q4_K_M быстрее Q8_0 примерно на 30-50%, потому что меньше данных нужно считывать из памяти при генерации каждого токена. Скорость ограничивается пропускной способностью RAM, а не вычислительной мощностью CPU.
Глоссарий
GGUF — формат файлов для хранения квантизированных моделей. Поддерживается llama.cpp, Ollama, LM Studio. Пришёл на смену GGML в 2023 году.
Квантизация — сжатие весов модели путём уменьшения количества бит на каждый параметр. 16 бит (BF16) -> 8 бит (Q8) -> 4 бит (Q4). Экономит память за счёт небольшой потери качества.
K-quants (Q4_K, Q5_K, Q6_K) — семейство квантизаций с умным адаптивным сжатием. Анализируют чувствительность каждого блока весов отдельно. Значительно лучше старых Q4_0, Q5_0 при том же размере файла.
Q4_K_M — 4-битная K-квантизация с Medium-блоками. Самый популярный выбор: ~3.9 ГБ для 6.7B, работает на 8 ГБ RAM.
Q5_K_M — 5-битная K-квантизация. Лучший баланс качества и размера. Рекомендуется для задач с кодом, где нужна стабильность (JSON, сложная логика).
Q8_0 — 8-битная квантизация. Практически неотличима от оригинала. Нужна для серьёзных задач с 24+ ГБ RAM или GPU.
BF16 — оригинальный формат весов модели, 16 бит на параметр. Используется при обучении и на серверных GPU.
Перплексия (Perplexity) — метрика качества модели. Измеряет уверенность модели в предсказаниях. Чем ниже, тем лучше сохраняется качество после квантизации. Но помните: низкая перплексия не гарантирует правильный код, только уверенность ответов.
Файл подкачки (swap) — область на SSD, которую ОС использует как расширение RAM. Если модель не помещается в RAM и уходит в своп, скорость генерации падает в 10-20 раз.
Если хотите понять, как выбрать всю связку инструментов для локального вайбкодинга, загляните в каталог AI IDE на VibeCoderz. Там обзоры Cursor, Aider, Continue и других инструментов с актуальными характеристиками.
По вопросу "как собрать стек для локального кодинга под ваше железо" — запишитесь на консультацию к Максиму.
Обновлено: май 2026