lemonade-sdk /
lemonade
Lemonade помогает запускать локальные AI-приложения, оптимизируя LLM для ваших GPU и NPU. Discord: https://discord.gg/5xXzkMu8Zk
Форки
219
Звёзды
2.6k
Issues
0
Lemonade запускает локальные LLM на GPU и NPU. Это готовый сервер с API для интеграции AI в ваши проекты без облаков.
Что делает
Lemonade превращает ваше железо в персональную фабрику по обработке AI-запросов. Он оптимизирует работу моделей, чтобы они летали даже на потребительских картах AMD Radeon и процессорах Ryzen с NPU.
Вместо того чтобы платить OpenAI за каждый токен, вы поднимаете локальный инстанс. Это дает полный контроль над данными и отсутствие задержек при передаче информации в сеть. Вы просто запускаете его, и он начинает отдавать ответы через привычный интерфейс.
Как работает
Проект использует ONNX Runtime и ROCm для связи с железом. Он выступает в роли локального сервера, который эмулирует стандартный OpenAI API. Благодаря этому вы можете подключить его к любому инструменту, поддерживающему работу с GPT, просто сменив адрес сервера в настройках.
Кому подходит
Вайб-кодерам, которые собирают SaaS на Next.js и хотят добавить AI-фичи без счетов за токены.
Владельцам железа AMD, которым не хватает поддержки CUDA в других AI-инструментах.
Разработчикам ботов, которым нужен приватный инференс моделей вроде Llama или Qwen.
Тем, кто тестирует локальные агенты через MCP.
Основные возможности
Поддержка GPU и NPU для ускорения инференса.
Полная совместимость с OpenAI API.
Оптимизация под архитектуры AMD Radeon и Ryzen.
Работа с популярными моделями типа Llama, Mistral и Qwen.
Встроенная поддержка протокола MCP для связи с агентами.
Запуск в локальной сети без внешних зависимостей.
Как установить
Для запуска убедитесь, что у вас установлены драйверы ROCm для вашего оборудования AMD.
# Пример запуска через Docker
docker run -p 8080:8080 lemonade-sdk/lemonade:latestПроверьте документацию репозитория, так как процесс сборки из исходников на C++ требует развернутого окружения для компиляции под конкретные версии ROCm.
Как применить в своём продукте
Вы можете использовать его как бэкенд для любого AI-приложения. Просто замените URL в библиотеке `openai-node` или `langchain` на адрес вашего локального сервера.
Сделать приватный чат-бот для бизнеса, который не отправляет данные клиентов в облако.
Использовать как локальный движок для суммаризации текстов внутри вашего SaaS.
Встроить в десктопное приложение на Electron для работы AI-ассистента в офлайне.
Заменить платные API на локальный инференс для экономии бюджета на этапе MVP.
Подводные камни
Главный риск — совместимость драйверов. ROCm капризен к версиям ядра Linux и конкретным моделям видеокарт. Если у вас старая карта, придется повозиться с настройкой окружения. Также помните про лимиты VRAM: если модель не влезает в память, инференс будет идти через системную оперативку, что замедлит работу в десятки раз.
Частые вопросы
Нужно ли мне знать C++, чтобы использовать Lemonade?
Нет. Это готовый сервер. Вы взаимодействуете с ним через HTTP-запросы в формате OpenAI API. Вам достаточно уметь делать fetch-запросы или использовать готовые SDK для работы с LLM.
Работает ли это на NVIDIA?
Основной фокус проекта — экосистема AMD. Хотя архитектура может позволять запуск на других ускорителях, основной упор сделан на ROCm и NPU. Для NVIDIA лучше использовать решения на базе CUDA.
Сколько памяти нужно для нормальной работы?
Зависит от модели. Для квантованных моделей уровня 7B вам понадобится минимум 8-12 ГБ VRAM. Если планируете запускать что-то тяжелее, готовьте 16-24 ГБ.
Топики
Похожие репозитории
Ollama — это способ запустить LLM локально на своем железе. Ты получаешь API для моделей вроде Llama 3 или DeepSeek без облачных счетов.
LocalAI запускает любые AI-модели локально. Это self-hosted замена OpenAI API для работы с текстом, звуком и картинками без мощных видеокарт.
Osaurus — нативный macOS-движок для запуска AI-агентов локально. Поддерживает любые модели, долгосрочную память и автономное выполнение задач без облаков.
holaOS — это среда выполнения для AI-агентов, заточенная под долгие задачи, память и автономную работу. Помогает строить системы, которые не забывают контекст.
Данные обновлены: 24 марта 2026 г.