🚀 Горячий релизC++

lemonade-sdk /

lemonade

Lemonade помогает запускать локальные AI-приложения, оптимизируя LLM для ваших GPU и NPU. Discord: https://discord.gg/5xXzkMu8Zk

Открыть на GitHub

Форки

219

Звёзды

2.6k

Issues

Lemonade запускает локальные LLM на GPU и NPU. Это готовый сервер с API для интеграции AI в ваши проекты без облаков.

Что делает

Lemonade превращает ваше железо в персональную фабрику по обработке AI-запросов. Он оптимизирует работу моделей, чтобы они летали даже на потребительских картах AMD Radeon и процессорах Ryzen с NPU.

Вместо того чтобы платить OpenAI за каждый токен, вы поднимаете локальный инстанс. Это дает полный контроль над данными и отсутствие задержек при передаче информации в сеть. Вы просто запускаете его, и он начинает отдавать ответы через привычный интерфейс.

Как работает

Проект использует ONNX Runtime и ROCm для связи с железом. Он выступает в роли локального сервера, который эмулирует стандартный OpenAI API. Благодаря этому вы можете подключить его к любому инструменту, поддерживающему работу с GPT, просто сменив адрес сервера в настройках.

Кому подходит

Вайб-кодерам, которые собирают SaaS на Next.js и хотят добавить AI-фичи без счетов за токены.

Владельцам железа AMD, которым не хватает поддержки CUDA в других AI-инструментах.

Разработчикам ботов, которым нужен приватный инференс моделей вроде Llama или Qwen.

Тем, кто тестирует локальные агенты через MCP.

Основные возможности

Поддержка GPU и NPU для ускорения инференса.

Полная совместимость с OpenAI API.

Оптимизация под архитектуры AMD Radeon и Ryzen.

Работа с популярными моделями типа Llama, Mistral и Qwen.

Встроенная поддержка протокола MCP для связи с агентами.

Запуск в локальной сети без внешних зависимостей.

Как установить

Для запуска убедитесь, что у вас установлены драйверы ROCm для вашего оборудования AMD.

# Пример запуска через Docker
docker run -p 8080:8080 lemonade-sdk/lemonade:latest

Проверьте документацию репозитория, так как процесс сборки из исходников на C++ требует развернутого окружения для компиляции под конкретные версии ROCm.

Как применить в своём продукте

Вы можете использовать его как бэкенд для любого AI-приложения. Просто замените URL в библиотеке `openai-node` или `langchain` на адрес вашего локального сервера.

Сделать приватный чат-бот для бизнеса, который не отправляет данные клиентов в облако.

Использовать как локальный движок для суммаризации текстов внутри вашего SaaS.

Встроить в десктопное приложение на Electron для работы AI-ассистента в офлайне.

Заменить платные API на локальный инференс для экономии бюджета на этапе MVP.

Подводные камни

Главный риск — совместимость драйверов. ROCm капризен к версиям ядра Linux и конкретным моделям видеокарт. Если у вас старая карта, придется повозиться с настройкой окружения. Также помните про лимиты VRAM: если модель не влезает в память, инференс будет идти через системную оперативку, что замедлит работу в десятки раз.

Частые вопросы

Нужно ли мне знать C++, чтобы использовать Lemonade?

Нет. Это готовый сервер. Вы взаимодействуете с ним через HTTP-запросы в формате OpenAI API. Вам достаточно уметь делать fetch-запросы или использовать готовые SDK для работы с LLM.

Работает ли это на NVIDIA?

Основной фокус проекта — экосистема AMD. Хотя архитектура может позволять запуск на других ускорителях, основной упор сделан на ROCm и NPU. Для NVIDIA лучше использовать решения на базе CUDA.

Сколько памяти нужно для нормальной работы?

Зависит от модели. Для квантованных моделей уровня 7B вам понадобится минимум 8-12 ГБ VRAM. Если планируете запускать что-то тяжелее, готовьте 16-24 ГБ.

Топики

ai amd genai gpu llama llm llm-inference local-server mcp mcp-server mistral npu onnxruntime openai-api qwen radeon rocm ryzen vulkan

lemonade

Lemonade помогает запускать локальные AI-приложения, оптимизируя LLM для ваших GPU и NPU. Discord: https://discord.gg/5xXzkMu8Zk

Открыть на GitHub

Форки

219

Звёзды

2.6k

Issues

Lemonade запускает локальные LLM на GPU и NPU. Это готовый сервер с API для интеграции AI в ваши проекты без облаков.

Что делает

Как работает

Кому подходит

Вайб-кодерам, которые собирают SaaS на Next.js и хотят добавить AI-фичи без счетов за токены.

Владельцам железа AMD, которым не хватает поддержки CUDA в других AI-инструментах.

Разработчикам ботов, которым нужен приватный инференс моделей вроде Llama или Qwen.

Тем, кто тестирует локальные агенты через MCP.

Основные возможности

Поддержка GPU и NPU для ускорения инференса.

Полная совместимость с OpenAI API.

Оптимизация под архитектуры AMD Radeon и Ryzen.

Работа с популярными моделями типа Llama, Mistral и Qwen.

Встроенная поддержка протокола MCP для связи с агентами.

Запуск в локальной сети без внешних зависимостей.

Как установить

Для запуска убедитесь, что у вас установлены драйверы ROCm для вашего оборудования AMD.

# Пример запуска через Docker
docker run -p 8080:8080 lemonade-sdk/lemonade:latest

Как применить в своём продукте

Сделать приватный чат-бот для бизнеса, который не отправляет данные клиентов в облако.

Использовать как локальный движок для суммаризации текстов внутри вашего SaaS.

Встроить в десктопное приложение на Electron для работы AI-ассистента в офлайне.

Заменить платные API на локальный инференс для экономии бюджета на этапе MVP.

Подводные камни

Частые вопросы

Нужно ли мне знать C++, чтобы использовать Lemonade?

Работает ли это на NVIDIA?

Сколько памяти нужно для нормальной работы?

Топики

ai amd genai gpu llama llm llm-inference local-server mcp mcp-server mistral npu onnxruntime openai-api qwen radeon rocm ryzen vulkan

lemonade

Что делает

Как работает

Кому подходит

Основные возможности

Как установить

Как применить в своём продукте

Подводные камни

Частые вопросы

Нужно ли мне знать C++, чтобы использовать Lemonade?

Работает ли это на NVIDIA?

Сколько памяти нужно для нормальной работы?

Топики

Похожие репозитории

lemonade

Что делает

Как работает

Кому подходит

Основные возможности

Как установить

Как применить в своём продукте

Подводные камни

Частые вопросы

Нужно ли мне знать C++, чтобы использовать Lemonade?

Работает ли это на NVIDIA?

Сколько памяти нужно для нормальной работы?

Топики

Похожие репозитории