mgsgde /
whisper-shortcut
macOS-приложение для Speech-to-text и голосовых промптов с поддержкой Gemini и Whisper.
Форки
8
Звёзды
61
Issues
0
macOS-приложение, которое переводит голос в текст или сразу в промпт через Whisper и Gemini. Ускоряет работу с AI без печати.
Что делает
Whisper-shortcut превращает твой голос в готовый текст или задачу для нейросети прямо в macOS. Ты нажимаешь горячую клавишу, надиктовываешь запрос, а приложение отправляет его в Gemini.
Результат появляется в буфере обмена или вставляется в активное окно. Это избавляет от необходимости открывать браузер или чат-ботов вручную. Всё происходит в один клик.
Как работает
Приложение использует модель Whisper для локальной или облачной транскрипции аудио в текст. После этого распознанный текст передается в API Gemini для обработки промпта.
Вся логика завязана на системных событиях macOS. Оно перехватывает горячие клавиши, записывает звук с микрофона и взаимодействует с буфером обмена системы.
Кому подходит
Тем, кто устал печатать длинные промпты и хочет делегировать это голосу.
Разработчикам, которые собирают AI-ассистентов для macOS и ищут готовое решение для ввода.
Пользователям Gemini, которым нужен быстрый доступ к модели без переключения вкладок.
Основные возможности
Голосовой ввод текста через Whisper.
Прямая отправка промптов в Gemini.
Настраиваемые горячие клавиши для активации.
Интеграция с буфером обмена macOS.
Минималистичный интерфейс в строке меню.
Как установить
Скачай готовый релиз с GitHub или собери проект из исходников через Xcode. Для работы потребуется настроенный API-ключ Gemini.
git clone https://github.com/mgsgde/whisper-shortcut
# Открой проект в Xcode и нажми BuildПосле запуска введи свой API-ключ в настройках приложения.
Как применить в своём продукте
Ты можешь использовать эту логику как основу для своего AI-инструмента. Вместо того чтобы писать систему распознавания с нуля, возьми этот код как референс для своего продукта.
Встрой функцию голосового ввода в свой SaaS-продукт для автоматизации заполнения полей.
Создай кастомную обертку для Gemini, чтобы автоматизировать рутинные задачи через голос.
Используй проект как библиотеку для создания микро-утилит под macOS.
Подводные камни
Главная проблема — зависимость от API Gemini. Если у тебя закончится лимит или пропадет интернет, приложение перестанет обрабатывать промпты.
Также учитывай, что Whisper требует ресурсов процессора. Если ты запускаешь транскрипцию локально, MacBook может нагреваться при длительной записи.
Частые вопросы
Нужно ли платить за использование Gemini?
Да, приложение использует официальный API. Ты платишь по тарифам Google за количество запросов. Проверь лимиты в личном кабинете Google AI Studio перед активным использованием.
Можно ли заменить Gemini на другую модель?
В текущем виде проект заточен под Gemini. Если ты умеешь читать Swift, ты можешь форкнуть репозиторий и заменить эндпоинт на любой другой API, например, OpenAI или Anthropic.
Работает ли распознавание без интернета?
Зависит от реализации Whisper. Если модель загружена локально, транскрипция будет работать офлайн. Однако отправка промпта в Gemini всё равно потребует стабильного подключения к сети.
Похожие репозитории
IINA — это мощный видеоплеер для macOS на базе MPV. Идеальное решение, если нужно встроить качественный медиа-движок в свой проект или просто заменить стандартные плееры.
Stats — это open source монитор ресурсов для macOS, который живет в строке меню. Показывает всё: от нагрузки на CPU до температуры датчиков и скорости сети.
UTM запускает Windows, Linux и другие ОС на macOS и iOS. Это эмулятор для запуска полноценных виртуальных машин без необходимости джейлбрейка.
MonitorControl превращает любой сторонний монитор в нативный Apple Display. Управляй яркостью и звуком через клавиатуру Mac или шорткаты.
Данные обновлены: 3 июня 2026 г.