// LOADING STUDIO CONNECTING MODELS WARMING UP GPU BUILDING INTERFACE 4%

База знаний · аудио

Whisper

Расшифровка речи в текст: загрузи аудио — получи текстовую расшифровку. Удобно для субтитров, заметок, интервью.

Открыть в студии →

Что умеет

  • Распознаёт речь из аудиофайла и выдаёт текст.
  • Понимает много языков.
  • Подходит для субтитров, расшифровки интервью и голосовых.

Чего не умеет

Честно — чтобы не сливать токены на том, что эта модель не вытянет.

  • Это расшифровка (речь → текст), а НЕ озвучка. Чтобы озвучить текст — бери ElevenLabs.
  • Качество падает на шумных записях и перекрывающихся голосах.
  • Пунктуация и имена собственные могут быть неточны.
  • Очень длинные файлы лучше дробить на части.

Как писать промпт

Промпт не нужен — просто приложи аудиофайл. Чем чище запись (меньше шума, один говорящий), тем точнее текст.

Промпт, который работает

(приложи аудиофайл) — текст расшифровки вернётся автоматически

Так не стоит

«озвучь этот текст»

Whisper делает обратное — превращает речь в текст. Для озвучки текста выбери ElevenLabs.

Примеры

Субтитры к ролику

(приложи аудио из видео) — получишь текст для субтитров

Лайфхаки

  • Один говорящий и тихий фон → заметно точнее.
  • Длинное интервью дроби на куски по 5–10 минут.

Частые вопросы

Сколько стоит генерация в Whisper?

6 токенов за генерацию — зависит от выбранной версии и настроек. Актуальные тарифы и пакеты токенов — на странице /pricing.

Нужен ли VPN для Whisper?

Нет. Whisper работает в Pixyn без VPN из России, оплата в рублях через ЮKassa.

Можно ли использовать результаты Whisper коммерчески?

Да, при активной подписке Pixyn. Учтите, что отдельные модели имеют ограничения провайдера по индустриям — проверяйте условия конкретной версии.

Похожие нейросети

Открыть в студии →