VoxPrint
Попробовать бесплатно
←Все статьи

OpenAI Whisper: распознавание речи — модели, точность для русского языка

28 марта 2026 г.·20 мин чтения

Содержание

  1. Что такое Whisper
  2. История версий Whisper
  3. Размеры моделей Whisper: от tiny до large-v3
  4. Точность Whisper для русского языка
  5. Варианты использования Whisper
  6. Что Whisper умеет и не умеет
  7. Whisper vs конкуренты: сравнение
  8. Экосистема вокруг Whisper
  9. Будущее Whisper
  10. Заключение

Whisper от OpenAI — это open-source модель распознавания речи, которая изменила индустрию транскрибации. В этом руководстве мы разберём все версии Whisper, сравним размеры моделей, оценим точность для русского и других языков, рассмотрим варианты использования — от API до локальной установки — и покажем, где Whisper действительно силён, а где ему нужна помощь.


Что такое Whisper

Whisper — это модель автоматического распознавания речи (ASR), разработанная OpenAI и выпущенная в открытый доступ в сентябре 2022 года. Это не просто очередная STT-система: Whisper стал первой по-настоящему точной и при этом полностью бесплатной моделью для транскрибации речи.

Ключевые факты о Whisper:

  • Open-source: код и веса моделей доступны на GitHub под лицензией MIT
  • Обучена на 680 000 часов аудио из интернета — это примерно 77 лет непрерывного звука
  • Мультиязычная: поддерживает 99 языков, включая русский, украинский, казахский и другие
  • Мультизадачная: транскрибация, перевод на английский, определение языка, генерация таймкодов — всё в одной модели
  • Encoder-decoder архитектура: на базе Transformer, принимает 30-секундные сегменты мел-спектрограмм

До Whisper качественное распознавание речи было доступно только через платные облачные API (Google Cloud Speech, Amazon Transcribe, Azure Speech). Open-source альтернативы вроде DeepSpeech и Vosk заметно уступали по точности. Whisper изменил правила игры: теперь любой разработчик мог получить распознавание речи уровня коммерческих решений — бесплатно и с возможностью запуска на своём оборудовании.

Почему Whisper стал революцией

Главный секрет Whisper — объём и разнообразие обучающих данных. 680 000 часов аудио включали:

  • Подкасты и видео на десятках языков
  • Аудио с различным качеством записи
  • Речь с акцентами, диалектами и фоновым шумом
  • Пары «аудио — текст» с разных платформ

Этот подход «weak supervision» (слабая разметка) позволил модели научиться обрабатывать реальную речь, а не только идеальные лабораторные записи. В результате Whisper показывает стабильную точность даже на зашумлённом аудио, с акцентами и в условиях, далёких от идеальных.


История версий Whisper

Whisper v1 (сентябрь 2022)

Первый публичный релиз включал пять размеров модели: tiny, base, small, medium и large. Уже на старте large-модель показала точность, сопоставимую с коммерческими сервисами, а для английского языка — даже превосходящую некоторые из них. Модель сразу поддерживала 99 языков, хотя качество для отдельных языков сильно варьировалось.

Whisper v2 (декабрь 2022)

Всего через три месяца OpenAI выпустила обновлённую large-v2 модель. Основные улучшения:

  • Сниженный Word Error Rate (WER) на многих языках
  • Улучшенная обработка длинных аудиозаписей
  • Более стабильная работа с акцентами и диалектами
  • Меньше «галлюцинаций» — ситуаций, когда модель генерирует текст, которого нет в аудио

Whisper v3 (ноябрь 2023)

Релиз large-v3 стал значительным шагом вперёд:

  • 128 мел-спектрограммных каналов вместо 80 (больше информации из аудио)
  • Обучение на ещё большем объёме данных с улучшенной фильтрацией
  • Заметное улучшение точности для неанглийских языков, в том числе русского
  • WER для русского снизился до 4–5% на чистом аудио

Whisper v3 Turbo (октябрь 2024)

Самая свежая модель — large-v3-turbo — это компромисс между скоростью и точностью:

  • В 8 раз быстрее large-v3 при минимальной потере точности
  • 809 миллионов параметров вместо 1.55 миллиарда
  • Декодер уменьшен с 32 слоёв до 4
  • Идеальна для продакшн-систем, где важна скорость
  • WER всего на 1–2% выше, чем у large-v3

Размеры моделей Whisper: от tiny до large-v3

Whisper предлагает шесть основных моделей, и выбор между ними — это всегда компромисс между точностью, скоростью и требованиями к оборудованию.

Сравнительная таблица моделей

МодельПараметрыVRAMОтносительная скоростьWER (EN)WER (RU)
tiny39M~1 ГБОчень быстро~8%~15%
base74M~1 ГББыстро~6%~12%
small244M~2 ГБСредне~4.5%~8%
medium769M~5 ГБМедленно~3.5%~6%
large-v31550M~10 ГБОчень медленно~2.5%~4%
large-v3-turbo809M~6 ГББыстро~3%~5%

WER (Word Error Rate) — процент ошибок в распознанных словах. Чем ниже — тем лучше. Значения приведены для чистого аудио; на зашумлённых записях WER будет выше.

Какую модель выбрать

  • tiny / base: для экспериментов, прототипов, или если нужна максимальная скорость на слабом оборудовании. Подходят для определения языка и грубой транскрибации.
  • small: оптимальный баланс для многих задач. Хорошая точность при умеренных требованиях к ресурсам.
  • medium: когда нужна высокая точность, но нет мощной GPU. Хорошо работает с русским языком.
  • large-v3: максимальная точность для всех языков. Требует серьёзной видеокарты (NVIDIA с 10+ ГБ VRAM).
  • large-v3-turbo: лучший выбор для продакшна — близкая к large-v3 точность при значительно большей скорости.

Точность Whisper для русского языка

Русский язык — один из тех, для которых Whisper показывает отличные результаты. Это связано с тем, что в обучающей выборке было достаточно много русскоязычного контента.

Реальные показатели

На чистом аудио с хорошим качеством записи (подкасты, интервью, лекции):

  • large-v3: WER 3–5% — это означает, что из 100 слов неправильно распознаётся лишь 3–5
  • large-v3-turbo: WER 4–6%
  • medium: WER 5–7%
  • small: WER 7–10%

На сложном аудио (шум, несколько спикеров, акцент):

  • WER может возрастать до 10–20% даже для large-v3
  • Особенно страдают имена собственные, аббревиатуры и специфическая терминология

Сравнение с конкурентами для русского

СервисWER (RU, чистое аудио)ДиаризацияOpen-source
Whisper large-v33–5%Нет (нужен доп. модуль)Да
Google Cloud Speech4–6%ДаНет
Yandex SpeechKit3–5%ДаНет
Azure Speech4–7%ДаНет

Whisper сопоставим с лучшими коммерческими решениями по базовой точности, но уступает им в дополнительных возможностях «из коробки» (диаризация, адаптивные модели, потоковое распознавание). Подробное сравнение всех моделей и сервисов для русского языка — в нашем полном гиде по инструментам транскрибации.

Факторы, влияющие на точность

Улучшают точность:

  • Чистый аудиосигнал без фонового шума
  • Один спикер с чёткой дикцией
  • Качественный микрофон (16 кГц+ частота дискретизации)
  • Общеупотребительная лексика

Снижают точность:

  • Фоновая музыка или шум
  • Несколько одновременно говорящих спикеров
  • Акценты и диалекты
  • Специфическая терминология (медицинская, юридическая, техническая)
  • Низкое качество записи (телефонные звонки, сжатое аудио)

Варианты использования Whisper

OpenAI Whisper API

Самый простой способ использовать Whisper — через облачный API OpenAI.

Преимущества:

  • Не нужно оборудование и настройка
  • Всегда актуальная модель
  • Простой REST API

Недостатки:

  • Стоимость: $0.006 за минуту аудио
  • Данные отправляются на серверы OpenAI
  • Ограничение размера файла: 25 МБ
  • Зависимость от интернета и доступности сервиса

Стоимость на практике: 1 час аудио = $0.36, 10 часов = $3.60. Для небольших объёмов это выгоднее покупки GPU.

Локальная установка

Для тех, кому важна приватность данных или кто обрабатывает большие объёмы аудио.

Минимальные требования:

  • Python 3.8+
  • Для CPU: любой современный процессор (но медленно)
  • Для GPU: NVIDIA с поддержкой CUDA (GTX 1060+ для small, RTX 3080+ для large-v3)

Установка:

Оригинальный Whisper устанавливается через pip. Также потребуется FFmpeg для обработки аудио. После установки доступна как Python-библиотека, так и CLI-инструмент для транскрибации файлов.

Важно: на CPU транскрибация large-v3 модели может занимать в 10–30 раз больше времени, чем на GPU. Для серьёзной работы GPU практически обязателен.

Оптимизированные реализации

Оригинальный Whisper от OpenAI — не самая эффективная реализация. Сообщество создало несколько значительно более быстрых вариантов:

faster-whisper — реализация на CTranslate2, до 4x быстрее оригинала при том же качестве. Меньшее потребление памяти, поддержка int8 квантизации. Самый популярный выбор для продакшн-развёртываний.

whisper.cpp — реализация на чистом C/C++, оптимизированная для CPU. Работает на Mac (Apple Silicon через Metal), Windows, Linux, Android и даже Raspberry Pi. Идеальна для встраиваемых систем и устройств без GPU.

WhisperX — расширение Whisper с дополнительными возможностями: точное выравнивание таймкодов по словам (forced alignment), диаризация спикеров через pyannote.audio, пакетная обработка (batched inference) для ускорения. Лучший выбор, если нужна диаризация.

Insanely-Fast-Whisper — использует batched inference через Hugging Face Transformers для максимальной скорости на мощных GPU. На RTX 4090 может транскрибировать аудио быстрее реального времени в 100+ раз.

Готовые сервисы на базе Whisper

Не все хотят разбираться с установкой и настройкой. Для них существуют готовые решения:

VoxPrint (дикто́вка.рф) — веб-сервис для транскрибации аудио, построенный на Whisper. Просто загрузите файл, вставьте ссылку или запишите голос — и получите текст с разделением по спикерам и AI-саммари. Не нужно ничего устанавливать: всё работает в браузере, а обработка происходит на сервере с мощными GPU.

Десктопные приложения: Vibe (бесплатное, кроссплатформенное), Buzz (open-source GUI), MacWhisper (нативное для macOS), Whisper Notes (iOS + Mac). Подробнее обо всех десктопных и мобильных приложениях — в нашем обзоре инструментов для транскрибации.


Что Whisper умеет и не умеет

Сильные стороны Whisper

Транскрибация на 99 языках. Whisper — одна из немногих моделей, которая действительно хорошо работает с десятками языков. Для русского, английского, испанского, немецкого, французского и других крупных языков точность сопоставима с коммерческими решениями.

Перевод на английский. Whisper может не только транскрибировать речь, но и переводить её на английский язык «на лету». Это уникальная возможность, встроенная прямо в модель.

Определение языка. Модель автоматически определяет язык речи в первые 30 секунд аудио. Точность определения — более 95% для основных языков.

Генерация таймкодов. Whisper возвращает текст с таймкодами для каждого сегмента (обычно 5–30 секунд). С WhisperX можно получить пословные таймкоды.

Устойчивость к шуму. Благодаря обучению на реальных данных из интернета, Whisper неплохо справляется с зашумлённым аудио — фоновая музыка, шум улицы, не очень качественный микрофон.

Ограничения Whisper

Нет диаризации спикеров. Whisper не различает спикеров — он не скажет, кто именно произнёс каждую фразу. Для этого нужен отдельный модуль, например pyannote.audio. Именно поэтому такие сервисы, как VoxPrint, добавляют диаризацию поверх Whisper — чтобы вы видели, кто что сказал.

Нет потокового распознавания. Whisper работает с заранее записанным аудио. Он не может транскрибировать речь в реальном времени «из коробки» (хотя есть экспериментальные решения вроде whisper_streaming).

Галлюцинации. Иногда Whisper генерирует текст, которого нет в аудио — особенно в тишине или при очень тихой речи. Это известная проблема encoder-decoder моделей.

Специфическая терминология. Без дополнительной настройки Whisper может ошибаться в медицинских, юридических, технических и других специальных терминах. Нет встроенного механизма для пользовательских словарей.

Пунктуация. Качество автоматической расстановки знаков препинания зависит от языка. Для английского пунктуация хорошая, для некоторых других языков — менее надёжная.


Whisper vs конкуренты: сравнение

ХарактеристикаWhisperGoogle SpeechAzure SpeechDeepgramAssemblyAI
Open-sourceДаНетНетНетНет
Языки99125+100+3620+
РусскийОтличноХорошоХорошоБазовоНет
ДиаризацияНет*ДаДаДаДа
Real-timeНет*ДаДаДаДа
Локальный запускДаНетНетНетНет
БесплатныйДаНетНетНетНет
API цена/мин$0.006~$0.016~$0.016~$0.015~$0.015

*Нет встроенной диаризации и real-time, но доступно через сторонние модули (pyannote.audio, whisper_streaming).

Когда выбрать Whisper:

  • Нужна полная приватность данных (локальный запуск)
  • Бюджет ограничен или нулевой
  • Работа с редкими языками
  • Интеграция в свой продукт без лицензионных ограничений

Когда выбрать коммерческое решение:

  • Нужно real-time распознавание
  • Критически важна диаризация «из коробки»
  • Нет ресурсов на развёртывание и поддержку
  • Нужна гарантированная SLA

Экосистема вокруг Whisper

Вокруг Whisper сформировалась мощная экосистема инструментов и сервисов:

Оптимизация вывода (inference):

  • faster-whisper: CTranslate2-бэкенд, 4x ускорение
  • whisper.cpp: C++ реализация для CPU
  • Insanely-Fast-Whisper: batched inference на GPU

Расширенные возможности:

  • WhisperX: диаризация + пословные таймкоды
  • pyannote.audio: диаризация спикеров
  • whisper_streaming: экспериментальное real-time распознавание

GUI и приложения:

  • Vibe, Buzz, MacWhisper — десктопные клиенты
  • Whishper — self-hosted веб-платформа
  • VoxPrint — облачный сервис с диаризацией и AI-саммари

Интеграции:

  • Hugging Face Transformers: унифицированный API
  • MLX Whisper: оптимизация для Apple Silicon
  • OpenAI API: облачный доступ без развёртывания

Будущее Whisper

Что ожидать

Whisper продолжает развиваться, и можно выделить несколько трендов:

Скорость без потери качества. Линия от large-v3 к large-v3-turbo показывает направление: OpenAI работает над моделями, которые дают ту же точность при значительно меньших вычислительных затратах. Ожидается, что следующие версии будут ещё быстрее.

Улучшение для неанглийских языков. С каждой версией Whisper становится точнее для языков, которые изначально были слабее представлены в обучающих данных. Русский язык уже на хорошем уровне, но есть потенциал для улучшения работы со специфической лексикой.

Интеграция с LLM. Комбинация Whisper + GPT/Claude для постобработки транскриптов открывает новые возможности: автоматическое исправление ошибок, выделение ключевых тем, генерация резюме, ответы на вопросы по содержанию записи.

Расширение экосистемы. Количество инструментов и сервисов на базе Whisper продолжает расти. Появляются специализированные решения для конкретных задач: медицинская транскрибация, юридические протоколы, образовательные субтитры, подкаст-продакшн.

Whisper как фундамент

Whisper стал фундаментом для нового поколения аудиосервисов. Раньше создание сервиса транскрибации требовало огромных инвестиций в обучение собственной модели или дорогих API. Теперь разработчики могут сосредоточиться на пользовательском опыте и дополнительных возможностях — диаризации, саммаризации, поиске по аудио — используя Whisper как базовый движок.


Заключение

Whisper от OpenAI — это одна из самых значимых open-source моделей в области распознавания речи. Она демократизировала доступ к качественной транскрибации, сделав её доступной для всех — от индивидуальных разработчиков до крупных компаний.

Для русского языка Whisper показывает отличные результаты: WER 3–5% на чистом аудио с large-v3 — это уровень лучших коммерческих решений. С оптимизированными реализациями вроде faster-whisper и удобными сервисами, такими как VoxPrint, использовать Whisper стало проще, чем когда-либо.

Выбор варианта использования зависит от ваших потребностей: OpenAI API для простоты, локальная установка для приватности, или готовый сервис для удобства. В любом случае, Whisper — это инструмент, который стоит знать и использовать.

FAQ

Whisper от OpenAI бесплатный?

Да, Whisper — это open-source модель под лицензией MIT. Код и веса моделей доступны бесплатно на GitHub. Локальная установка полностью бесплатна. Облачный API OpenAI стоит $0.006 за минуту аудио (~0.5 руб./мин).

Какую модель Whisper выбрать?

Для максимальной точности — large-v3 (WER 3–5% для русского, нужна GPU с 10+ ГБ VRAM). Для продакшна — large-v3-turbo (в 8 раз быстрее при минимальной потере точности). Для экспериментов на слабом оборудовании — small или medium.

Насколько точно Whisper распознаёт русский язык?

На чистом аудио модель large-v3 показывает WER 3–5% для русского — это уровень лучших коммерческих решений. На сложном аудио с шумом или несколькими спикерами WER может возрастать до 10–20%.

Можно ли использовать Whisper офлайн?

Да, Whisper можно установить локально и использовать полностью офлайн. Для этого потребуется Python 3.8+, FFmpeg и видеокарта NVIDIA с поддержкой CUDA. На CPU транскрибация будет работать, но в 10–30 раз медленнее, чем на GPU.

Какая видеокарта нужна для Whisper?

Для модели small достаточно NVIDIA GTX 1060 с 2 ГБ VRAM. Для large-v3 нужна карта с 10+ ГБ VRAM — RTX 3080 или лучше. Модель large-v3-turbo работает на 6 ГБ VRAM. Существуют оптимизированные реализации (faster-whisper, whisper.cpp), которые снижают требования.

Насколько точна модель Whisper tiny?

Whisper tiny (39M параметров) — самая быстрая, но наименее точная модель. Для английского WER составляет 7–10% на чистом аудио. Для русского — 12–18%, для немецкого — 10–15%, для японского — 15–25%. Для не-английских языков в продакшне рекомендуются модели medium или large-v3.

Чем Whisper отличается от WhisperLive?

Whisper — это модель пакетной транскрибации от OpenAI: загружаете файл целиком и получаете текст. WhisperLive и аналогичные проекты (whisper-streaming, faster-whisper-server) добавляют поверх Whisper стриминг через WebSocket, позволяя транскрибировать речь в реальном времени. Используется та же модель, но с инфраструктурой потоковой передачи.

Попробовать бесплатно

Сайт использует cookie

Мы применяем технические cookie для работы сайта и Яндекс.Метрику для обезличенной статистики посещений. Подробности — в уведомлении об использовании cookie и политике обработки персональных данных.