VoxPrint
Паспрабаваць бясплатна
←Усе артыкулы

WER (Word Error Rate): як вымяраюць дакладнасць распазнавання маулення

28 сакавіка 2026 г.·14 хв чытання

Змест

  1. Што такое WER
  2. Формула WER
  3. Як лічыцца WER: разбор на прыкладзе
  4. Што азначаюць розныя значэнні WER
  5. Фактары, якія уплываюць на WER
  6. WER для розных мадэляу
  7. Абмежаванні WER як метрыкі
  8. Альтэрнатыуныя метрыкі
  9. Як палепшыць WER для вашых задач
  10. Вынікі

Word Error Rate (WER) — галоуная метрыка якасці распазнавання маулення. Разбіраем формулу, лічым на прыкладзе, тлумачым, што азначаюць розныя значэнні WER і ад чаго залежыць дакладнасць транскрыбавання. Калі вы калі-небудзь задумваліся, чаму адзін сэрвіс транскрыбавання выдае амаль ідэальны тэкст, а іншы — кашу са слоу, адказ амаль заусёды крыецца у трох літарах: WER.


Што такое WER

Word Error Rate (WER, каэфіцыент паслоунай памылкі) — гэта стандартная метрыка, якой вымяраюць дакладнасць сістэм аутаматычнага распазнавання маулення (ASR — Automatic Speech Recognition). Прасцей кажучы, WER паказвае, які працэнт слоу сістэма распазнала няправільна.

Ідэя простая: бяром эталонны тэкст (тое, што было сказана на самай справе), параунуваем яго з тым, што выдала сістэма, і лічым колькасць памылак. Чым ніжэй WER — тым лепш працуе распазнаванне.

WER выкарыстоуваецца паусюдна: у навуковых артыкулах, у дакументацыі да API распазнавання маулення, у параунальных аглядах мадэляу. Гэта lingua franca індустрыі — адзіная мова, на якой гавораць распрацоушчыкі, даследчыкі і карыстальнікі.


Формула WER

Формула WER выглядае так:

WER = (S + D + I) / N x 100%

Дзе:

  • S (Substitutions, замены) — словы, якія сістэма распазнала няправільна, замяніушы адно слова іншым
  • D (Deletions, пропускі) — словы з эталоннага тэксту, якія сістэма прапусціла
  • I (Insertions, устаукі) — словы, якія сістэма дадала, хаця у арыгінале іх не было
  • N — агульная колькасць слоу у эталонным тэксце

Звярніце увагу: у лічніку — тры тыпы памылак, а у назоуніку — толькі колькасць слоу у эталоне. Гэта азначае, што тэарэтычна WER можа перавышаць 100% (калі устáвак вельмі шмат), хаця на практыцы такое здараецца рэдка.


Як лічыцца WER: разбор на прыкладзе

Разгледзім канкрэтны прыклад.

Эталон (што было сказана): "Я хачу замовіць білет на цягнік"

Вынік распазнавання: "Я хачу замовіць білеты на цягнікі"

Параунуваем слова за словам:

ПазіцыяЭталонРаспазнанаТып памылкі
1ЯЯПравільна
2хачухачуПравільна
3замовіцьзамовіцьПравільна
4білетбілетыЗамена (S)
5нанаПравільна
6цягнікцягнікіЗамена (S)

Вынік:

  • S = 2 (дзве замены: "білет" на "білеты", "цягнік" на "цягнікі")
  • D = 0 (нічога не прапушчана)
  • I = 0 (нічога лішняга не дадана)
  • N = 6 (шэсць слоу у эталоне)

WER = (2 + 0 + 0) / 6 x 100% = 33,3%

Гэта даволі высокі WER — сістэма пераблытала склонавыя формы двух слоу. Для чалавека тэкст цалкам зразумелы, але фармальна трэць слоу распазнана няверна.

Разгледзім іншы прыклад, дзе сустракаюцца усе тры тыпы памылак:

Эталон: "Сустрэча адбудзецца заутра а дзесятай раніцы"

Распазнана: "Сустрэча адбудзецца а дзесятай гадзіне раніцы"

ПазіцыяЭталонРаспазнанаТып памылкі
1СустрэчаСустрэчаПравільна
2адбудзеццаадбудзеццаПравільна
3заутра—Пропуск (D)
4ааПравільна
5дзесятайдзесятайПравільна
6—гадзінеУстаука (I)
7раніцыраніцыПравільна
  • S = 0, D = 1 ("заутра" прапушчана), I = 1 ("гадзіне" дадана), N = 6

WER = (0 + 1 + 1) / 6 x 100% = 33,3%

Цікава, што WER аднолькавы, але памылкі зусім розныя. У першым выпадку тэкст чытэльны, у другім — страчаны важны сэнс (слова "заутра"). Гэта адно з абмежаванняу WER як метрыкі, пра якія мы пагаворым ніжэй.


Што азначаюць розныя значэнні WER

Не усе значэнні WER раунозначныя па практычным уплыве. Вось арыенціровачная шкала:

WERЯкасцьПрактычнае значэнне
менш за 5%ВыдатнаяПрафесійнае выкарыстанне без праукі. Тэкст можна публікаваць як ёсць
5–10%ДобраяМінімальная праука. Падыходзіць для нататак, пратаколау, субцітрау
10–20%ПрымальнаяПатрэбна значная праука, але асноуны сэнс зразумелы
20–30%ДрэннаяТэкст патрабуе перапраслухоування і істотнай рэдактуры
больш за 30%НепрымальнаяПрактычна бескарысна — хутчэй набраць уручную

Важна разумець кантэкст. Для медычнай дакументацыі нават 5% WER можа быць недапушчальным — памылка у назве лекау крытычная. Для асабістых нататак 15% WER цалкам дапушчальна, калі асноуныя думкі перададзены верна.


Фактары, якія уплываюць на WER

Дакладнасць распазнавання маулення залежыць ад мноства фактарау. Разуменне гэтых фактарау дапамагае не толькі абраць правільны інструмент, але і падрыхтаваць аудыё для лепшага выніку.

Якасць аудыё

Гэта галоуны фактар, які уплывае на WER больш, чым выбар мадэлі.

Фонавы шум — самы распаусюджаны вораг дакладнасці. Шум кандыцыянера, размовы за сцяной, вулічны шум, музыка — усё гэта павялічвае WER на 5–20 працэнтных пунктау у залежнасці ад інтэнсіунасці. Суадносіны сігнал/шум (SNR) ніжэй 10 дБ робіць транскрыбаванне практычна бессэнсоуным для большасці сістэм.

Якасць мікрафона істотна уплывае на вынік. Добры мікрафон з блізкім размяшчэннем да мауца зніжае WER на 3–10% у параунанні з убудаваным мікрафонам наутбука на адлегласці метра. Гарнітура або петлічка — лепшыя сябры транскрыбавання.

Рэверберацыя і рэха дадаюць 5–15% да WER. Запіс у вялікім пустым памяшканні або па гучнай сувязі (speakerphone) значна пагаршае распазнаванне.

Характарыстыкі маулення

Акцэнт і дыялект павялічваюць WER на 5–15%. Мадэлі навучаны пераважна на стандартным вымауленні. Моцны рэгіянальны акцэнт або дыялект прыкметна зніжае дакладнасць. Для беларускай мовы гэта датычыць адрозненняу паміж рэгіянальнымі гаворкамі, а таксама трасянкі.

Хуткасць маулення пры хуткім тэмпе дадае 3–10% да WER. Калі чалавек таратарыць, словы зліваюцца, межы паміж імі размываюцца, і мадэлі складаней іх раздзяліць.

Перабіванні і накладанне маулення — самы складаны выпадак для ASR-сістэм. Калі дзве асобы гавораць адначасова, WER можа вырасці на 10–30%.

Спецыялізаваная лексіка — прафесійныя тэрміны, абрэвіятуры, назвы кампаній і прадуктау дадаюць 5–15% да WER.

Мова

Не усе мовы распазнаюцца аднолькава добра.

Англійская традыцыйна паказвае лепшыя вынікі, таму што на ёй навучана найбольш дадзеных. Whisper large-v3 дасягае 3–4% WER на чыстым англійскім аудыё.

Беларуская — мова з абмежаванай падтрымкай у большасці ASR-сістэм. Whisper large-v3 уключае беларускую мову, але з-за адносна невялікага аб'ёму навучальных дадзеных вынікі горшыя за рускую ці украінскую. На чыстым аудыё можна чакаць прыкладна 12–20% WER, на рэальных запісах — значна вышэй. Спецыфічныя выклікі: дзеканне і цеканне, аканне, мяккі знак, гістарычныя і сучасныя варыянты правапісу.

Маларэсурсныя мовы паказваюць значна вышэйшы WER — ад 15% да 40%+ нават на чыстым аудыё.


WER для розных мадэляу

Параунальныя вынікі папулярных мадэляу на стандартных бенчмарках (чыстае маулленне, студыйная якасць):

МадэльАнглійскаяРускаяІспанскаяНямецкая
Whisper large-v33–4%5–7%4–5%5–6%
Google Speech-to-Text (V2)4–5%6–8%5–7%6–8%
Azure Speech4–5%6–9%5–7%5–7%
Deepgram Nova-23–4%7–10%5–7%6–8%

Важна: гэтыя лічбы — на чыстым аудыё ва умовах кантролю. На рэальных запісах WER будзе вышэйшым у 1,5–3 разы. Падрабязнае параунанне мадэляу і сэрвісау транскрыбавання для рускай мовы глядзіце у нашым аглядзе рынку.


Абмежаванні WER як метрыкі

Нягледзячы на паусюднае выкарыстанне, WER — далёка не ідэальная метрыка. У яе ёсць істотныя абмежаванні.

Не улічвае пунктуацыю. WER параунувае толькі словы, ігнаруючы коскі, кропкі і іншыя знакі прыпынку. А пунктуацыя можа кардынальна мяняць сэнс.

Не улічвае рэгістр. "Мінск" і "мінск" для WER — адно і тое ж, хаця у тэксце гэта можа быць важна.

Не адрознівае сур'ёзнасць памылак. Замена "канферэнцыя" на "канферэнцыі" (склонавая форма) і замена "ухвалена" на "адменена" лічацца аднолькавымі памылкамі, хаця другая цалкам мяняе сэнс.

Не улічвае нармалізацыю. "15" і "пятнаццаць", "спадар" і "сп.", "%" і "працэнтау" — гэта розныя радкі з пункту гледжання WER, хаця семантычна ідэнтычныя.

WER можа перавышаць 100%. Калі сістэма дадае шмат лішніх слоу (insertions), лічнік можа аказацца большым за назоунік.

Не адлюстроувае чытэльнасць. Тэкст з WER 10%, дзе памылкі раунамерна размеркаваны, можа чытацца лепш, чым тэкст з WER 5%, дзе усе памылкі сканцэнтраваны у адным ключавым абзацы.


Альтэрнатыуныя метрыкі

З-за абмежаванняу WER даследчыкі і распрацоушчыкі выкарыстоуваюць і іншыя метрыкі.

CER (Character Error Rate)

Аналаг WER, але на узроуні асобных сімвалау, а не слоу. Формула тая ж, толькі замест слоу лічацца сімвалы. CER асабліва карысны для моу, дзе словы не раздзяляюцца прабеламі (кітайская, японская, тайская), а таксама для ацэнкі марфалагічных памылак у флектыуных мовах на кшталт беларускай: "білет" vs "білеты" — гэта 100% памылка па WER, але толькі каля 17% па CER.

MER (Match Error Rate)

Нармалізаваная версія WER, якая улічвае адпаведнасць паміж словамі эталону і гіпотэзы. MER заусёды знаходзіцца у дыяпазоне ад 0 да 1.

WIL (Word Information Lost)

Метрыка, якая улічвае не толькі дакладнасць (precision), але і паунату (recall) распазнавання. WIL паказвае, якая доля інфармацыі была страчана.

Суб'ектыуная ацэнка

MOS (Mean Opinion Score) — сярэдняя экспертная ацэнка па шкале ад 1 да 5. Група людзей ацэньвае якасць транскрыпцыі, і іх ацэнкі усярэдняюцца. Гэта дорага і павольна, але найбольш дакладна адлюстроувае рэальную якасць.


Як палепшыць WER для вашых задач

Калі вас не задавальняе якасць транскрыбавання, вось што можна зрабіць — у парадку змяншэння эфектыунасці.

1. Палепшыць якасць аудыё. Гэта самы дзейсны спосаб. Выкарыстоувайце знешні мікрафон, мінімізуйце фонавы шум, запісвайце у ціхім памяшканні. Адзін толькі пераход з убудаванага мікрафона наутбука на петлічку можа знізіць WER на 5–10%.

2. Абраць адпаведную мадэль. Для максімальнай дакладнасці выкарыстоувайце вялікія мадэлі: Whisper large-v3 для мультымоуных задач. Мадэлі меншага памеру (tiny, small) працуюць хутчэй, але і памыляюцца часцей.

3. Прымяніць постапрацоуку. Аутаматычная расстаноука пунктуацыі, нармалізацыя лічбау і абрэвіятур, выпрауленне тыповых памылак — усё гэта паляпшае чытэльнасць тэксту.

4. Выкарыстаць fine-tuning. Калі вы працуеце з вузкаспецыялізаванай лексікай (медыцына, юрыспрудэнцыя, IT), данавучанне мадэлі на вашай тэрміналогіі можа знізіць WER на 20–40% адносна для такіх тэрмінау.

5. Скарыстацца гатовым сэрвісам з аптымізаваным пайплайнам. Сэрвісы накшталт Дыктоукі камбінуюць Whisper large-v3 з дыярызацыяй мауцоу, нармалізацыяй і AI-сумарызацыяй, каб даць максімальна якасны вынік без ручных наладак.


Вынікі

WER застаецца залатым стандартам ацэнкі якасці распазнавання маулення, нягледзячы на свае абмежаванні. Разуменне гэтай метрыкі дапамагае:

  • Свядома выбіраць інструменты транскрыбавання
  • Рэалістычна ацэньваць, чаго чакаць ад ASR-сістэм
  • Прымаць меры для паляпшэння якасці распазнавання
  • Не трапляцца на маркетынгавыя абяцанні "99% дакладнасці"

Памятайце: WER 5% не азначае, што тэкст ідэальны — гэта значыць, што з кожных 20 слоу адно будзе з памылкай. Для кароткіх запісау гэта можа быць непрыкметна, для гадзіннай лекцыі — гэта дзясяткі памылак. Кантэкст, якасць аудыё і правільны выбар інструмента вырашаюць усё.

FAQ

Які WER лічыцца добрым для распазнавання маулення?

WER менш за 5% — выдатная якасць, тэкст можна выкарыстоуваць без праукі. 5-10% — добрая якасць з мінімальнай праукай. 10-20% — прымальна, асноуны сэнс зразумелы. Вышэй за 20% — дрэнная якасць, патрабуе перапраслухоування.

Як разлічыць WER?

WER = (S + D + I) / N x 100%, дзе S — замены (няправільна распазнаныя словы), D — пропускі (прапушчаныя словы), I — устаукі (лішнія словы), N — агульная колькасць слоу у эталонным тэксце.

Чым WER адрозніваецца ад CER?

WER лічыць памылкі на узроуні слоу, а CER (Character Error Rate) — на узроуні асобных сімвалау. CER больш карысны для ацэнкі марфалагічных памылак: замена «білет» на «білеты» — гэта 100% памылка па WER, але толькі каля 17% па CER.

Чаму WER можа перавышаць 100%?

WER можа перавышаць 100%, таму што у лічніку формулы улічваюцца устаукі — словы, якія сістэма дадала, хаця у арыгінале іх не было. Калі устáвак вельмі шмат, лічнік становіцца большым за назоунік. На практыцы такое здараецца рэдка.

Які WER паказваюць сучасныя мадэлі для асноуных моу?

Whisper large-v3 паказвае 3-4% WER на чыстым англійскім аудыё і 5-7% для рускай. На рэальных запісах (нарады, тэлефонныя званкі) чакайце 12-18% з-за шуму, акцэнтау і перабіванняу.

Паспрабаваць бясплатна

Сайт использует cookie

Мы применяем технические cookie для работы сайта и Яндекс.Метрику для обезличенной статистики посещений. Подробности — в уведомлении об использовании cookie и политике обработки персональных данных.