Распознавание речи: как это работает?

Распознавание речи: как это работает?

Каждый из нас хотя бы раз пользовался голосовым помощником, пробовал надиктовать текст в онлайн-переводчик или случайно вызывал Алису Яндекса, упомянув ее имя в разговоре.

В это трудно поверить, но о технологии распознавания речи начали думать 150 лет назад. Известный изобретатель телефона Александр Белл пытался преобразовать слова в картинки, чтобы облегчить жизнь глухой жене, но, к сожалению, его разработки были неудачными. Позже, в 1927 году американец Рой Уэнсли создал робота под названием Мистер Телевокс, который реагировал на звуки разной частоты. Робототехник устраивал эффектные демонстрации, произносил фразу «Сезам откройся», после чего у робота срабатывал механизм, открывающий дверь. Еще одной важной вехой является машина Audrey 1952 года, которую сделали в американском исследовательском центре. Аппарат распознавал цифры от 1 до 9 и был размером со шкаф. А первый коммерческий распознаватель речи появился благодаря компании IBM в 1996 году. Он применялся в медицине и фиксировал то, что диктовал врач. С тех пор технологии сильно изменились.

Рой Уэнсли
Рой Уэнсли со своим роботом

Как работает распознавание голоса в наше время?

Чтобы преобразовать речь в текст или команду, компьютер должен пройти несколько довольно сложных шагов.

Сначала создается шаблон — для этого записывается и оцифровывается образец речи человека. Эти шаблоны накапливаются и формируют обширную базу данных, на которую потом опирается система. При устной речи в воздухе создаются вибрации, чтобы компьютер смог что-то понять, он преобразует их в цифровые данные. Система измеряет звуковые волны, фильтрует оцифрованный звук, удаляет нежелательные шумы и делит его на различные полосы частот.

Затем технология нормализует звук и настраивает его на постоянный уровень громкости, чтобы было легче подставить в шаблон. Сигнал делится на небольшие сегменты и сопоставляется с фонемами, хранящимися в памяти программы. Далее программа сравнивает их с библиотекой известных слов, фраз и предложений, и пытается определить, что же сказал пользователь. Таким образом голосовые помощники воспринимают не слова целиком, а именно фонемы, из которых выстраивается речь.

На видео: Как работает распознавание речи

Как развивались технологии распознавания голоса?

Ранее системы распознавания пытались применить к речи грамматические и синтаксические правила. Программа понимала слова только если они укладывались в определенный набор правил, поэтому она не справлялась со многими трудностями, например, акцентами, диалектами и манерами произношения. Такие системы не могли обрабатывать непрерывную речь, слова нужно было произносить по отдельности, делая между ними паузы.

В современных системах распознавания речи используются сложные методы статистического моделирования. До недавнего времени самой распространенной была так называемая скрытая марковская модель, которой достаточно распознать только часть фонем одного слова, а остальные она подбирает по принципу вероятности, т.е. угадывает слова, опираясь на библиотеку шаблонов. На основе этой модели появились более современные системы, основанные на рекуррентной нейросети. Они тоже базируются на принципе вероятности: если система не узнает отдельные слова из-за шума или других препятствий, то угадывает их, исходя из контекста. Современные нейросети хороши еще тем, что их можно обучать. Достаточно внести в базу сотни вариантов произношения одной фонемы, чтобы у программы не было проблем с разными акцентами.

Нет сомнений, что алгоритмы распознавания голоса будут продолжать набирать популярность. Многим удобно использовать голосовые команды во время вождения или управления умными устройствами в доме. Также они значительно облегчают быт людей, испытывающих проблемы со здоровьем: кому-то трудно набирать текст, а у кого-то нарушен слух. Исследователи различных университетов уверенны, за распознаванием речи — будущее.

Исхаков Максим

Руководитель информационного портала "Безопасник". Директор компании по продаже и установке систем безопасности.

Оцените автора
Портал о системах видеонаблюдения и безопасности
Добавить комментарий