Распознавание речи

VoiceCom – технология распознавания голосовых команд. Позволяет реализовать функцию голосового управления компьютером или электронной техникой.

Проблема речевого общения человека и машины заключается в том, чтобы научить устройство понимать без посредника тот язык, на котором говорят люди между собой, то есть разработать алгоритм распознавания звукового сигнала речи.

Первые появившиеся на рынке системы распознавания были системами дикторозависимого распознавания команд. В таких системах звуковой образ команды хранится в виде целостного эталона. Для сравнения неизвестного произнесения и эталона команды используется алгоритм динамического программирования. Эти системы хорошо работали при распознавании небольших наборов из 10-30 команд и понимали команды только одного диктора, на речь которого были настроены, то есть были дикторозависимыми.

Для того чтобы системы распознавания речи научились понимать слитную речь, необходимо было перейти к словарям гораздо больших размеров, от нескольких десятков до сотен тысяч слов. Методы, использовавшиеся в разработанных системах, не подходили для решения этой задачи, так как просто невозможно создать эталоны для такого количества слов.

Также актуальна проблема дикторонезависимости, то есть способности системы быть универсальной, понимать речь любого человека. Сложность этой задачи заключается в уникальности речи каждого человека: манера произнесения, темп речи, тембр голоса, особенности произношения. Эти различия называют вариативностью речи. Для ее учета в разрабатываемых технологиях стали использоваться новые статистические методы, опирающиеся в основном на математические аппараты Скрытых Марковских Моделей (СММ) или Искусственных Нейронных сетей. Вместо создания эталонов для каждого слова, были приняты эталоны отдельных звуков, из которых состоят слова, так называемые акустические модели. Акустические модели формируются путём статистической обработки больших речевых баз данных, содержащих записи речи сотен людей.

Кроме учета информации о звуке, заложенной в акустической модели, необходимо учитывать информацию и о языке. Между словами в предложении существует большое количество связей: грамматических, синтаксических и семантических. Для описания этих связей разрабатывается языковая модель, которая для каждого языка имеет свою особую структуру и параметры.

Применение систем автоматического распознавания речи

Наиболее очевидное использование системы распознавания слитной речи заключается в создании систем автоматического стенографирования, которые могут заменять секретарей при диктовке голосом текстов писем, заметок в ежедневник, докладов. В таком случае происходит не только экономия за счет сокращения работы стенографиста, но и повышение степени конфиденциальности информации. На данный момент подобные системы в лучшей степени реализованы для английского языка (с большим количеством ограничений по применению), системы распознавания слитной русской речи находятся на стадии активной разработки.

Известно, насколько неудобно и опасно использование мобильных телефонов с обычным (тактильным) способом набора номера за рулем. Во многих странах приняты законы о запрете использования водителями таких телефонов с целью сокращения количеств ДТП. Поэтому в последнее время популярностью пользуются мобильные телефоны с голосовым набором, избавляющие пользователя от необходимости набирать нужный номер вручную. Достаточно произнести имя абонента, и соединение произойдет автоматически. В таком телефоне все функциональные и цифровые кнопки также заменены голосовыми командами, и при использовании за рулем автомобиля он оказывается безопаснее не только обычных мобильных телефонов, но и мобильных телефонов с гарнитурой hands-free. Аудиосистемы контроля и управления уже применяются в автомобилях некоторых марок. Владелец автомобиля голосом подает команды управления температурным режимом, радио, навигационной системой, которые воспринимают голос и выполняют команды (DIVO и VoiceCommander).

Системы автоматического распознавания речи активно применяются в call-центрах. Как правило такие системы носят название IVR-систем (Interactive Voice Response). IVR-системы позволяют автоматизировать диалог с клиентом, в результате чего отпадает необходимость нанимать огромное количество операторов, принимающих телефонные звонки, и сокращаются расходы на содержание персонала. Вдобавок улучшается качество обслуживания клиентов, так как соединение с машиной осуществляется практически сразу, избавляя клиентов от длительного ожидания освободившегося оператора на линии. IVR-система позволяет осуществлять выбор меню не тональным набором, а голосовыми командами, что значительно упрощает работу с клиентами. Для того чтобы получить необходимую информацию, абоненту больше не обязательно прослушивать до конца весь перечень предлагаемых услуг, с надеждой поскорее услышать нужную. Дозвонившись, человек может попасть на любой уровень меню, произнеся лишь одну фразу, что значительно экономит время. Сегодня многие крупные компании уже перешли или переходят на использование IVR-систем.

Системы распознавания речи открывают такие возможности, которые были недоступны при использовании тонального набора. Например, для службы бронирования билетов по телефону: количество городов настолько обширно, что тональное меню здесь нереализуемо. В то же время система распознавания речи сможет обеспечить максимально естественное общение.

На основе распознавания речи создаются видеоигры с голосовым управлением героями, разрабатываются словари и переводчики с голоса на голос, реализуются сложные системы диалога человека с компьютером.