Введение
Задача технологии автоматического распознавания речи – предоставить пользователю естественный интерфейс взаимодействия с компьютером или механическим устройством. Первыми о такой возможности задумались писатели-фантасты, которые наделили роботов будущего способностью понимать людей. Начиная с середины прошлого столетия ученые приложили немало усилий для того, чтобы это будущее стало реальностью. И пусть машины по-прежнему не наделены полноценным искусственным интеллектом, технология распознавания речи уже сегодня способна решать повседневные задачи не менее эффективно, чем человек.Речь - это самое прямое и интуитивно понятное средство общения между людьми, которое могло бы быть мостом между человеком и машиной. Диалог с компьютерами, роботами, автоматизированными системами управления с помощью речевых сообщений открывает большие перспективы:
· Простота общения с системой (использование речевого интерфейса не требует специальной подготовки);
· Доступность речевого интерфейса людям с нарушениями опорно-двигательного и зрительного аппарата;
· Возможность работы пользователей в условиях перегруженности зрительного канала.
В связи с увеличением интенсивности обмена информацией в системе «человек-компьютер» особое значение имеет снижение нагрузки на зрительный канал человека. Например, в системах управления востребованной является идея голосового контроля и управления состоянием системы (речевое общение для контроля состояния работы самолета, телефон без кнопок, речевое управление производственными процессами). Внедрение голосового интерфейса оставит глаза и руки оператора (водителя, пилота, рабочего) свободными от перегрузки, что повысит надёжность и качество управления. Использование речевого диалога в системах массового обслуживания также актуально – такие системы повышают коммерческую выгоду, как за счёт привлечения дополнительной клиентуры, так и путём замены человека-оператора компьютерными системами с голосовым интерфейсом [Жожикашвили].
Распознавание голоса происходит следующим образом: при помощи воспринимающих и оцифровывающих устройств, а затем машинной обработки снимается речевой сигнал и преобразуется в цифровую форму. Далее сигнал разбивается на неделимые интервалы, называемые фонемами. Фонемы – это фактически неделимые единицы звука, их последовательность составляет слоги, которые, в свою очередь, образуют слова, те агрегируются в предложения, а из предложений состоят сообщения и команды, которые требуется передать от пользователя к компьютеру. Можно утверждать, что фонема – это звук, образованный некоторым сочетанием букв. После получения набора слов и предложений начинается обработка естественного языка, слова разбивается на логические единицы – фразы. Это делается на основе лингвистической информации, шаблонов речи и иногда – на основе априорных знаний о предмете разговора. Далее полученные фразы анализируются и переводятся в действительные команды, адресованные компьютерной системе либо целевому приложению.
Уже многие годы голосовые команды являются одной из опций программного обеспечения персональных компьютеров – это типичный пример использования техники распознавания голоса. Стандартная программа принятия и распознания голосовых команд включена во все последние версии операционной системы Windows. Многие коммерческие программы распознавания голоса успешно функционируют в системах, разнящихся от справочных столов до записи медицинских процедур. Эта технология повысила эффективность работы телефонных центров обработки заказов и позволила многим компаниям увеличить объемы получаемых доходов. Рынок коммерческих систем распознавания голоса в последнее время продолжает увеличиваться с впечатляющей скоростью. Одна из причин такого роста – потребность обычных пользователей современных компьютеров. Также росту способствует многократное увеличение мощности процессора и объема памяти среднего компьютера. Увеличение количества фирм, работающих в данной отрасли, снизило среднюю стоимость систем распознавания речи для приемлемого обычному пользователю уровня.
1. История распознавания речи
Процесс разработки технологии распознавания речи ученые начали с освоения методики выделения информативных признаков, описывающих речевой сигнал (спектральный анализ Фурье, метод линейного предсказания). Затем приступили к решению задачи распознавания фиксированного набора голосовых команд путем попарного сравнения входящего звукового сигнала с базой данных эталонов, хранящихся в памяти компьютера. (Кстати, именно такая технология сейчас применяется в большом количестве «бюджетных» мобильных телефонов: вы заранее записываете в память телефона команды, а затем, повторяя их, можете вызвать ту или иную функцию.) В силу своей простоты описанный метод хорошо подходил только для распознавания команд, произнесенных голосами ученых, ее создававших, т. е. был дикторозависимым. К тому же большое количество сравнений существенно повышало ресурсоемкость данного подхода.Решение проблемы зависимости от диктора, конечно, было найдено. На первый план вышли статистические алгоритмы, основанные на обработке большого количества звуковых данных – записей голосов десятков и сотен
дикторов. Ученые предложили несколько подходов, среди которых широкое распространение получили нейронные сети и скрытые марковские модели. Нейронные сети обладают большой статистической силой, поскольку позволяют автоматически настроить систему для эффективного различения набора распознаваемых слов, однако цепочки слов, а также слова, произносимые с разным темпом, нейронные сети идентифицируют плохо. Скрытые марковские модели, напротив, успешно моделируют последовательность из нескольких слов и практически не зависят от темпа произнесения. Другой плюс марковских моделей – высокое быстродействие. Кроме того, они позволили ученым подойти к решению более сложной задачи – распознавание произвольной слитной речи. Из науки о языке известно, что наша речь строится из ограниченного набора минимальных звуковых составляющих – фонем (фонов, трифонов), а значит, каждое слово можно представить в виде последовательности из нескольких фонем. Таким образом, не нужно хранить записи каждого слова – достаточно создать значительный корпус записей речи немалого количества дикторов, который бы позволил получить статистически достоверное описание всех звуков, встречающихся в речи. В 1980-х – 1990-х гг. были накоплены огромные речевые корпусы, однако в основном для английского языка. Были разработаны мощные программы, которые могли идентифицировать сказанное с приемлемой точностью – порядка 80%. Эти программы позволяли преобразовать произнесенные предложения в текст или использовать их в качестве команд, набор которых хранился в памяти компьютера. Сложности распознавания, связанные с разницей в произношении, манерой говорить и шаблонами речи, остались, однако увеличение мощности компьютеров на несколько порядков помогло существенно приблизиться к идеальному решению этих проблем.
На сегодняшний день большинство коммерческих систем распознавания речи опираются именно на описанную выше технологию. Есть также удачные примеры объединения марковских моделей с нейронными сетями.
2. Особенности систем распознавания речи
В данном параграфе будут рассмотрены основные технические особенности систем, обеспечивающих распознавание речи. Для современных систем чрезвычайно важны следующие факторы:· Независимость от диктора – способность системы распознавать слова без персональной настройки компьютера путем повторения одного и того же речевого сигнала.
· Непрерывность речи – возможность, позволяющая пользователям говорить естественно (непрерывно), не делая паузы между словами.
· Размер словаря – способность обрабатывать большое количество слов как общей, так и специальной категории из технических и предметных областей знаний с целью увеличения мощности и эффективности систем распознавания голоса.
2.1. Независимость от диктора
Сегодня существуют два основных вида технологий распознавания голоса. Один из них – это распознавание речи, зависящее от диктора. Чаще всего системы, зависящие от диктора (их иногда называют голосозависимыми), предназначены для одного конкретного пользователя, например, для человека, постоянно использующего свой компьютер. Такие системы обычно проще разрабатывать, они дешевле и работают более точно, но они не столь гибки, как голосонезависимые программы, к тому же их переконфигурирование на другого пользователя является весьма сложным, а иногда и невозможным процессом. Второй тип технологий – это распознавание речи, не зависящее от диктора, то есть система способна распознать любую речь, независимо от того, кто говорит. Голосонезависимые системы разрабатываются для любого пользователя, использующего определенный диалект (например, американский английский). Это самые сложные в разработке и самые дорогие системы, к тому же точность распознавания у них ниже. Однако подобные системы более гибки. Существуют также адаптивные системы – они каждый раз приспосабливаются к характеристикам нового диктора. Уровень сложности их разработки лежит где-то посередине между голосонезависимыми и голосозависимыми системами. Каждый новый пользователь системы должен сначала научить ее распознавать именно его голос, только после этого возможно нормальное функционирование. Для этого новому пользователю чаще всего предлагается прочесть какой-нибудь заранее известный системе отрывок текста, повторяя некоторые слова в случае, если они не были сразу распознаны. После некоторой «тренировки» система в состоянии идентифицировать любые слова данного пользователя [Зу].2.2. Непрерывность речи
Системы распознавания изолированных слов работают с дискретными словами – в этом случае требуется пауза между словами. Это самая простая форма распознавания, так как в этом случае легко определяется конец речевого сигнала, а произношение слова не затрагивает другие слова. Поскольку в этих системах количество слов постоянно, то их значительно легче разрабатывать. Системы распознавания непрерывного речевого сигнала работают с речевым потоком, в котором слова не разделены паузой фиксированной длительности. Непрерывную речь обрабатывать гораздо сложней по целому ряду причин. Во-первых, трудно определить начало и конец слова. Вторая проблема – это коартикуляция. На звучание каждой фонемы влияет звучание соседних фонем, а на начало и конец слов влияют предыдущие и последующие слова. Распознавание непрерывной речи зависит также от скорости речи – с быстрой речью работать сложнее, чем с медленной [Зу].2.3. Размер словаря
Размер словаря системы распознавания голоса влияет на степень сложности, требования к процедурам обработки и точность системы. Одним системам для работы необходимо всего несколько слов (например, только числа для голосового набора номера), а другие работают с очень большими словарями (например, программы, преобразующие речь в текст). Четких градаций объемов словарей нет. Но обычно словари классифицируются следующим образом:1. Маленькие словари – количество слов порядка нескольких десятков;
2. Средние словари – порядка сотни слов;
3. Большие словари – несколько тысяч слов;
4. Очень большие словари – десятки тысяч слов.
Существуют еще две проблемы, связанные с объемом словарей. Одна из них касается разработки и обеспечения доступа к специальным базам данных – необходимо обеспечить удобное хранение подобной базы и возможность обновления данных для специальных групп пользователей различных профессий, например в медицинской или правовой сфере. Вторая проблема – проверка грамматики, ведь программы разрабатываются не только для записи продиктованных слов, но и зачастую имеют встроенные функции проверки и исправления структур предложений.
Таким образом, можно сделать вывод, что современные системы распознавания голоса требуют существенных даже по нынешним меркам компьютерных ресурсов. С распознаванием голоса тесно связаны две технологии:
1. Цифровая обработка сигналов;
2. Распознавание образов.
С помощью цифровой обработки сигналов чаще всего осуществляется преобразование считанного с микрофона акустического сигнала в цифровой формат и любые другие представления, непосредственно обрабатываемые системой распознавания речи. Методы распознавания образов используются при выделении и распознавании отдельных слов или предложений речевого потока, а в некоторых случаях и для идентификации говорящего. Кроме этого, понадобится лингвистическая теория – в ней заложены фундаментальные концепции и принципы распознавания речи и понимания языка. В следующем параграфе будут рассмотрены некоторые методы, используемые в процессах распознавания голоса.
Комментариев нет:
Отправить комментарий