понедельник, 9 августа 2010 г.

РАСПОЗНАВАНИЕ РЕЧИ – ЧАСТЬ 2

3. Основные методы распознавания речи

Одним из основных подходов, используемых при построении речевых распознавателей, является подход, основанный на обработке акустических сигналов, который опирается на следующее положение: поскольку речевой сигнал является особой формой сигнала (или вектором чисел), то к нему применимы общие методы обработки сигналов (например, анализ частотного спектра Фурье, анализ основных составляющих, процедуры статистических решений и другие математические методы). Эти методы используются для того, чтобы установить идентичность входного сигнала одному из шаблонов.
Многие методы математической обработки сигналов (кепстральный анализ, скрытое марковское моделирование) для получения описательных признаков речи используют в основе частотный анализ Фурье или вейвлет-преобразование

3.1. Преобразования Фурье

Речевой сигнал представляется в виде двумерного спектрального временного образа (СВО), получаемого с помощью быстрого преобразования Фурье – рис.1а.
clip_image002

Рис.1. Пример спектрально-временного представления слова «автоформат»: а – СВО; б – ДСВО
Результат отражает изменение по времени амплитуд заданных частотных составляющих речевого сигнала и четко выражает особенности речи, что даёт возможность его использовать для автоматического распознавания произносимых пользователем слов. СВО позволяет выделить местоположение резонансных частот, то есть локальных выбросов, что является определяющей особенностью речевого сигнала. На этом основании СВО можно преобразовать к двоичному виду, не теряя указанных информативных признаков речи, с помощью следующей замены: единица на месте локального выброса, ноль – во всех остальных местах. Полученный образ называют двоичным спектральным временным образом (ДСВО) и используют его как отражение особенностей речевого сигнала – рис.1б. Необходимо отметить, что в данном случае в качестве единицы речи рассматривается одно слово, а набор слов определяет словарный состав речевого общения.

3.2. Вейвлет-преобразование

Вейвлет-преобразование сигналов является обобщением спектрального анализа. Вейвлет-преобразование сигналов является обобщением спектрального анализа. Вейвлет-анализ можно охарактеризовать как спектральный анализ локальных возмущений. Результатом непрерывного вейвлет-анализа некоторого сигнала, заданного функцией f(t), будет функция Wf(a,b), которая зависит уже от двух переменных – от координаты b и от масштаба a.
Строгое определение находиться по формуле (3.1):
clip_image004
(3.1)
Распределение значений коэффициентов Wf(a,b) в пространстве (a,b) дает информацию об эволюции относительного вклада компонент во времени и называется вейвлет-спектром. Спектр Wf(a,b) часто представляют в виде проекции на плоскость (a,b) с изолиниями или изоуровнями, позволяющими проследить изменения интенсивности амплитуд вейвлет-преобразования на разных масштабах и во времени, а также картины линий локальных экстремумов этих поверхностей (так называемый «skeleton»), четко выявляющие структуру анализируемого процесса (рис. 2).
clip_image006
Рис.2. Пример вейвлет-преобразования речевого сигнала фонемы «к»: (а) анализируемый сигнал,
(б) картина коэффициентов Wf(a,b)
На основе этого была строится система распознавания речи. Исходный речевой сигнал сегментируется на фонемы и для каждого сегмента находится скелетон при помощи вейвлета Морле. Полученные признаки сохраняются в базу данных эталонов. Сравнение с эталоном производится при помощи алгоритма динамического программирования, с одновременным временным выравниванием. Совпадение считается по порогу выбранному экспериментально. Средний коэффициент распознавания составляет 73%.[ Леонович]

3.3. Метод нечёткого сопоставления речевых образов

clip_image007clip_image008Для распознавания изолированных слов, нормализованных по времени, часто применяется метод нечёткого сопоставления с эталоном [Бондаренко]. Эталонные образы для каждого слова словаря формируются как среднее арифметическое ДСВО различных вариантов произношения данного слова. В результате формируется бинарное нечёткое отношение между множеством F (номеров частот f) и множеством T (номеров интервалов времени t) в виде F R T, где R – нечёткое отношение, которое ставит каждой паре элементов величину функции принадлежности . .
clip_image009Обозначим число записанных слов через n, множество слов через I = {i1, i2, ..., in}, а множество нечётких отношений, характерных для каждого слова, через R = {r1, r2, ..., rn}. Входной неизвестный образ y рассматривается как обычное (чёткое) отношение между множеством частот и множеством интервалов времени. Для него вычисляются степени сходства Sj с каждым нечётким отношением rj . Результатом распознавания является слово j, такое, что выполнено равенство (3.2):
. (3.2)
Степень подобия вычисляется по формуле (3.3):
clip_image010. (3.3)
В формуле (3.6) числитель и знаменатель вычисляются по формулам (3.4) и (3.5) соответственно:
clip_image011
. (3.4)
clip_image012
. (3.5)

3.4. Использование скрытой Марковской модели

Для распознавания фонем, групп фонем и слов используются такие методы, как скрытая Марковская модель или НММ (hidden Markov modelling), искусственные нейронные сети (ИНС) или их комбинации. Наиболее распространенной и успешно используемой при распознавании фонем и слов является скрытая Марковская модель (НММ). НММ определяется как множество состояний и переходов из одного состояния в другое, то есть конечный автомат. С каждым переходом из состояния i в состояние j связано распределение результирующих (выходных) вероятностей b, которое определяет вероятность того, что при переходе произойдет событие х из пространства наблюдений. То есть если происходит переход, то с определенной вероятностью будут наблюдаться некие выходные данные. Кроме того, с каждым переходом связана вероятность а, представляющая собой вероятность перехода из состояния i в состояние j. Существует множество начальных и множество конечных состояний. Любая последовательность наблюдений является результатом перехода из одного из начальных состояний в одно из конечных. Так как НММ хорошо описывает временные ряды со стохастическими воздействиями, то эта модель обеспечивает близкое к естественному представление речи. НММ можно использовать для представления любой составляющей речевого сигнала – фонем или слов [Зу].
Каждому слову из словаря должна соответствовать своя модель Маркова . В качестве модели мы будем используется left-to-right модель, в которой допускаются переходы только в текущее или в следующее состояние. Такая модель представлена на рис.3.
clip_image014
Рис.3. Модель Маркова
Поскольку каждое слово содержит свое уникальное сочетание звуков, то длина цепочки (количество состояний) у всех моделей, вообще говоря, различно. После назначения параметрам модели начальных значений проводится переоценка всех параметров с целью их улучшения. Для переоценки используют алгоритм, основанный на методе Баума-Уэлша. Переоценка параметров проводится до тех пор, пока параметры не перестанут изменяться.
На тестах было доказано, что основанные на этом подходе системы распознавания речи оказались весьма надежными и эффективными. Гибридные ИНС/НММ распознаватели речи повышают точность традиционных НММ за счет моделирования корреляций между одновременными параметрами речевого сигнала и между текущими и последующими параметрами. Последние работы в рамках этих исследований посвящены моделированию долговременных корреляций и разработке адаптационных подходов, в процессе работы которых происходит адаптация к голосу диктора.

3.5. Использование нейросетевого анализа речевого сигнала

Принципиальная новизна данного метода состоит в использовании островного нейросетевого анализа речевого сигнала в корреляции с выделением устойчивых признаков и применении фонологических и других знаний, основанных на содержательном исследовании процесса произнесения, о структуре речевого сигнала.
Одним из основных свойств данного подхода является использование инженерии знаний «внутри» непрерывных методов. Специально разработанные методы кластеризации элементов позволяют вписывать содержательные оценки в непрерывные схемы.
Любой речевой сигнал можно представить как вектор в каком-либо параметрическом пространстве, затем этот вектор может быть запомнен в нейросети. Одна из моделей нейросети, обучающаяся без учителя – это самоорганизующаяся карта признаков Кохонена. В ней для множества входных сигналов формируется нейронные ансамбли, представляющие эти сигналы. Этот алгоритм обладает способностью к статистическому усреднению, т.е. решается проблема с вариативностью речи. Как и многие другие нейросетевые алгоритмы, он осуществляет параллельную обработку информации, т.е. одновременно работают все нейроны. Тем самым решается проблема со скоростью распознавания – обычно время работы нейросети составляет несколько итераций.
Далее, на основе нейросетей легко строятся иерархические многоуровневые структуры, при этом сохраняется их прозрачность (возможность их раздельного анализа). Так как фактически речь является составной, т.е. разбивается на фразы, слова, буквы, звуки, то и систему распознавания речи логично строить иерархическую.
Наконец, ещё одним важным свойством нейросетей (а на мой взгляд, это самое перспективное их свойство) является гибкость архитектуры. Под этим может быть не совсем точным термином я имею в виду то, что фактически алгоритм работы нейросети определяется её архитектурой. Автоматическое создание алгоритмов – это мечта уже нескольких десятилетий. Но создание алгоритмов на языках программирования пока под силу только человеку. Конечно, созданы специальные языки, позволяющие выполнять автоматическую генерацию алгоритмов, но и они не намного упрощают эту задачу. А в нейросетях генерация нового алгоритма достигается простым изменением её архитектуры. При этом возможно получить совершенно новое решение задачи. Введя корректное правило отбора, определяющее, лучше или хуже новая нейросеть решает задачу, и правила модификации нейросети, можно в конце концов получить нейросеть, которая решит задачу верно. Все нейросетевые модели, объединенные такой парадигмой, образуют множество генетических алгоритмов. При этом очень четко прослеживается связь генетических алгоритмов и эволюционной теории (отсюда и характерные термины: популяция, гены, родители-потомки, скрещивание, мутация). Таким образом, существует возможность создания таких нейросетей, которые не были изучены исследователями или не поддаются аналитическому изучению, но тем не менее успешно решают задачу.
Разработанные методы позволяют идентифицировать слова из ограниченного словаря, произнесенные произвольным диктором. Независимость от диктора дает возможность на основе разработанных методов строить системы речевого управления прикладными программами. Ошибка распознавания при словаре в 200 слов не превышает 2 % [Арлазаров].

Комментариев нет:

Отправить комментарий