вторник, 10 августа 2010 г.

РАСПОЗНАВАНИЕ РЕЧИ – ЧАСТЬ 3

4. Области применения систем распознавания речи

В настоящее время системы распознавания голоса получили широкое распространение как в различных приложениях, так и будучи встроенными во всевозможные устройства.

4.1 Использование систем распознавание речи в компьютерных приложениях

Для многих людей, мало использующих компьютер, процесс общения с ним не является интуитивным. При каждом новом использовании компьютера им приходится прилагать большое количество усилий и затрачивать много времени для выполнения несложных операций. Это происходит из-за того, что в большинстве программ интерфейс перегружен бесполезными возможностями настолько, что с ним почти невозможно работать человеку, не привыкшему к подобным программам (например, с более-менее серьезными графическими редакторами невозможно начать работать без предварительной подготовки). Пользователи не могут просто сформулировать, чего они хотят, им приходится заучивать устаревшие команды или далеко не интуитивные процедуры. Также современные устройства управления компьютером – мышь и клавиатура – по большому счету не являются удобными, так как принуждают оператора находиться в одной и той же позе в течение долгого времени. Современные системы распознавания речи заставляют компьютер адаптироваться к человеку, а не наоборот. Преимущество систем распознавания речи еще и в том, что они намного быстрее любых других типов интерфейсов. Например, голосовая программа электронной почты позволяет включить компьютер, продиктовать и послать сообщения, даже не прикасаясь к мыши или клавиатуре. А что еще более важно, так это то, что люди с физическими недостатками смогут более эффективно взаимодействовать с компьютером. С системой распознавания голоса слепые или те, кто по каким-либо причинам не может пользоваться клавиатурой, могут общаться с компьютером не хуже остальных в случае, если компьютер будет выдавать реакцию на запросы также в звуковой форме, что может быть легко организовано.
Хорошим примером использования распознавания речи в компьютерных программах является оказание оперативных информационных услуг. В наше время компьютеры, подключенные к Интернету, могут выдать фактически любую необходимую пользователю информацию, однако зачастую для этого требуются весьма утомительные поиски информации в сети. Однако если компьютер может адекватно воспринимать речь человека, то процесс извлечения необходимой информации упрощается в разы. Пользователь путем диалога с компьютером может давать все новые и новые команды, которые шаг за шагом будут вести его к цели. Наиболее типичным примером является работа с базами данных, которая в общем случае является весьма утомительным процессом, но с использованием системы распознавания речи существенно упрощается, процесс показан на рис.4.
clip_image001
Рис.4. Обращение к базе данных
Пользователь с помощью микрофона посылает запрос на получение из базы данных с расписанием всех авиа-перелетов о том, что ему требуются все доступные рейсы из одного города в другой. В компьютере в режиме фоновой работы действует встроенный распознаватель речи, обрабатывающий запрос с точки зрения некоторого специального словаря команд, заранее известного машине. Голосовой запрос преобразуется в обычный запрос к базе данных, далее результаты запроса отображаются на дисплее. В рамках данного примера необходимо еще раз отметить, что пользователю не требуется никаких специальных знаний ни по обращению к базе данных, ни по составлению голосового запроса – программа-распознаватель речи сама вычленит из его речи существенную информацию.
Особенно подобные системы облегчили бы работу с публичными базами данных, например, с базой данных доступных билетов на железнодорожных вокзалах, где в нынешнее время используется ввод с клавиатуры.

4.2 Использование встроенных систем распознавания речи.

Уже многие годы голосовые диктофонные системы, предназначенные для представителей определенных профессий, например врачей и юристов, можно найти на рынке программных продуктов. Многие представители этих профессий используют системы распознавания речи в повседневной работе. Технология распознавания голоса быстро изменила рынок телефонных услуг, она фактически превращает телефон в удаленное периферийное устройство, обеспечивающее доступ к компьютерной системе. Стали популярны активируемые голосом приборы и приспособления. Например, на одной из последних выставок достижений компьютерной техники был представлен автомобиль со встроенной голосовой системой управления.
clip_image003
Рис.5. Встроенное устройство голосового управления автомобилем
Небольшая светло-серая панель в центре рис.5 является устройством, принимающим голосовые команды водителя. В автомобиле есть встроенная операционная система, анализирующая и обрабатывающая запросы. Подобная конструкция вносит существенные улучшения в процесс управления автомобилем и в то же время повышает безопасность ведения автомобиля. В критической ситуации человек, управляющий обыкновенным автомобилем, может растеряться и не выполнить действий, необходимых для того, чтобы избежать аварии. В машине, оснащенной голосовым управлением, ему достаточно сказать, что делать, и все действия будут выполнены автоматически. В данном случае критична быстрота реагирования и точность работы системы распознания речи.
Существует тенденция к созданию комбинированных систем распознавания голоса и изображения. Подобные системы позволяют идентифицировать человека и, таким образом, повысить безопасность выполнения, например, банковских операций. Если банкомат оснащен базой данных с фотографиями и образцами голоса, то человек не сможет воспользоваться чужой кредитной карточкой, таким образом, отпадет необходимость в различного рода паролях, которые получили широчайшее распространение в наше время.
5. Структура рынка систем распознавания речи
Рынок речевого распознавания, с точки зрения сферы применения, распадается на несколько сегментов: телекоммуникационный рынок (IVR, Сall Сentre),рынок мультимедийных программ (системы диктовки, автоматические транскрипторы для медицины и судебного дела), рынок систем автомобильной навигации и оборудования со встроенным распознаванием (электронные переводчики, КПК и смартфоны). Клиентами в телекоммуникационном сегменте являются операторы связи, банки, страховые компании, ритейл, транспортные компании. На рынке мультимедийных программ – судебные и медицинские учреждения, производители ноутбуков и операционных систем; на рынке бортовых устройств управления автомобилем – автомобильные концерны; на рынке оборудования – производители мобильных телефонов, КПК и электронных переводчиков. Каждое из этих направлений предъявляет свои требования к технологии распознавания. Например, в системах диктовки распознавание не обязательно должно быть шумоустойчивым, допустима также ситуация, при которой отдельные слова распознаются неверно, ведь существует возможность подправить текст в дальнейшем. Системы распознавания речи в телефонных каналах связи в первую очередь должны отвечать требованиям надежности, справляться с искажениями и обладать высокой производительностью с целью обработки нескольких запросов в режиме реального времени. Структура рынка технологии распознавания речи достаточно прозрачна. Небольшое количество компаний занимаются созданием базовой технологии: записывают звуковые базы данных, программируют математические модели, изучают особенности речи на конкретном языке, взаимодействуют со специализированными образовательными учреждениями, содержат штат научных сотрудников. На западном рынке к таким компаниям можно отнести Nuance, Acapela, Loquendo, LumenVox, Telisma. На российском телекоммуникационном рынке, насколько нам известно, представлено предложение только от компании Nuance. Вторая группа игроков – производители так называемых платформ. Эти компании создают программно-аппаратные комплексы, на основе которых возможна реализация различных телекоммуникационных сервисов (ЦОВ, IVR-услуги). Данная группа игроков взаимодействует с производителями технологии распознавания речи и встраивает ее в свои продукты. В качестве примера таких компаний можно помянуть Nortel, Genesys, FrontRange и Lucent. Третья группа игроков – системные интеграторы. Эти компании предлагают рынку полный комплекс услуг по инсталляции и сопровождению программно-аппаратных комплексов, которые построены на базе платформ и компонентов, предоставляемых второй группой игроков. К компаниям этой группы, работающим на территории России, можно отнести CompTek. Среди западных игроков упомянем ActiveVoice Seven, Fluency, Intervoice, VoiceObjects. [Смирнов]
На рис.6 представлено мнение специалиста, которое подтверждает наши слова.
clip_image005
Рис.6. Мнение специалиста Юношевй Ирины.

6. Развитие систем распознавания речи

Три основных проблемы стоят на пути доведения систем распознавание речи до идеального качества работы:
1. Большие объемы словарей;
2. Восприятие непрерывной речи;
3. Различные акценты и произношения.
Видно, что наличествующие сейчас проблемы фактически ничем неотлиаются от проблем, которые существовали десять лет назад. Современные системы в состоянии частично решить их, но при этом потребляя существенные ресурсы. Фактически качество современных методов пропорционально количеству потребляемых ресурсов – например, если требуется, чтобы адаптивная система распознавала слова с более высоким качеством и точностью, она должна иметь более объемную базу данных, содержащую образцы слов или фонем. Это основные препятствия для идеальной работы автоматизированных систем распознавания речи, но есть еще и другие проблемы – например, понимание семантики речи. Объемы словарей определяют степень сложности, требования к вычислительной мощности и надежность систем распознавания голоса. Можно приспособиться к непрерывному потоку речи, но есть еще и строгие семантические правила, которым необходимо следовать, чтобы система смогла понять семантику комбинаций слов в предложениях. Фактически сейчас является невозможным сделать систему, которая будет воспринимать и даже исправлять речь человека, неправильно строящего предложения. Необходимо продолжать основательные исследования, только это позволит «справиться» с такими характеристиками речи, как морфология, акценты, высота звука, скорость, громкость, сливающиеся слова, контекст, артикуляция, лингвистическая информация, синонимы и так далее. Ожидается, что основным направлением развития станет моделирование языков для использования в системах распознавания речи.
Не решена окончательно и проблема отделения речевого сигнала от шумового фона. В настоящее время пользователи систем распознавания голоса вынуждены либо работать в условиях минимального шумового фона, либо носить шлем с микрофоном у самого рта. Кроме того, пользователям приходится «информировать» компьютер о том, что они к нему обращаются. Для этого обычно надо нажать кнопку или сделать что-то в этом роде. Конечно, это весьма неудачный вариант пользовательского интерфейса. Решение этих проблем началось, и уже получены многообещающие результаты. Одна из долгожданных разработок в области распознавания голоса – это человеко-машинные диалоговые системы; такими системами занимаются во многих университетских исследовательских лабораториях. Подобные системы способны работать с непрерывным речевым потоком и с неизвестными дикторами, понимать значения фрагментов речи (в узких областях) и предпринимать адекватные ответные действия. Эти системы работают в реальном времени и способны выполнять пять функций по телефону:
1. Опознание речи – преобразование речи в текст, состоящий из отдельных слов;
2. Понимание – грамматический разбор предложений и распознавание смыслового значения;
3. Восстановление информации – получение данных из оперативных источников на основании полученного смыслового значения;
4. Генерация лингвистической информации – построение предложений, представляющих полученные данные, на выбранном пользователем языке;
5. Синтез речи – преобразование предложений или текста в синтезированную компьютером речь.
Диалоговый интерфейс в таких системах позволяет человеку разговаривать с компьютером, создавать и получать информацию, решать любые задачи, которые ему необходимы. Системы с диалоговым интерфейсом различаются по уровню инициативности человека или компьютера. Исследования фокусировались на «смешанно инициативных» системах, в которых и человек, и компьютер играют одинаково активную роль в достижении цели посредством диалога.
Другая область, в которой идет активное использование технологий распознавания речи – робототехника. Создание человекоподобного робота в обязательном порядке требует от него возможность свободно воспринимать человеческую речь. Для этого потребуется создание системы распознавания речи, которая сможет свободно воспринимать речь произвольного человека с любым тембром и темпом. Подобная система потребует решения всех вышеперечисленных проблем на самом высоком уровне. Современные роботы обладают встроенными системами распознавания речи, позволяющими им воспринимать отдельные слова и даже фразы, однако эти системы пока что ничем не лучше тех, которые встраиваются в различные другие устройства. На рис.6 показано, как девушка разговаривает с роботом, и в этом уже нет ничего удивительного.
clip_image007
Рис.6. Расположение микрофонов в одном из современных роботов
Дополнительные трудности для распознавания создает наличие, например, нескольких говорящих людей. Данный робот для опознания говорящего использует не только систему микрофонов, но и камеры.
С появлением и последующим развитим, которое получили системы распознавания речи, идея «говорящего» компьютера перестала быть фантастикой. Однако не следует забывать, что речь - это одно из проявлений высшей нервной деятельности человека, и поэтому вряд ли в ближайшие несколько лет стоит ожидать появления систем распознавания речи, по эффективности и удобству сравнимых с секретарем-машинисткой, печатающей "со слов".

1 комментарий:

  1. Мне кажется, что автор несколько преувеличил возможности "долгожданных разработок ...во многих университетских исследовательских лабораториях".
    Несмотря на огромный пласт публикаций по вопросам понимания текстов, до серьёзного коммерческого применения ничего не доходит. Мы длительное время исследовали эту проблему и начинаем публиковать некоторые теоретические результаты http://cogniprog.blogspot.com и описания состояния наших разработок http://groups.google.ru/group/proj-logrus. Интересующихся - приглашаю

    ОтветитьУдалить