textarchive.ru

Главная > Лабораторная работа


Методы распознавания речи

Хотя термин «распознавания речи» встречается в литературе очень часто, на самом деле он имеет много различных значений. Далее будут рассмотрены различные трактовки этого термина и краткий обзор существующих методик распознавания речи.

Как правило, в существующих системах используются два принципиально разных подхода:

  • распознавание голосовых меток;

  • распознавание лексических элементов.

Первый подход предполагает распознавание фрагментов речи по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для исполнения заранее записанных речевых команд.

Второй подход сложнее. При его реализации из потока речи выделяются отдельные лексические элементы — фонемы и аллофоны, которые затем объединяются в слоги и морфемы.

Все системы распознавания речи можно разделить на два класса:

  • системы, зависимые от диктора (дикторозависимые);

  • системы, не зависимые от диктора (дикторонезависимые).

Системы первого класса настраиваются на речь диктора в процессе обучения. Для работы с другим диктором такие системы требуют полной перенастройки.

Ко второму классу относятся системы, работа которых не зависит от диктора. Такие системы не требуют предварительного обучения и способны распознавать речь любого диктора.

Нужно отметить, что создание систем распознавания речи любого класса, пригодных для промышленного применения, представляет собой чрезвычайно сложную задачу. Как правило, разработчики таких систем обладают многолетним опытом в практическом применении речевых технологий.

    1. Распознавание по образцу

Рассмотрим простейшую систему распознавания речи. Подобные системы распознавания речи присутствуют в большинстве мобильных телефонов.

При добавлении нового контакта в записную книжку Вам предоставляется возможность ввести голосовую метку, идентифицирующую этот контакт, например, произнести в телефон имя или фамилию абонента. Иногда это необходимо повторить два или три раза.

Теперь, чтобы позвонить абоненту, достаточно нажать одну из кнопок, расположенных на корпусе мобильного телефона, и произнести голосовую метку. Номер абонента будет выбран из записной книжки, после чего мобильный телефон попытается установить с абонентом связь.

Помимо мобильного телефона, существуют и другие устройства с подобным голосовым управлением, например, компьютерные клавиатуры. Такие клавиатуры оборудуются встроенным микрофоном и позволяют назначить голосовые метки определенным клавишам, комбинациям клавиш или последовательностям клавиш. Разработчики клавиатур с голосовым интерфейсом утверждают, что с его помощью можно ускорить ввод информации, однако качество распознавания голосовых меток зависит, например, от общего уровня шума в комнате.

Технология распознавания фрагментов по заранее записанным образцам применяется и во многих программах, позволяющих подключить голосовое управление к операционной системе Microsoft Windows и ее приложениям. При использовании этих программ можно запускать приложения, переключаться между ними, выбирать строки из меню и щелкать кнопки диалоговых окон, отдавая голосовые команды и не притрагиваясь руками к клавиатуре или мыши. Возможно, такие программы и не намного ускорят работу с приложениями для обычных людей, но они отчасти помогут инвалидам, неспособным использовать стандартные средства общения с компьютером.

Эта технология работает достаточно хорошо, если телефоном пользуется только один человек, а общее количество голосовых меток не превышает десяток-другой. Если телефон «обучен» реагировать на конкретный голос, то только обладатель этого голоса сможете пользоваться речевыми метками. Таким образом, эти системы относятся к классу систем, зависимых от диктора. Однако этот недостаток есть у многих более совершенных систем распознавания речи, основанных на выделении из речи лексических элементов.

    1. Выделение лексических элементов

В ходе осциллографических исследований было выявлено, что невозможно выделить из речи фонемы и аллофоны, анализируя только форму огибающей звукового сигнала. Нельзя ограничиться составлением базы данных из записей звуковых сигналов всех фонем, аллофонов и других лексических элементов для последующего сравнения формы сигналов в процессе распознавания. Здесь нужны более сложные методы.

Предварительная обработка звуковых сигналов

Прежде, чем начинать непосредственное распознавание речи, нужно выполнить предварительную обработку речевого сигнала. В ходе этой обработки следует удалить шумы и посторонние сигналы, частотный спектр которых находится вне спектра человеческой речи. Такую обработку можно выполнить при помощи аналоговых или цифровых полосовых фильтров.

Отфильтрованный звуковой сигнал нужно оцифровать, выполнив аналого-цифровое преобразование.

Всю предварительную обработку звукового сигнала можно сделать при помощи стандартного звукового адаптера, установленного в компьютере. Дополнительная цифровая обработка звукового сигнала (например, частотная фильтрация) может выполняться центральным процессором компьютера. Таким образом, при использовании современных персональных компьютеров системы распознавания речи не требуют для своей работы какого-либо специального аппаратного обеспечения.

Важным этапом предварительной обработки входного сигнала является нормализация уровня сигнала. Это позволяет уменьшить погрешности распознавания, связанные с тем, что диктор может произносить слова с разным уровнем громкости.

Нужно отметить, однако, что если входной звуковой сигнал имеет слишком малый уровень громкости, то после нормализации может появиться шум. Поэтому для успешной работы системы распознавания речи необходимо отрегулировать оптимальным образом чувствительность микрофона. Чрезмерная чувствительность может привести к нелинейным искажениям сигнала и, как следствие, к увеличению погрешности распознавания речи.

Выделение информативных признаков речевого сигнала

Как говорилось ранее, информации об амплитуде и форме огибающей речевого сигнала не достаточно для выделения из речи лексических элементов. В зависимости от различных обстоятельств форма огибающей речевого сигнала может меняться в широких пределах, что затрудняет задачу распознавания.

Для решения задачи распознавания необходимо выделить первичные признаки речи, которые будут использованы на последующих этапах процесса распознавания. Первичные признаки выделяются посредством анализа спектральных и динамических характеристик речевого сигнала.

Спектральное представление речи

Во многих случаях для выделения информативных признаков речевого сигнала используется спектральное представление речи. При этом на первом этапе осуществляется получение частотного спектра речевого сигнала с помощью набора программных полосовых фильтров (выполняя дискретное преобразование Фурье).

На втором этапе выполняются преобразования полученного спектра речевого сигнала:

  • логарифмическое изменение масштаба в пространстве амплитуд и частот;

  • сглаживание спектра с целью выделения его огибающей;

  • кепстральный анализ (cepstral analysis), т.е. обратное преобразование Фурье от логарифма прямого преобразования.

Перечисленные выше преобразования позволяют учитывать такие особенности речевого сигнала, как понижение информативности высокочастотных участков спектра, логарифмическую чувствительность человеческого уха, и т.д.

Учет динамики речи

Помимо спектральных характеристик, необходимо учитывать и динамические особенности речи. Для этого используют дельта-параметры, представляющие собой производные по времени от основных параметров.

При этом можно отслеживать не только изменение параметров речи, но и скорость их изменения.

Выделение фонем и аллофонов

Ранее были рассмотрены такие лексические элементы речи, как фонемы и аллофоны. Для их выделения обычно применяются нейронные сети и метод формирования нейронных ансамблей.

При этом обучение выделению примитивов речи (фонем и аллофонов) может заключаться в формировании нейронных ансамблей, ядра которых соответствуют наиболее частой форме каждого примитива.

Формирование нейронных ансамблей представляет собой процесс обучения нейронной сети без учителя, при котором происходит статистическая обработка всех сигналов, поступающих на вход нейронной сети. При этом формируются ансамбли, соответствующие наиболее часто встречающимся сигналам. Запоминание редких сигналов происходит позже и требует подключения механизма внимания или иного контроля высшего уровня.

    1. Уровни распознавания слитной речи

Распознавание слитной речи представляет собой многоуровневый процесс. После предварительной обработки речевого сигнала и выделения из него информативных признаков выполняется выделение лексических элементов речи. Это первый уровень распознавания.

На втором уровне выделяются слоги и морфемы, на третьем — слова, предложения и сообщения (рис. 4.1).

На каждом уровне сигнал кодируется представителями предыдущих уровней. То есть слоги и морфемы составляются из фонем и аллофонов, слова — из слогов и морфем, предложения и сообщения — из слов.

Рисунок 4.1. Три уровня распознавания слитной речи

При переходе с уровня на уровень помимо представителей сигналов передаются и некоторые дополнительные признаки, временные зависимости и отношения между сигналами.  Собирая сигналы с предыдущих уровней, высшие уровни располагают большим объемом информации (или её другим представлением), и могут осуществлять управление процессами на низших уровнях, например, с привлечением механизма внимания.

Механизм внимания используется при обучении нейронной сети. В случае использования такого механизма при появлении образца, неизвестного нейронной сети, скорость обучения многократно возрастает. При этом редко встречающийся образец запоминается в нейронной сети.

Применение нейронных сетей для распознавания речи

При обучении сети с учителем можно научить сеть распознавать объекты, принадлежащие заранее определенному набору классов. Если же сеть обучается без учителя, то она может группировать объекты по классам в соответствии с их цифровыми параметрами.

Таким образом, на базе нейронных сетей можно создавать обучаемые и самообучающиеся системы. Сформулированы следующие требования к самообучающимся системам.

  • Разработка системы заключается только в построении архитектуры системы

В процессе создания системы разработчик создает только функциональную часть, но не наполняет (или наполняет в минимальных объемах) систему информацией. Основную часть информации система получает в процессе обучения.

  • Возможность контроля своих действий с последующей коррекцией

Этот принцип говорит о необходимости обратной связи Действие-Результат-Коррекция в системе. Такие цепочки очень широко распространены в сложных биологических организмах и используются на всех уровнях — от контроля мышечных сокращений на самом низком уровне до управления сложными механизмами поведения.

  • Возможность накопления знаний об объектах рабочей области

Знание об объекте — это способность манипулировать его образом в памяти.

Количество знаний об объекте определяется не только набором его свойств, но ещё и информацией о его взаимодействии с другими объектами, поведении при различных воздействиях, нахождении в разных состояниях, и т.д., т.е. его поведении во внешнем окружении.

  • Автономность системы

При интеграции комплекса действий, которые система способна совершать, с комплексом датчиков, позволяющих контролировать свои действия и внешнюю среду, наделенная вышеприведенными свойствами система будет способна взаимодействовать с внешним миром на довольно сложном уровне.

При этом она будет адекватно реагировать на изменение внешнего окружения (если это будет заложено в систему на этапе обучения). Способность корректировать свое поведение в зависимости от внешних условий  позволит частично или полностью устранить необходимость контроля извне, т.е. система станет автономной.

Возможность создания на базе искусственных нейронных сетей самообучающихся систем является важной предпосылкой для их применения в системах распознавания (и синтеза) речи.

    1. Представление речи в виде набора числовых параметров

После выделения информативных признаков речевого сигнала можно представить эти признаки в виде некоторого набора числовых параметров (т.е. в виде вектора в некотором числовом пространстве). Далее задача распознавания примитивов речи (фонем и аллофонов) сводится к их классификации при помощи обучаемой нейронной сети.

Нейронные сети можно использовать и более высоких уровнях распознавания слитной речи для выделения слогов, морфем и слов.

Нейронные ансамбли

В качестве модели нейронной сети, пригодной для распознавания речи и обучаемой без учителя можно выбрать самоорганизующуюся карту признаков Кохонена. В ней для множества входных сигналов формируется нейронные ансамбли, представляющие эти сигналы. Этот алгоритм обладает способностью к статистическому усреднению, что позволяет решить проблему изменчивости речи.

По сравнению с классическим программированием, когда алгоритм решения той или иной задачи задан жестко, нейронные сети позволяют динамически изменять алгоритм простым изменением архитектуры сети.

Генетические алгоритмы

Возможность изменения алгоритма работы нейронной сети простым изменением ее архитектуры позволяют решать задачи совершенно новым способом, с помощью так называемых генетических алгоритмов.

При использовании генетических алгоритмов создаются правила отбора, позволяющие определить, лучше или хуже справляется новая нейронная сеть с решением задачи. Кроме того, определяются правила модификации нейронной сети.

Изменяя достаточно долго архитектуру нейронной сети и отбирая те архитектуры, которые позволяют решить задачу наилучшим образом, рано или поздно можно получить верное решение задачи.

Генетические алгоритмы обязаны своим появлением эволюционной теории (отсюда и характерные термины: популяция, гены, родители-потомки, скрещивание, мутация). Таким образом, существует возможность создания таких нейронных сетей, которые ранее не изучались исследователями (или не поддаются аналитическому изучению), но, тем не менее, успешно решают задачу.

    1. Реализация уровня ввода и вывода в системах распознавания речи

Схема системы распознавания и анализа речи, соответствующая уровню ввода/вывода, показана на рис. 4.2.

Рисунок 4.2. Блок-схема уровня ввода/вывода

При распознавании речи осуществляется ввод звуковой информации, предварительная обработка, получение энергетического спектра и выделение примитивов речи.

При синтезе речи осуществляется выделение из нейронной сети запомненного примитива, синтез спектра (частотный параметрический синтез) и преобразование спектра в звуковой сигнал. При обучении последовательным повторением двух вышеописанных  процедур осуществляется запоминание примитивов речи в нейронной сети.

Процесс ввода звука

На рис. 4.3 изображен процесс ввода звука в системе распознавания речи.

Рисунок 4.3. Процесс ввода звука в системе распознавания речи

Ввод звука осуществляется в реальном времени через звуковую карту или через файлы формата WAV. Работа с файлами обычно присутствует, чтобы облегчить многократное повторение обработки нейронной сети, что особенно важно при обучении.

Предварительная обработка звука

Согласно рис. 4.3, звуковые сигналы, полученные в реальном времени или введенные из файлов формата WAV, подвергаются предварительной обработке.

При обработке файла по нему перемещается окно ввода, размер которого равен N элементов — размеру окна дискретного преобразования Фурье (ДПФ). Смещение окна относительно предыдущего положения можно регулировать.  В каждом положении окна оно заполняется данными (разрядность данных зависит от количества бит, отведенных для хранения одного отсче).

После ввода данных в окно перед вычислением ДПФ на него накладывается окно сглаживания Хэмминга:

(4.1)

Здесь Data — исходный массив данных, newData — массив данных, полученный после наложения окна сглаживания, N — размер ДПФ.

Наложение окна Хэмминга немного понижает контрастность спектра, но позволяет убрать боковые лепестки резких частот, при этом особенно хорошо проявляется гармонический состав речи. Сказанное иллюстрирует рис. 4.4.

Рисунок 4.4. Действие окна сглаживания Хэмминга (логарифмический масштаб)

Выполнение дискретного преобразования Фурье

Результат сглаживания Хэмминга подвергается дискретному преобразованию Фурье по алгоритму быстрого преобразования Фурье. В результате этого преобразования получается амплитудный спектр и информация о фазе сигнала (в реальных и мнимых коэффициентах).

Информация о фазе сигнала отбрасывается и вычисляется энергетический спектр:

(4.2)

Здесь E[i] – энергии частот.

Так как звуковые данные не содержат мнимой части, то по свойству ДПФ  результат получается симметричным, т.е. E[i] = E[N – ­­­­­­­i]. Таким образом, размер информативной части спектра NS равен N/2.

Нормирование частотного спектра

Значения параметров объектов, классифицируемых с помощью нейронных сетей, ограничены диапазоном [0.0, 1.0].

Для выполнения обработки спектра нейронной сетью полученный  спектр нормируется на 1.0. Для этого каждый компонент вектора делится на его длину:

(4.3)

(4.4)

Логарифмическое сжатие спектра

Исследования показали, что информативность различных частей спектра неодинакова: в низкочастотной области спектра содержится больше информации, чем в высокочастотной области спектра.

Поэтому для более экономного использования входов нейронной сети и увеличения производительности необходимо уменьшить число элементов, получающих информацию из высокочастотной области спектра. Это и означает сжатие высокочастотной области спектра в пространстве частот.

Обычно применяется наиболее распространенный и простой метод — логарифмическое сжатие, или mel-сжатие.

Ниже приведена формула, по которой выполняется логарифмическое сжатие спектра:

(4.5)

Здесь —частота в спектре, Гц; m — частота в новом сжатом частотном пространстве.

Рис. 4.5 иллюстрирует процесс логарифмического сжатия частотного спектра.

Рисунок 4.5. Нелинейное преобразование спектра в пространстве частот

    1. Применение вейвлет-преобразований

В системах распознавания речи для выделения из речи синтаксических элементов в большинстве случаев применяется быстрое преобразование Фурье.

Однако, как отмечают исследователи, анализ Фурье обладает целым рядом недостатков, в результате которых происходит потеря информации о временных характеристиках обрабатываемых сигналов. Этот анализ подразумевает использование искусственных приемов, с помощью которых осуществляется частотно-временная локализация, например, окон данных (на рис. 4.3 это окно обозначено как «Окно ввода»).

В современных технологиях обработки и распознавания сигналов применяются так называемые вейвлет-преобразования и вейвлет-анализ.

Термин вейвлет (wavelets) можно перевести как «маленькая волна». Вейвлеты представляют собой новый инструмент решения различных задач прикладной математики. Вейвлет-анализ, детальное знакомство с которым требует определенных познаний в математике, лишен недостатков анализа Фурье. Он позволяет достичь неплохих результатов при использовании в системах распознавания речи.

Отличие вейвлет-анализа от анализа Фурье заключается в том, что Фурье-анализ предполагает разложение исходной периодической функции в ряд, в результате чего исходная функция может быть представлена в виде суперпозиции синусоидальных волн различной частоты. Такая суперпозиция и есть спектр сигнала.

Что же касается вейвлет-анализа, то здесь входной сигнал раскладывается в базис функций, характеризующих как частоту, так и время. Поэтому с помощью вейвлетов можно анализировать свойства сигнала одновременно и в физическом пространстве (время, координата), и в частотном пространстве. Чтобы подчеркнуть такое обстоятельство, в зарубежной литературе Фурье-анализ называют single spectrum, а спектры, полученные на основе вейвлет-преобразований — itime-scale spectrum, или wavelet spectrum. Функции-базисы для вейвлетных преобразований конструируются на основе производных функций Гаусса.

На рис. 4.6 показаны наиболее часто используемые вейвлеты.

Рисунок 4.6. Часто используемые вейвлеты

Эти функции имеют свои названия. Они приведены в табл. 4.1.

Таблица 4.1. Часто используемые вейвлеты

Обозначение на рис. 4.6

Название

а

WAWE-вейвлет

б

MHAT-вейвлет. Получил свое название от «мексиканская шляпа, сомбреро» (Mexican Hat)

в

Morlet

г

Paul

д

LMB

е

Daubeshies

При использовании вейвлет-преобразований для распознавания речи разработчик должен выбрать нужную функцию. От правильного выбора зависит успешность распознавания.

  1. Распознавание речи в Microsoft Office XP

Осознавая актуальность технологий распознавания и синтеза речи, компания Microsoft встроила в свои операционные системы Microsoft Windows XP и Microsoft Windows Vista специальный речевой программный интерфейс Speech API.

В составе американского, японского и упрощенного китайского пакета офисных приложений Microsoft Office XP поставляются средства распознавания и синтеза речи. Что же касается русской версии Microsoft Office XP, то, к большому сожалению, там эти средства отсутствуют.

Далее будет рассмотрена американская версия пакета Microsoft Office XP.



Скачать документ

Похожие документы:

  1. 8 инновационная образовательная программа 8 1 основные цели и задачи реализации инновационной образовательной программы " качество знания компетентность" 8 1 1 цель реализации инновационной образовательной программы 8 1 2 основные

    Основная образовательная программа
    ... не только полезные с точки зрения приобретаемыхзнаний и умений, но и внешне эффектные и привлекательные демонстрационные ... компетенции, как потенциальная способность применять знания, умения и личностные качества для успешной деятельности ...
  2. Настоящая программа устанавливает минимальные требования к знаниям и умениям магистранта и определяет содержание и виды учебных занятий и отчетности

    Программа
    ... практики является формирование у магистрантов знаний, умений и навыков, связанных с организацией ... дисциплины в ее значении для приобретаемой профессии и в контексте обучения ... дисциплины в ее значении для приобретаемой профессии и в контексте обучения ...
  3. Тема 1 ОБЩАЯ ХАРАКТЕРИСТИКА МИРА БЛОК ДОБЫВАНИЯ ЗНАНИЙ И УМЕНИЙ Задание 1

    Документ
    ... МИРОВОГО ХОЗЯЙСТВА БЛОК ДОБЫВАНИЯ ЗНАНИЙ И УМЕНИЙ Задание 1. Проанализируйте рисунок ... материалы для углубления вновь приобретаемыхзнаний. 5. Готовить рецензию на ... . Тема 8. АФРИКА БJIOK ДОБЫВАНИЯ ЗНАНИЙ И УМЕНИЙ Задание 1. Пользуясь таблицей 1 в ...
  4. Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности (3)

    Программа
    ... учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды ... генетически обусловленных (врожденных) и индивидуально приобретаемых компонентов поведения в индивидуальном развитии организма ...
  5. «краткосрочная финансовая политика»

    Учебно-методический комплекс
    ... финансовой политики; получить прикладные знания в области оперативного контроля ... организации и другие области знаний. Приобретаемыезнания и умения станут необходимой частью ... из форм проверки знаний студента, умения самостоятельно и творчески ...

Другие похожие документы..