textarchive.ru

Главная > Лабораторная работа


Лабораторная работа по дисциплине «Информационные технологии»

Тема: «Создание речевого интерфейса средствами MS SAPI™ 5.1»

Цель работы

Получить представления о распознавании речи и навыки по созданию речевых интерфейсов

Приобретаемые знания

Общие представления о речевых технологиях, история становления научного направления распознавания человеческой речи, понятия и термины, используемые в области распознавания речи, описание основных методов распознавания речи, существующие речевые интерфейсы

Приобретаемые умения

Создание речевого интерфейса, разработка простейшей грамматики распознавания, работа с Microsoft SAPI™ SDK.

Ожидаемый результат

Исполняемый файл, реализующий функцию речевого интерфейса. Функция речевого интерфейса подразумевает распознавание нескольких простейших речевых команд и выполнение соответствующих командам действий.

Содержание

Цель работы 1

Приобретаемые знания 1

Приобретаемые умения 1

Ожидаемый результат 1

Теоретическая часть 4

Введение 4

1.Общие вопросы 4

1.1История возникновения научного направления распознавания речи 4

1.2Основные сложности разработки 6

1.3Основные понятия о человеческой речи 7

1.4Основные понятия о языке 9

1.5Основные понятия о слухе человека 13

2.Звуковое оборудование 15

2.1Аналоговый и цифровой звук 15

2.2Преобразование звука в поток чисел 17

2.3Микрофон 17

3.Анализ речевых сигналов 19

3.1Осциллографический анализ 19

3.2Спектральный анализ 20

4.Методы распознавания речи 21

4.1Распознавание по образцу 22

4.2Выделение лексических элементов 22

4.3Уровни распознавания слитной речи 24

4.4Представление речи в виде набора числовых параметров 26

4.5Реализация уровня ввода и вывода в системах распознавания речи 27

4.6Применение вейвлет-преобразований 30

5.Распознавание речи в Microsoft Office XP 32

5.1Речевые возможности пакета 32

5.2Обучение системы распознавания речи 33

5.3Инструментальная панель Language Bar 35

5.4Диктовка текста 37

5.5Команды 38

Практическая часть 42

6.Microsoft SAPI™ SDK 42

7.Выполнение лабораторной работы 45

7.1Приложение Speech Interface 45

7.2Структура приложения Speech Interface 46

7.3Выполнение 49

Приложение А. Подготовка звуковой аппаратуры 51

Теоретическая часть

Введение

Под речевыми технологиями в компьютерном мире подразумевают целый конгломерат программных и аппаратных средств, позволяющих осуществлять, прежде всего, синтез и распознавание человеческой речи, а также разрабатывать средства, позволяющие создавать системы обработки речи (т.е. инструментарий разработчика).

Под синтезом речи следует понимать такое звуковое представление какой-либо информации, которое воспринимается человеком как речь. Для людей, у которых речь является основным каналом получения информации, очень важны качественные характеристики синтезируемой речи. Синтезатор с неудовлетворительным качеством речи (например, чересчур механический голос, отсутствие интонационных пауз, ошибки в распознавании омонимов) может вызывать утомление, влиять на работоспособность, снижать внимание и качество восприятия информации.

Под распознаванием речи, как правило, понимают задачу преобразования устной речи в письменный ее эквивалент, т.е. в текст. Текстовая информация более доступна для компьютерной обработки. Однако в более широком смысле распознавание речи подразумевает определение ее смыслового содержания (не стоит путать распознавание речи с задачей идентификации личности по голосу, так как это различные задачи, хотя и имеющие некоторые точки соприкосновения). С распознаванием речи тесно связана задача управления техническими средствами при помощи голоса (голосовой набор телефонного номера, включение и выключение бытовых электроприборов, голосовое управление компьютером). У распознавания речи весьма большой потенциал в плане адаптационных возможностей, которые могут быть предоставлены людям с ограничением здоровья.

Ниже будет рассмотрен вопрос распознавания речи.

  1. Общие вопросы

    1. История возникновения научного направления распознавания речи

Попытки научить компьютеры общаться с людьми при помощи естественного голосового интерфейса предпринимались с первых лет истории компьютерной техники. В процессе многолетних исследований было выяснено, что к решению проблемы необходимо привлекать не только программистов, но и специалистов по языкознанию (лингвистике), радиоинженеров, математиков, биологов и даже психологов.

В самом деле, для создания системы распознавания речи нужно решить множество задач.

Прежде всего, нужно преобразовать колебания воздуха в электрические сигналы при помощи микрофона, отфильтровав при этом помехи и шумы.

Далее каким-то образом сигнал необходимо представить в цифровой форме, доступной для обработки при помощи компьютера (оцифровать). Здесь есть разные возможности: можно вводить в компьютер информацию об амплитуде звукового сигнала, а можно анализировать спектральный состав сигнала, выделяя из сигнала набор основных частот. Эту информацию можно комбинировать.

Специалисты по языкознанию необходимы для изучения принципов построения речи, выделения тех элементов речи, которые программа должна распознавать во входном потоке, — фонем, морфем, слогов, слов и т.п. Языкознание изучает такие аспекты речи, учет которых просто необходим при создании систем распознавания и синтеза речи.

Надо сказать, что извлечение из речевого потока лингвистических конструкций представляет собой непростую задачу. Только ребенок, который учится говорить или читать, произносит слова по слогам, отделяя слоги и слова паузами. В реальной жизни речь представляет собой сплошной поток звуков. В процессе формирования сплошной речи звуки, соответствующие одним и тем же буквам, могут изменяться при соединении с другими звуками.

Звуки сплошной речи содержат постоянно изменяющийся спектр гармонических частот, а также шум. Громкость и темп речи также постоянно изменяются. Более того, одна и та же фраза, сказанная разными людьми, или даже одним человеком, находящимся в разных психических состояниях, может иметь разную спектрально-временную окраску. Это сильно затрудняет создание универсальных систем распознавания, «понимающих» речь разных людей.

Для того чтобы выделить из оцифрованного звука лингвистические конструкции, применяются различные математические методы в сочетании со специальным компьютерным оборудованием, таким, например, как аппаратные или программные нейронные сети. На протяжении всей истории систем распознавания речи эти методы постоянно изменялись. При этом одни методы отмирали из-за их неэффективности, а другие разрабатывались и совершенствовались.

Исследования биологов помогают изучить механизмы образования и распознавания речи, которыми пользуется человек (а может быть, и животные). Пытаясь решить проблему речевого интерфейса, многие исследователи пытаются моделировать работу человеческих органов, таких как речевой тракт, ухо и нейронные системы головного мозга.

И, наконец, при решении задачи создания речевого интерфейса компьютерных систем нужны психологи, так как без учета психологических особенностей человека невозможно создать по-настоящему удобный речевой интерфейс.

Проблемы общения человека и компьютера выходят за  рамки чисто технических наук. Это происходит, потому что современные компьютеры пытаются общаться с людьми с применением тех же способов, с помощью которых общаются между собой люди. И точно также как бывает трудно общаться человеку с больными, страдающими расстройствами психики, так же трудно будет ему общаться с компьютерной программой, демонстрирующей неадекватное психическое поведение.

Для работы в области речевых технологий необходимо иметь представление о перечисленных выше смежных специальностях. Для наглядности мы свели все эти специальности в табл. 1.1.

Таблица 1.1. Специальности, имеющие отношение к речевым технологиям

Специальность

Как и для чего используется

Радиоинженер

Проектирование систем оцифровки звука с использованием микрофона, разработка фильтров, удаляющих помехи, аппаратная реализация анализатора спектра и решение других проблем, имеющих отношение к радиоэлектронным блокам систем распознавания и синтеза речи.

Лингвист

Изучение лингвистической структуры речи, выделение из речи отдельных лингвистических элементов, таких как фонемы, морфемы, слоги, слова, предложения. Изучение правил образования речи, изменений интонации и правил установки ударений.

Математик

Разработка математических моделей и методов, применяющихся при реализации подсистем анализа и синтеза речи. Разработка методов программной реализации фильтров и спектральных анализаторов звуков речи, методов распознавания лингвистических элементов в сплошном потоке речи.

Программист

Создание программного интерфейса с аппаратурой оцифровки и генерации звука. Создание визуального интерфейса программ распознавания и синтеза речи. Разработка алгоритмов и программная реализация математических моделей и методов, используемых для фильтрации и спектрального анализа звукового сигнала. Программная реализация методик распознавания речи, а также методик обучения таких систем, необходимых для их первоначальной настройки.

Биолог

Исследование речевого и слухового тракта человека, а также высших животных. Результаты этих исследований самым непосредственным образом используются при разработке методов распознавания и синтеза речи.

Психолог

Исследования психологических аспектов, необходимые для создания речевого интерфейса программ, комфортного для человека.

Сегодня различные компании, в том числе компания Microsoft, выпускают средства синтеза и распознавания речи в виде программных модулей и интерфейсов. Программисты, не обладающие познаниями в области лингвистики, математики и биологии, могут использовать такие готовые интерфейсы и программные модули для добавления речевого интерфейса в собственные разработки (учет человеческой психологии, по-видимому, все же необходим для проектирования удобных речевых интерфейсов).

Полагаясь на упомянутые выше разработки, программист окажется в ситуации, когда речевые возможности его программ будут ограничены возможностями используемых средств и технологий. Например, многие средства распознавания и синтеза речи не способны работать с русским языком, что ограничивает их использование в России.

Необходимо отметить, что проблема создания компьютерных систем речевого общения в настоящий момент представляется довольно актуальной. Вместе с тем, она не слишком широко освещена в современной литературе. Причина этого, вероятно, заключается не столько в отсутствии интереса к теме, сколько в нежелании разработчиков делиться с другими своими профессиональными секретами. Это создает дополнительные трудности для тех, кто только начинает осваивать речевые технологии.

    1. Основные сложности разработки

К сожалению, несмотря на потрясающее развитие компьютерных технологий, на сегодня проблема оснащения компьютера полноценным, естественным для человека голосовым интерфейсом еще далека от своего завершения. И хотя наличие определенных успехов, особенно в области синтеза речи, несомненно, полное решение проблемы пока не найдено.

Почему же, несмотря на все современные достижения и многолетнюю историю развития компьютерной техники, люди так и не научили компьютеры более или менее сносно общаться с человеком с помощью речи? Почему успехи в области распознавания образов все еще оставляют желать лучшего?

В самом деле, всего за 10-20 лет объем оперативной памяти компьютера, и тактовая частота процессора возросли в тысячи раз. Сегодняшние студенты работают дома с такими компьютерами, о которых не так давно сотрудники научно-исследовательских лабораторий могли разве лишь мечтать.

И при этом мощность компьютеров продолжает расти — раз в квартал появляются все новые и новые модели процессоров, поражая наше воображение все более высокой тактовой частотой и различными архитектурными новациями.

Программное обеспечение также получило революционное развитие. В то время как первые программы составлялись в машинных кодах или на простых алгоритмических языках программирования, занимая в памяти считанные килобайты, сегодняшние программные комплексы занимают сотни мегабайт, и создаются с помощью сложнейших автоматизированных инструментальных средств.

Однако проблема не только в том, что современные компьютеры не обладают мощностью, достаточной для создания речевого и визуального пользовательского интерфейса. Проблема в том, что все попытки практической реализации такого интерфейса неизбежно упираются в необходимость создания искусственного интеллекта.

Одно дело — научить компьютер распознавать отдельные фонемы и слова, и совсем другое — научить компьютер понимать смысл сказанного. Без понимания контекста произносимых слов их правильная интерпретация не всегда возможна. Не зря переводчиков с иностранного языка учат переводить не слова, а смысл текста. И если переводчик не разбирается в тексте, над которым он работает, едва ли результаты перевода будут удовлетворительны.

При попытке научить компьютер понимать смысл «услышанных» им слов, сразу возникает ряд научных проблем. И основная из них — необходимость реализации искусственного интеллекта. В то же время до сих пор отсутствует точное понимание, что же представляет собой «обыкновенный» естественный интеллект, которым наделен каждый человек, а возможно, и большинство животных.

Каждый день человек с легкостью решает множество задач, труднодоступных или вовсе недоступных компьютеру. Взять, например, задачу распознавания образов. Один человек без труда опознаете другого человека в толпе по фигуре, походке, одежде и многим другим признакам. Для человека не составит особого труда отличить собаку от кошки или клен от березы. Человек разбирает слова, сказанные по телефону, даже при наличии сильных помех. Однако при попытке формализовать способы решения всех этих задач, можно убедитесь, что это совсем не просто.

Ставится вопрос о применимости существующей архитектуры для решения вопроса распознавания человеческой речи. С момента появления и по настоящее время обычные компьютеры имеют  архитектуру Фон-Неймана. Но помимо обычных компьютеров, активно развивались и продолжают развиваться другие компьютерные системы.

Возможно, наиболее перспективное направление их развития с точки зрения создания систем искусственного интеллекта — так называемые нейронные сети

Строение нейронных сетей напоминает строение клеточных систем головного мозга. И хотя тут трудно говорить о точном соответствии, нейронные сети намного ближе по своей архитектуре к «архитектуре» человеческого мозга, чем обыкновенный компьютер.

Для наиболее эффективной работы нейронной сети нужно создавать специальные аппаратные решения. Необходимо отметить, однако, что нейронные сети можно моделировать и на обычном современном компьютере с достаточно мощным процессором.

Но, несмотря на все вышесказанное, уже существует множество практических систем, способных общаться с человеком при помощи речи, а также способные узнавать человеческие лица.

    1. Основные понятия о человеческой речи

Уже несколько десятков лет тому назад люди предпринимали попытки создания систем синтеза и распознавания речи. Разумеется, все эти попытки начинались с исследования анатомии и принципов работы речевых, а также слуховых органов человека, в надежде смоделировать их при помощи компьютера и специальных электронных устройств.

Далее будет рассмотрено, как примерно устроены органы речи и слуха человека, и как они работают. Изложение анатомических подробностей предназначено лишь для того, чтобы дать Вам некоторое представление о тех вещах, понимание которых имеет значение для систем синтеза и распознавания речи.

Также будут приведены минимальные сведения о такой науке, как языкознание, т.е. науке о языке. Эта наука также называется лингвистикой. Изложенные постулаты ограничены теми минимальными сведениями, которые могут помочь при изучении методов распознавания речи.

Ниже приведены основные термины из области речевых технологий.

Речевой тракт человека

Как и все, созданное природой, речевые органы человека отличаются совершенством. С их помощью человек может не только говорить и петь, но и подражать звукам, издаваемым различными животными.

Далее будет рассмотрена роль в формировании звуков отдельных речевых органов человека, таких как голосовые связки, язык и т.д.

На рис. 1.1. показана упрощенная схема речевого тракта человека. «Двигателем» этой системы, необходимым для ее функционирования, являются легкие. При выдохе воздух из легких поступает через трахею в гортань, а затем в ротовую и носовую полость.

Рисунок 1.1. Речевой тракт человека

Схематически движение воздуха показано на рис. 1.2. Как можно заметить, на выходе из гортани поток воздуха может раздваиваться, поступая одновременно в носовую и ротовую полость.

Рисунок 1.2. Схема прохождения воздуха при образовании голоса

Органы, расположенные в ротовой полости, наряду с голосовыми связками, играют решающую роль в формировании звуков. Что же касается носовой полости, то она служит резонатором, усиливая колебания определенных частот.

Голосовые связки

Колебания голосовых связок, расположенных на входе в гортань, наполняет речь человека голосом. Голосовые связки не работают, когда человек говорит шепотом.

В зависимости от того, какие звуки и как произносит человек, может работать либо одна из полостей, либо обе полости. Носовые звуки произносятся при закрытом рте. Что же касается остальных звуков, то в их формировании принимают участие как носовая, так и ротовая полость.

Активные и пассивные органы речи

Все органы, участвующие в формировании речи, можно разделить на активные и пассивные органы. При этом в процессе речи активные органы совершают различные движения, формируя звуки. Вот активные органы речи:

  • голосовые связки;

  • язык;

  • губы;

  • мягкое небо;

  • язычок;

  • задняя спинка зева;

  • нижняя челюсть.

Пассивные органы речи играют лишь вспомогательную роль. Они, в частности, определяют форму полостей, от которой, в свою очередь, зависят резонансные свойства этих полостей. Следующие органы речи являются пассивными:

  • зубы;

  • альвеолы;

  • твердое небо;

  • верхняя челюсть.

Итак, поступая из легких и проходя через гортань, воздух проходит мимо голосовых связок. Колебания этих связок и создают звук, который мы слышим, когда человек говорит или поет. Многочисленные резонаторы, форму которых человек может изменять при помощи активных органов речи, формируют звуковую окраску голоса.



Скачать документ

Похожие документы:

  1. 8 инновационная образовательная программа 8 1 основные цели и задачи реализации инновационной образовательной программы " качество знания компетентность" 8 1 1 цель реализации инновационной образовательной программы 8 1 2 основные

    Основная образовательная программа
    ... не только полезные с точки зрения приобретаемыхзнаний и умений, но и внешне эффектные и привлекательные демонстрационные ... компетенции, как потенциальная способность применять знания, умения и личностные качества для успешной деятельности ...
  2. Настоящая программа устанавливает минимальные требования к знаниям и умениям магистранта и определяет содержание и виды учебных занятий и отчетности

    Программа
    ... практики является формирование у магистрантов знаний, умений и навыков, связанных с организацией ... дисциплины в ее значении для приобретаемой профессии и в контексте обучения ... дисциплины в ее значении для приобретаемой профессии и в контексте обучения ...
  3. Тема 1 ОБЩАЯ ХАРАКТЕРИСТИКА МИРА БЛОК ДОБЫВАНИЯ ЗНАНИЙ И УМЕНИЙ Задание 1

    Документ
    ... МИРОВОГО ХОЗЯЙСТВА БЛОК ДОБЫВАНИЯ ЗНАНИЙ И УМЕНИЙ Задание 1. Проанализируйте рисунок ... материалы для углубления вновь приобретаемыхзнаний. 5. Готовить рецензию на ... . Тема 8. АФРИКА БJIOK ДОБЫВАНИЯ ЗНАНИЙ И УМЕНИЙ Задание 1. Пользуясь таблицей 1 в ...
  4. Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности (3)

    Программа
    ... учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды ... генетически обусловленных (врожденных) и индивидуально приобретаемых компонентов поведения в индивидуальном развитии организма ...
  5. «краткосрочная финансовая политика»

    Учебно-методический комплекс
    ... финансовой политики; получить прикладные знания в области оперативного контроля ... организации и другие области знаний. Приобретаемыезнания и умения станут необходимой частью ... из форм проверки знаний студента, умения самостоятельно и творчески ...

Другие похожие документы..