Главная > Лабораторная работа


Основные понятия о языке

Все лингвистические понятия, рассмотренные далее, специалисты в области языкознания относят к нескольким уровням. Иерархическая структура этих уровней показана на рис. 1.3.

Рисунок 1.3. Иерархия лингвистических уровней

На фонетическом уровне определяются такие понятия, как фонемы и аллофоны. Это «кирпичики», из которых строятся все лингвистические элементы более высокого уровня.

С точки зрения человека, наименьшей смысловой единицей является слово. Слово делится на слоги. Что же касается науки, имеющей дело с распознаванием и синтезом речи, то здесь вводится другое понятие единицы звукового строя — фонемы.

Фонемы не отождествляются напрямую со словами или слогами. Они играют роль неделимых частиц, атомов языка и представляют собой последовательности звуков. Из фонем составляются все другие конструкции языка, такие как слоги и слова.

Фонемы обладают многочисленными признаками, которые можно использовать для их классификации и распознавания. В качестве примера приводятся следующие признаки:

  • звонкость и глухость;

  • твердость и мягкость;

  • взрывность и фрикативность;

  • отсутствие или присутствие назальности;

  • переднеязычность и заднеязычности.

Различные реализации фонем называются вариантами фонемы или аллофонами. При этом один из аллофонов, в котором свойства фонемы проявляются в наибольшей степени, играет роль главного варианта фонемы. Всего в русском языке насчитывается 43 фонемы (37 согласных и 6 гласных). К этому добавляются многочисленные аллофоны.

На фонологическом уровне определяются комбинации фонем и аллофонов, реально встречающихся в человеческой речи. При этом учитывается, что различные комбинации фонем и аллофонов могут встречаться в речи с различной вероятностью.

На морфологическом уровне накладываются ограничения на структуру таких лингвистических элементов, как слоги и морфемы.

Слог — это минимальная фонетическая единица речевого потока, включающая в свой состав, как правило, один гласный звук с примыкающими к нему согласными звуками.

Сами по себе морфемы не могут образовывать предложения, но с их помощью создаются более крупные лингвистические единицы — лексемы.

Лексемой называется множество словоформ с общим лексическим значением. Лексема способна выступать членом предложения и образовывать предложения. Она может быть простой и составной. В первом случае лексема состоит из одного слова, а во втором — из нескольких.

На лексическом уровне определяются слова и словоформы, которые возможны для данного языка. Действительно, комбинируя между собой морфемы и слоги, можно образовать бесконечное количество словоподобных конструкций, но в каждом конкретном языке далеко не все они будут наполнены каким либо значением.

Слова могут играть роль лексем, но не все слова являются лексемами. Служебные слова, такие, например, как «из» и «бы» не являются лексемами.

Системы распознавания речи могут пользоваться словарями лексем. С помощью этих словарей можно сделать процесс распознавания лексем надежнее, исключая заведомо ложные комбинации, не несущие смысловой нагрузки и появившиеся в результате ошибки механизма распознавания.

Высшим уровнем языка является семантика. Именно на этом уровне человеческий мозг отображает речевые конструкции на понятия и образы, устанавливая отношения между объектами и обозначающими их словами.

Наличие стройной системы семантических связей необходимо для создания систем распознавания речи. Только с ее помощью можно получить на выходе этой системы не простой набор слов, извлеченных из потока речи, а осмысленный набор понятий и отношений между ними, встречающихся в реальной жизни.

На семантическом уровне определяется такое понятие, как предложение. Согласно определению, предложение — это грамматически оформленная по законам данного языка целостная единица речи, являющаяся главным средством формирования, выражения и сообщения мысли.

Но предложение — это не просто осмысленный набор слов и лексем. Предложение может передавать отношение говорящего человека к озвучиваемой мысли. Предложение может иметь особую интонацию, а также заключать в себе предикативность, то есть отношение сообщения к действительности, независимо от того, имеется в этом сообщении глагол или нет.

Только такие системы распознавания, которые способны выделять из речи предложения, можно считать достаточно совершенными, поскольку главным образом, именно в виде предложений человек формулирует свои мысли.

Спектральные характеристики человеческого голоса

Звук идеально чистого тона содержит колебания только одной частоты. График изменения амплитуды звукового сигнала чистого тона может быть представлен в виде идеальной синусоиды.

На практике, однако, звуки с идеально чистым тоном в обиходе встречаются довольно редко. Если, например, скрипач, пианист и певец возьмут ноту «ля», то отличия в звучании будет заметно на слух, хотя тон звука во всех трех случаях будет одинаковый.

Это происходит потому, что помимо тона основной частоты, в звуке инструментов и голосе всегда присутствуют так называемые гармоники. Гармоники представляют собой звуки других частот, отличных от основной частоты.

В общем случае любой звук можно представить в виде некоторого бесконечного набора абсолютно чистых звуков различных частот. Совокупность частот таких чистых звуков называется спектром звука.

Таким образом, практически в любом звуке помимо основной частоты присутствуют и другие частоты спектра, называемые гармоническими составляющими, или просто гармониками. От процентного соотношения гармонических составляющих зависит окраска звука.

Голосовые органы человека добавляют к основному тону, формируемому голосовыми связками, дополнительные гармонические составляющие. Эти составляющие придают окраску голоса, по которой, в частности, можно узнавать речь знакомых людей.

В результате исследований было установлено, что в образовании речи активно участвуют четыре частоты, образующиеся в резонансных полостях речевого тракта. Эти частоты называются формантами.

В процессе артикуляции происходит постоянное изменение амплитуды формантных частот, которое можно обнаружить при помощи программ спектрального анализа. Такие программы позволяют развернуть спектр сигнала во времени.

На рис. 1.4 четко виден формантный состав гласных «и» и «у» при произнесении последовательности этих звуков . При переходе от гласной и происходит смещение частоты форманты F2 c 2400 Гц на 784 Гц, а также одновременное ослабление формант F3 и F4.

 

Рисунок 1.4. Формантный состав гласных «и» и «у»

В процессе артикуляции может изменяться как амплитуда, так и частота форматных составляющих звука. При этом, однако, количество самих формант в голосовых звуках остается постоянным и всегда равно 4.

Что же касается шумовых звуков, то в них затруднительно выделить формантные составляющие. Это видно на рис. 1.5, где приведен спектр звука «х» (представляющего собой турбулентный шум).

Рисунок 1.5. Спектр звука «х»

Современные системы распознавания речи выполняют спектральный анализ, который позволяет выделить из звуковых сигналов речи наиболее информативные составляющие. Это формантные частоты, а также шум. Помимо спектрального анализа используются и более совершенные методы, такие, например, как вейвлет-преобразования.

    1. Основные понятия о слухе человека

Наибольший объем информации об окружающем мире человек получает через глаза и уши. Наличие пары ушей обеспечивает «стереофонический слух», с помощью которого человек может быстро определять направление на источник звука.

Уши воспринимают колебания воздуха и превращают их в электрические сигналы, поступающие в мозг. В результате обработки по неизвестным пока алгоритмам эти сигналы превращаются в образы. Создание таких алгоритмов для компьютеров и есть научная задача, решение которой необходимо для разработки по-настоящему хорошо работающих систем распознавания речи.

На рис. 1.6 показаны наиболее важные части человеческого уха.

Рисунок 1.6. Внутренняя структура уха

Анатомическое ухо делится на три части:

  • наружное ухо;

  • среднее ухо;

  • внутреннее ухо.

Наружное ухо состоит из ушной раковины и наружного слухового прохода.

Функционально наружное ухо предназначено, во-первых, для улавливания и фокусировки звуковых волн (что нужно для улучшения слуха), и, во-вторых, для защиты среднего и внутреннего уха от механических повреждений. Что же касается преобразования звуковых колебаний воздуха в электрические импульсы, то наружное ухо не участвует в этом процессе.

Внутреннее строение среднего уха показано на рис. 1.7. Среднее ухо герметично отделено от наружного уха барабанной перепонкой.

Толщина барабанной перепонки составляет 0.1 мм.

Рисунок 1.7. Среднее ухо

Внутренняя область среднего уха, называемая барабанной полостью, соединена при помощи евстахиевой трубы с носоглоткой. Это позволяет поддерживать давление внутри барабанной полости, равному внешнему атмосферному давлению.

Воздух попадает в барабанную полость через евстахиеву трубу, когда человек глотает. Пре резком изменении внешнего давления (например, в самолете) появляется давящее ощущение в ушах.

В барабанной полости находится система так называемых слуховых косточек, состоящая из молоточка, наковальни и стремени. Эти косточки связаны между собой в единую подвижную цепь, состоящую из рычагов.

Задача системы слуховых косточек заключается в передаче звуковых колебаний от барабанной перепонки в область внутреннего уха.

Внутреннее ухо представляет наибольший интерес для специалистов по распознаванию речи, так как именно оно ответственно за преобразование звуковых колебаний в электрические импульсы.

Внутреннее ухо заполнено жидкостью. Оно состоит из двух частей: вестибулярного аппарата и улитки.

Механизм функционирования внутреннего уха достаточно сложен. Важно, что внутри улитки имеются чувствительные волоски, соединенные при помощи нервов с головным мозгом (рис. 1.8).

Рисунок 1.8. Чувствительные волоски внутри улитки

Улитка разделена эластичной перегородкой на два канала, заполненных жидкостью. В этой перегородке и находятся упомянутые выше чувствительные волоски и нервы.

Частотный диапазон звуковых колебаний

Человеческое ухо воспринимает звуковые волны длиной примерно от 1,6 см до 20 м, что соответствует частотному диапазону 16-20 000 Гц. Животные могут слышать звуки более низкой или более высокой частоты.

Что же касается человеческой речи, то ее частотный диапазон 300-4000 Гц. Надо заметить, что разборчивость речи останется вполне удовлетворительной при ограничении этого диапазона до 300-2400 Гц.

Сказанное означает, что для улучшения качества распознавания речи компьютерные системы могут исключить из анализа частоты, лежащие вне диапазона 300-4000 Гц или даже вне диапазона 300-2400 Гц.

  1. Звуковое оборудование

При рассмотрении вопроса звукового оборудования, участвующего в процессе распознавания речи, необходимо иметь четкое представление о том, какое именно оборудование используется. Другими словами, должно быть полное понимание того, какие стадии (этапы) проходит звук от человеческого речевого аппарата до непосредственного его распознавания. На рис. 2.1 приведена общая схема этапов прохождения звука. При этом подразумевается, что применяется не аппаратная, а программная защита от помех, модуль защиты от помех входит в состав системы распознавания речи.

Рисунок 2.1. Этапы прохождения звука

    1. Аналоговый и цифровой звук

Как известно, звуковые волны — это колебания плотности воздуха, порожденные соударением отдельных атомов среды. Однако, благодаря малым размерам атомов, принято считать, что изменение плотности носит предельно плавный, непрерывный характер, так как ни ухо, ни большинство приборов не ощущают этой «скачкообразности», или, как обычно говорят, дискретности звука.

Форма обычного электрического звукового сигнала в точности повторяет форму графика давления, поэтому такой сигнал принято называть аналоговым.

При преобразовании аналогового сигнала в цифровое представление используются следующие операции:

Дискретизация – это определение значений непрерывного сигнала (например, аналогового) в дискретные моменты времени.

Квантование – процесс замены реальных значений сигнала приближенными с определенной точностью.

Для хранения и обработки сигнала в компьютере, сигнал нужно представить в цифровом виде. Поскольку большинство сигналов в природе существуют в аналоговом виде, для них необходим процесс аналого-цифрового преобразования.

На рис. 2.2 показан процесс дискретизации.

Рисунок 2.2. Дискретизация аналогового сигнала

Таким образом, главными параметрами цифрового звука является частота дискретизации и количество уровней амплитуды (обозначаемое двоичной разрядностью отсчета). Частота дискретизации определяет частотный диапазон — прозрачность, звонкость звука, а разрядность отсчета — количество шумов, или «гладкость» звука.

Рисунок 2.3. Квантование сигнала

Существует теорема о дискретном представлении1, определяющая частоту, с которой должна осуществляться дискретизация аналогового сигнала, что бы вся важная информация, содержащаяся в сигнале, собиралась и хранилась при дискретизации.

Кратко теорему Котельникова можно сформулировать следующим образом.

Если fmax – самый высокочастотный компонент сигнала, то, чтобы элемент выборки полностью описывал сигнал, дискретизация сигнала должна осуществляться с частотой не ниже 2 fmax:

Fs ≥ 2 fmax,

(2.1)

где Fs – частота дискретизации. Следовательно, если максимальная частота аналогового сигнала составляет 4 кГц, то для того, чтобы собрать и сохранить всю информацию, содержащуюся в сигнале, его дискретизация должна осуществляться с частотой 8 кГц или больше.

    1. Преобразование звука в поток чисел

Во времена, когда исследователи только приступали к решению проблемы создания речевого интерфейса для компьютеров, им зачастую приходилось самостоятельно изготавливать аппаратуру, позволяющую вводить в компьютер звуковую информацию, а также выводить ее из компьютера

На рис. 2.4 показано подключение аналого-цифрового преобразователя к микрофону. При этом на вход x1 подается аналоговый сигнал, а с выходов u1-un снимается цифровой сигнал.

Рисунок 2.4. Аналого-цифровой преобразователь

Аналого-цифровые преобразователи характеризуются двумя важными параметрами — частотой преобразования и количеством уровней квантования входного сигнала. Правильный выбор этих параметров критически важен для достижения адекватного представления в цифровом виде аналогового сигнала.

    1. Микрофон

Как уже упоминалось ранее, звук представляет собой ни что иное, как колебания воздуха, частота которых лежит в диапазоне частот, воспринимаемых человеком. У разных людей точные границы диапазона слышимых частот могут изменяться, однако считается, что звуковые колебания лежат в диапазоне 16-20 000 Гц.

Микрофон предназначен для преобразования звуковых колебаний, создаваемых, в частности, речевым аппаратом человека, в электрические колебания.

Микрофон – это, по сути, преобразователь, т.е. устройство, переводящее информацию из одной формы в другую. Звуковая информация существует в виде давления воздуха; микрофон преобразует эту информацию в электрический ток. Звукоинженера интересует точность этого преобразования в плане соответствия оригиналу.

При производстве микрофонов могут использоваться различные механические методы. В звукозаписывающих студиях наиболее часто встречаются два типа: магнитно-динамические и конденсаторные.

Динамические микрофоны

Рисунок 2.5. Устройство динамического микрофона

В магнитно-динамических, чаще называемых динамическими, микрофонах звуковые волны вызывают движение тонкой металлической диафрагмы и присоединенной к ней проволочной катушки. Магнит создает магнитное поле, которое окружает катушку, и движение катушки в этом поле заставляет течь ток. Принцип работы такой же, как и при получении электрического тока, только в меньших масштабах. Важно помнить, что ток вырабатывается в соответствии с движением диафрагмы, и что величина тока определяется скоростью этого движения. Этот тип микрофонов известен как чувствительный к скорости (velocitysensitive).

Конденсаторные микрофоны

Рисунок 2.6. Устройство конденсаторного микрофона

В конденсаторном микрофоне диафрагма расположена очень близко к неподвижному электроду, но не касается его. (Иногда в электроде могут быть сделаны отверстия). Источник питания подсоединен к обеим металлическим частям, которые и создают электрический заряд между ними. Величина этого заряда определяется напряжением источника питания, площадью диафрагмы и электрода, а также расстоянием между ними. Это расстояние изменяется по мере того, как диафрагма движется под действием звуковых колебаний. Когда сокращается расстояние между диафрагмой и электродом, то по проводу начинает течь ток, в то время как источник питания обеспечивает необходимый заряд. Сила тока, пропорциональная по существу величине смещения диафрагмы, настолько мала, что ток приходится значительно усиливать и только после этого подавать на выход.

Существуют также микрофоны, предназначенные специально для компьютеров. Такие микрофоны обычно крепятся на подставке, стоящей на поверхности стола. Компьютерные микрофоны могут комбинироваться с наушниками.

Для распознавания речи могут быть использованы любые микрофоны, при условии, что их можно подключить к имеющемуся оборудованию. Однако разработчики систем распознавания речи рекомендуют приобрести такой микрофон, который при работе будет находиться на постоянном расстоянии ото рта говорящего.

Если расстояние между микрофоном и ртом не изменяется, то средний уровень электрического сигнала, поступающего от микрофона, также будет изменяться не сильно. Это окажет положительное влияние на качество работы современных систем распознавания речи.

Это происходит потому, что человек способен успешно распознавать речь, громкость которой меняется в очень широких пределах. Мозг человека способен отфильтровывать тихую речь от помех, таких, например, как шум машин, проезжающих по улице, посторонние разговоры и музыку.

Что же касается современных систем распознавания речи, то их способности в этой области оставляют желать лучшего. Если микрофон стоит на столе, то при повороте головы или изменении положения тела расстояние между ртом и микрофоном будет изменяться. Это приведет к изменению уровня выходного сигнала микрофона, что, в свою очередь, ухудшит надежность распознавания речи.

Поэтому при работе с системами распознавания речи наилучшие результаты будут достигнуты, если использовать микрофон, прикрепленный к наушникам. При использовании такого микрофона расстояние между ртом и микрофоном будет постоянным.

Пока помехозащищенность систем распознавания речи еще очень и очень низка. Однако в 2003 году была опубликована спецификация стандарта ETSI DSR (Digital Speech Recognition), описывающая алгоритм борьбы с помехами при помощи математического аппарата, так называемого фильтра Винера.

  1. Анализ речевых сигналов

    1. Осциллографический анализ

Звучание голоса представляется в виде сложного периодического сигнала приблизительно пилообразной формы (рис. 3.1).

Рисунок 3.1. Сигналограмма звука «и»

Современные системы обработки речевых (звуковых) сигналов позволяют отображать сигнал в графической форме в виде осциллограммы – распределения амплитуды сигнала по времени.

Как можно видеть на приведенной осциллограмме звука «и» (рис. 3.1), в речевом сигнале можно выделить период. Помимо этого можно немного отойти от непосредственного построения точной осциллограммы и построить, так называемую, огибающую кривую сигнала. Огибающая сигнала строится по положительным и отрицательным составляющим амплитуды сигнала относительно оси времени. Анализ огибающей позволяет выделять речевые единицы, такие, как фонемы.

Однако не всегда удается использовать осциллограмму звука для распознавания. На первый взгляд может показаться, что один и тот же звук, произнесенный одним и тем же человеком, будет иметь один и тот же вид на осциллограмме. Но это в большинстве случаев не так. Осциллограмма звука, даже произнесенного одним человеком, может видоизменяться в зависимости от занимаемого места в предложении, от характера предложения, интонации и настроения. Так, например, слово, произносимое в начале предложения будет иметь большую амплитуду, чем то же слово в середине предложения.

Как видно, использовать осциллограмму звука для распознавания напрямую не представляется возможным.

Можно было бы классифицировать фонемы и аллофоны по форме линий, огибающих соответствующий фрагмент осциллограммы. Однако на деле этот путь ведет в тупик, так как форма этой линии несет лишь информацию об энергии звукового сигнала, но не о его частотном спектре.

Спектральный анализ позволяет выделять фонемы и аллофоны более надежно по сравнению с анализом формы огибающей.

    1. Спектральный анализ

Спектральные исследования речи позволяют проследить изменение содержания в звуках речи тех или иных частотных компонентов. В результате этих исследований был обнаружен факт наличия формантных частот, несущих в себе основную речевую информацию. Отслеживание изменений этих частот, а также изменений амплитуды звукового сигнала позволяет выделять из сигнала лексические элементы — фонемы и аллофоны.

Низшая (основная) частота в общем спектре частот у отдельных людей может составлять от 70 до 400 Гц (т.е. в одну секунду могут укладываться от 70 до 400 наибольших (основных) периодов Т), в связи с чем основные частоты различных по типу голосов лежат в таких пределах:

  • для баса: от 70 до 400 Гц;

  • для баритона: от 110 до 440 Гц;

  • для тенора: от 130 до 590 Гц;

  • для контральто: от 175 до 780 Гц;

  • для меццо-тинто: от 220 до 1050 Гц;

  • для сопрано: от 350 до 1320 Гц.

Таким образом, можно с определенной долей вероятности говорить о нижней и верхней границах частоты основной гармонической составляющей голоса человека. При формировании звуков речи и пения, осуществляемом системой природных резонаторов речевого аппарата, подчеркиваются те или иные группы близлежащих частот их гармонического спектра (спектральные максимумы). Таких спектральных максимумов в звуке может быть четыре и больше, однако распознавание каждого звука связано с одним или двумя первыми усиленными участками спектра, которые называются формантами. На рис. 3.2 показано частотное размещение формантных областей некоторых звуков.

Рисунок 3.2. Частотное размещение формантных областей

Кривая на этом графике показывает относительное содержание формант (в процентах) в различных областях частотного диапазона. Наибольшее число формант расположено в области частот от 100 Гц до 8 кГц. Для гласных звуков характерны форманты с дискретным спектром (т.е. с явно выраженными пиками, всплесками частот); для согласных, особенно глухих, таких как «с», «ш» и «х», характерны форманты со сплошным спектром. Полный спектр речевого сигнала образуется из основных тонов вместе с гармоническими составляющими, а также с формантными и неформантными областями.

Голос и речь человека являются предметами изучения различных наук как с позиций семантики, так и с позиций эстетики и пр. Так, например, наука, занимающаяся изучением человеческого голоса с медицинской точки зрения, называется фониатрией (от греч. «phone» — «звук», «голос» и «iatreia» — «лечение»).

Существуют специальные устройства, методы и алгоритмы, предназначенные для распознавания человеческой речи, а также идентификации человека по голосу.



Скачать документ

Похожие документы:

  1. 8 инновационная образовательная программа 8 1 основные цели и задачи реализации инновационной образовательной программы " качество знания компетентность" 8 1 1 цель реализации инновационной образовательной программы 8 1 2 основные

    Основная образовательная программа
    ... не только полезные с точки зрения приобретаемыхзнаний и умений, но и внешне эффектные и привлекательные демонстрационные ... компетенции, как потенциальная способность применять знания, умения и личностные качества для успешной деятельности ...
  2. Настоящая программа устанавливает минимальные требования к знаниям и умениям магистранта и определяет содержание и виды учебных занятий и отчетности

    Программа
    ... практики является формирование у магистрантов знаний, умений и навыков, связанных с организацией ... дисциплины в ее значении для приобретаемой профессии и в контексте обучения ... дисциплины в ее значении для приобретаемой профессии и в контексте обучения ...
  3. Тема 1 ОБЩАЯ ХАРАКТЕРИСТИКА МИРА БЛОК ДОБЫВАНИЯ ЗНАНИЙ И УМЕНИЙ Задание 1

    Документ
    ... МИРОВОГО ХОЗЯЙСТВА БЛОК ДОБЫВАНИЯ ЗНАНИЙ И УМЕНИЙ Задание 1. Проанализируйте рисунок ... материалы для углубления вновь приобретаемыхзнаний. 5. Готовить рецензию на ... . Тема 8. АФРИКА БJIOK ДОБЫВАНИЯ ЗНАНИЙ И УМЕНИЙ Задание 1. Пользуясь таблицей 1 в ...
  4. Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности (3)

    Программа
    ... учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды ... генетически обусловленных (врожденных) и индивидуально приобретаемых компонентов поведения в индивидуальном развитии организма ...
  5. «краткосрочная финансовая политика»

    Учебно-методический комплекс
    ... финансовой политики; получить прикладные знания в области оперативного контроля ... организации и другие области знаний. Приобретаемыезнания и умения станут необходимой частью ... из форм проверки знаний студента, умения самостоятельно и творчески ...

Другие похожие документы..