textarchive.ru

Главная > Документ


Рис. Степень сжатия для различных звуков русской речи

(с = 0.92, m = 0.92)

Выводы. Проведенные вычислительные эксперименты показали высокую эффективность разработанного метода с позиции сжатия речевых данных при сохранении приемлемого для пользователя качества воспроизведения. Предлагаемый подход к сжатию речевых сигналов в среднем позволяет достичь сжатия в 6 – 7 раз без существенной потери качества воспроизведения. Этот показатель можно увеличить за счет использования известных алгоритмов обнаружения и удаления пауз.

Список литературы:1.Жиляков Е.Г. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений: монография / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко // Белгород: Изд-во БелГУ, 2007. – 136 с. 2. Шелухин О.И. Цифровая обработка и передача речи / О.И. Шелухин, Н.Ф. Лукьянцев. – М.: Радио и связь, 2000. – 456 с. 3.Жиляков Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным: монография / Е.Г. Жиляков. – Белгород: Изд-во БелГУ, 2007. – 160 с. 4.Прохоренко Е.И. Новый метод оптимального субполосного преобразования в задаче сжатия речевых данных / Е.И. Прохоренко, А.В. Болдышев, А.А. Фирсова, А.В. Эсауленко // Журнал "Вопросы радиоэлектроники", серия ЭВТ. – Вып. №1. – М.: 2010. – С. 49 – 55. 5. Ковалгин Ю.А. Цифровое кодирование звуковых сигналов / Ю.А. Ковалгин, Э.И. Вологдин. – Изд-во: Корона Принт, 2004. – 240 с. 6. Болдышев А.В. О различиях распределения энергии звуков русской речи и шума / А.В. Болдышев, А.А. Фирсова // Материалы 12-ой Международной конференции и выставки "Цифровая обработка сигналов и её применение. – "DSPA'2010". – М.: 2010. – С. 204 – 207. 7.Гантмахер Ф.Р. Теория матриц / Ф.Р. Гантмахер. – М.: Физматлит, 2004. – 560 с. 8.Сизиков В.С. Математические методы обработки результатов измерений: учебник для вузов / В.С. Сизиков. – СПб.: Политехника, 2001. – 240 с.

УДК 621.391

Про виборче перетворення частотних компонент мовних сигналів в завданні стиснення / Жіляков Е.Г., Болдишев А.В., Курлов А.В., Фірсова А.А., Есауленко А.В. // Вісник НТУ "ХПІ". Тематичний випуск: Інформатика і моделювання. – Харків: НТУ "ХПІ". – 2011. – № 17. – С. 37 – 43.

У статті приведені результати обчислювальних експериментів по апробації методу стиснення мовних даних на основі виборчого перетворення частотних компонент мовних сигналів, отриманих за допомогою нового методу субсмугового частотного аналізу/синтезу. Іл.: 1. Табл.: 2. Бібліогр.: 8 назв.

Ключові слова: частотні компоненти мовних сигналів, стиснення мовних даних, субполосний частотний аналіз/синтез.

UDK 621.391

About electoral transformation frequency component of vocal signals in the task of compression / Zhilyakov E.G., Boldyshev A.V., Kurlov A.V., Firsova A.A., Esaulenko A.V. // Herald of the National Technical University "KhPI". Subject issue: Information Science and Modelling. – Kharkov: NTU "KhPI". – 2011. – №. 17. – P. 37 – 43.

In this article the results of calculable experiments are resulted on approbation of method of compression of vocal data on the basis of electoral transformation frequency component of vocal signals, got by the new method of subband frequency analysis/synthesis. Figs.: 1. Tabl.: 2. Refs.: 8 titles.

Keywords: frequency components of speech signals, compress speech data, sub-band frequency analysis/synthesis.

Поступила в редакцію 03.02.2011

УДК 621.391

Е.Г. ЖИЛЯКОВ, д.т.н., проф. НИУ "БелГУ", Белгород,

Е.И. ПРОХОРЕНКО, к.т.н., доц. НИУ "БелГУ", Белгород,

А.В. БОЛДЫШЕВ, аспирант НИУ "БелГУ", Белгород,

А.А. ФИРСОВА, аспирантка НИУ "БелГУ", Белгород,

М.В. ФАТОВА, магистр НИУ "БелГУ", Белгород

СЕГМЕНТАЦИЯ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ АНАЛИЗА ОСОБЕННОСТЕЙ РАСПРЕДЕЛЕНИЯ ДОЛЕЙ ЭНЕРГИИ ПО ЧАСТОТНЫМ ИНТЕРВАЛАМ1

В статье рассмотрены существующие подходы к сегментации речевых сигналов. Представлены результаты оценки особенностей распределения энергии речевых сигналов. Предлагается способ сегментации речи на основе учета особенностей распределения долей ее энергии по частотным интервалам. Ил.: 3. Табл.: 1. Библиогр.: 8 назв.

Ключевые слова: сегментация, речевые сигналы, распределение долей энергии.

Постановка проблемы и анализ литературы. Одной из проблем обработки речевых сигналов является сегментация сигнала на звуки. Точность алгоритмов сегментации определяет надежность и эффективность использования в дальнейшем таких алгоритмов, как распознавание речи, синтез, сжатие.

Сегментация речи – это процесс поиска границ между элементами речевого сообщения: фразами, словами, слогами, фонемами. Сегментация может осуществляться вручную или автоматически. Сегментация вручную является надежным, но трудоемким способом, особенно если это касается большого объема обрабатываемой информации. Также сегментация вручную невозможна при реализации обработки сигнала в режиме реального времени [1, 2, 3].

Наиболее интересной представляется автоматическая сегментация речевых сигналов. Эффективность алгоритма сегментации определяется точностью определения границы между различными звуками. Существует два подхода автоматической сегментации. Первый состоит в том, что при обработке речевого сигнала известна последовательность фонем, необходимо только определить границы между ними. Второй подход не использует априорную информацию о речевом сообщении, и сегментация осуществляется на основе изменения характера речевого сигнала. Можно выделить также третий подход, объединяющий два перечисленных: использование априорной информации и анализ изменении характера сигнала [1, 4].

Все существующие алгоритмы сегментации речи основываются на статических или динамических характеристиках речи. Анализ статических характеристик не всегда приводит к точной сегментации. Оценка динамических характеристик сигнала позволяет увеличить точность сегментации [1, 4].

Одними из основных методов сегментации являются [1 – 4]:

1) сегментация по усредненному нормированному спектру;

2) сегментация по динамическим детекторам;

3) сегментация по корреляции между равноотстоящими спектрами;

4) сегментация с использованием дискретного вейвлет-преобразования.

Цель статьи – разработка нового метода сегментации речевых сигналов, основанного на учете особенностей распределения долей энергии по частотным интервалам для каждого звука речи [5].

Результаты исследований. Каждый звук имеет свое особенное распределение долей энергии по частотному диапазону. Звуки, соответствующие буквам русского алфавита, сосредоточены в узком частотном интервале, в то время как спектр шума распределен по всей области частот более равномерно. Эту особенность можно использовать для определения начала и конца слова или словосочетания.

На всей длительности любого звука можно выделить несколько участков, имеющих некоторые особенности. К таким участкам относятся начало звука, середина и конец. Это вызвано тем, что в слитной речи происходит переход одного звука в другой, для этого речевой аппарат человека некоторое время перестраивается. Для некоторых звуков, соответствующих таким буквам, как "е", "ё", "ю", "я", можно выделить большее число участков. Это связано с тем, что они состоят из двух звуков, плавно переходящих из одного в другой. Каждый из участков имеет свои особенности распределения энергии. Распределение энергии разных участков одного фрагмента звука отличается незначительно. Эти особенности могут быть использованы для сегментации речи.

Анализ распределения энергии отрезков сигналов по частотным интервалам предлагается проводить на основе точного метода [7]. В этом случае полный набор долей энергии отрезка сигнала определяется следующим образом:

, (1)

где – анализируемый отрезок сигнала; r (r = 1, …, R) – номер частотного интервала;R – число частотных интервалов, на которые разбивается частотная ось; – субполосная матрица, определяемая для каждого из R частотных интервалов, с элементами вида

, i,k = 1, …, N, (2)

где vr, vr+1 – границы r-го частотного интервала, причем:

, , r= 1, …, R, (3)

N – длительность анализируемого отрезка речевого сигнала.

Одной из характеристик, отражающей особенности звуков русской речи, является величина частотной концентрации, которая оценивается с использованием следующего выражения [8]:

, (4)

где – минимальное количество частотных интервалов (частотная концентрация), в которых сосредоточена заданная доля энергии m звукового отрезка, т.е.

. (5)

Здесь выполняется неравенство

, (6)

где – анализируемый отрезок сигнала; m – заданное значение доли энергии сигнала; P(k),N – упорядоченные по убыванию доли энергий сигнала, попадающие в заданные частотные интервалы, т.е.

, , k= 1, …, R. (7)

Для оценки возможности сегментации с использованием свойства частотной концентрации звуков русской речи было проведено большое количество экспериментов по оценке частотной концентрации различных фонем при различных значениях числа интервалов, на которые разбивается ось частот (R= 4, 8, 16, 32, 64), и значениях длины окна анализа (N= 64, 128, 256). В качестве исходного материала был использован фрагмент лекции, содержащий большое количество различных фонем, записанный с частотой дискретизации fд= 8 кГц с 16 битовым представлением в монорежиме.

Результаты экспериментов показали, что увеличение количества интервалов, на которые разбивается частотная ось, приводит к уточнению величины частотной концентрации отрезка сигнала.

В таблице представлены результаты оценки величины частотной концентрации для различных звуков русской речи.

Таблица. Распределение долей частотных интервалов, в которых сосредоточено 95% энергии при N= 128, R= 32 для различных звуков русской речи

гласные

звук

а

е

ё

и

о

у

ы

э

ю

я

WNR

0,31

0,13

0,09

0,09

0,19

0,09

0,16

0,31

0,13

0,09

сонорные согласные

звук

й

л

м

н

р

WNR

0,19

0,19

0,19

0,16

0,34

звонкие согласные

звук

б

в

г

д

ж

з

WNR

0,22

0,28

0,19

0,16

0,25

0,13

глухие согласные

звук

к

п

с

т

ф

х

ц

ч

ш

щ

WNR

0,22

0,16

0,25

0,28

0,16

0,25

0,19

0,44

0,47

0,34

Из таблицы видно, что для некоторых гласных и согласных звуков величины частотной концентрации совпадают. Особенно это проявляется для сонорных согласных.

На рис. 1 представлен фрагмент речевого сигнала, соответствующий звукосочетанию "шеч", выделенному из слова "шахматно-шашечный". Звук разбит на 16 равных окон анализа по 128 отсчетов.



Скачать документ

Похожие документы:

  1. Государственное бюджетное города москвы «центральная универсальная

    Документ
    ... Р. С. Тенденции роста и развития электронных периодических изданий / Р. С. Гиляревский, И. А. Черный // Современное ... новых информационных технологий в деятельности Нижегородской государственной областной детской библиотеки. Свергунова Н. М. ...
  2. Государственное образовательное профессионального образования

    Документ
    ... деятельности ЗабКИПКРО………………………………………………………… 17 V. Периодические издания:…………………………………………… Научно-методический журнал «Педагогическое ... и методическим работникам.  Статистика результатов государственной (итоговой) аттестации выпускников (9-х классов в ...
  3. Государственное и муниципальное управление (3)

    Ученые записки
    ... государственных экономических, социальных, и других программ, издание и продвижение нормативно-правовых актов, реклама государственных учреждений и государственных ... ра­бот свидетельствует 5-е издание учебного пособия «Государственная и муниципаль­ная ...
  4. Государственная центральная ХАНТЫ-МАНСИЙСК

    Библиографический указатель
    ... с 1941 г. - «Ханты-Мансийск». Справочный аппарат издания включает «Указатель предприятий, учреждений и организаций ... Институт природопользования Севера (Филиал Тюменской Государственной сельскохозяйственной академии) Факультет экономики и ...
  5. Государственная центральная ХАНТЫ-МАНСИЙСК

    Библиографический указатель
    ... с 1941 г. - «Ханты-Мансийск». Справочный аппарат издания включает «Указатель предприятий, учреждений и организаций ... Институт природопользования Севера (Филиал Тюменской Государственной сельскохозяйственной академии) Факультет экономики и ...

Другие похожие документы..