С целью изучения динамики звуковых процессов, и в частности речевых спектров, применяются динамические спектрографы, известные также в литературе под термином «видимая речь». На динамических спектрограммах, полученных с помощью данного прибора, по горизонтальной оси регистрируется время, по вертикальной – частота спектральных составляющих, а их интенсивности соответствует степень потемнения линий (Potter et al., 1947). Пример регистрации речевой фразы: «Девушка, как тебя зовут?» – при помощи динамического спектрографа приведен на рисунке 5. Жирными линиями здесь обозначены формантные частоты, характерным образом изменяющиеся по частотной шкале в процессе речи. Для более точного определения речевых формант существуют специальные методы и автоматические устройства – так называемые формантоискатели (Сапожков, Михайлов, 1983).


Рис. 5. Динамическая спектрограмма фразы «Девушка, как тебя зовут?», синтезированной с помощью синтезатора «OVE-3» (Деркач и др., 1983).

В верхнем ряду «Девушка как», в нижнем – «тебя зовут». Хорошо видны первые три форманты – F>1, F>2, F>3, частоты которых изменяются в процессе воспроизведения фразы.


Среднестатистический (усредненный) спектр русской речи, полученный методом интегрирования (в частотных полосах спектрометра) большого числа речевых сигналов, охватывает весьма широкую полосу частот, примерно от 100 до 10 000 Гц, с постепенным падением к высоким частотам. Это не означает, что весь указанный частотный диапазон необходим для удовлетворительного восприятия и понимания речи слушателем.

Исследования показали, что речевой сигнал сохраняет достаточно высокую разборчивость при условии ограничения его спектрального состава как сверху (подавление высоких частот спектра при помощи фильтров низкой частоты), так и снизу (подавление низких частот спектра при помощи фильтров высокой частоты). Слоговая разборчивость 80 % обеспечивается при ограничении высоких частот от 2 кГц и выше или при ограничении низких частот от 2 кГц и ниже. Напомним, что 80 % слоговой разборчивости соответс твует 98 % разборчивости с лов (см. рис унок 1) и 99,5 % фразовой разборчивости (см. рисунок 2). Таким образом, обе половины спектра речевого сигнала, разделенного по частоте 2 кГц, обеспечивают практически 100-процентную правильность восприятия слушателем фразовой речи.

Еще более устойчивыми к ограничению спектральной полосы оказываются некоторые виды экстралингвистической информации, в частности узнавание говорящего по голосу. Так, ограничение речевого спектра полосой всего лишь 0–400 Гц и ниже обеспечивает правильное узнавание диктора с вероятностью 0,7 (70 %). Однако эта же полоса спектра (400 Гц и ниже) дает лишь около 3 % правильного восприятия слогов. Ограничение низких частот (4 кГц и выше) дает 65 % узнавания диктора и лишь около 32 % правильного восприятия слогов.

Исходя из указанных исследований, частотно-спектральный диапазон в линиях телефонной связи установлен в пределах 300– 3000 Гц, что обеспечивает вполне удовлетворительное речевое общение. Однако для высококачественной передачи речи и особенно музыки (повышения натуральности ее звучания) необходима более широкая полоса частотного диапазона: 16–16000 Гц и шире. Так, некоторые фирмы в целях достижения особо высокого качества звучания выпускают электроакустическую аппаратуру (магнитофоны, усилители) с диапазоном частот, захватывающим инфразвуковые и ультразвуковые области.

Частота основного тона. Согласно миоэластической теории голосообразования (Морозов, 1977; Berd, 1958), голос, как уже указывалось, формируется в результате периодических колебаний голосовых складок под действием проходящего через их сомкнутые края тока воздуха, создаваемого в свою очередь экспираторной мускулатурой дыхательного аппарата и эластической тягой легких. Считается, что эластические свойства голосовых складок с участием эффекта Бернулли обеспечивают достаточно стабильные автоколебания голосовых складок.