спектр ее оказывается преобразованным, т. е. имеет максимумы акустической энергии (F>1, F>2) в частотных полосах, соответствующих резонансному усилению речевого тракта, и минимумы в соседних полосах, соответствующих поглощению (подавлению) речевым трактом акустической энергии (см. рисунок 3д).


Рис. 3. Схема преобразования спектра в речевом тракте (Сапожков, Михайлов, 1983).

а – звуковые импульсы голосовых связок; б – осциллограмма речевого звука; в – спектр источника (голосовых связок); г – резонансные характеристики речевого тракта; д – результирующий спектр речевого звука. А – амплитуда; Р – звуковое давление; t – время; L – относительный уровень спектральных составляющих; f – частота спектральных составляющих; F>1– первая форманта; F>2– вторая форманта.


Как установлено с параллельным применением кинорентгеносъемки и акустической техники, в процессе артикуляции звуков речи, т. е. перемещении языка, губ, челюсти, изменении объемов и конфигурации ротовой и глоточной полостей, резонансные характеристики речевого тракта меняются. Это соответственно приводит к изменению максимумов на спектрах речевых звуков, в частности гласных [А], [Э], [И], [О], [У], [Ы] (см. рисунок 4). Максимумы акустической энергии на спектрах звуков, получившие название формантных максимумов, или речевых формант, играют основную роль в опознавании речевых звуков слуховой системой человека. Формантные максимумы на спектрограммах обозначаются индексами F>1, F>2, F>3и т. д. (см. рисунок 3д) в соответствии с номером форманты (нумерация ведется от самой низкой, первой, форманты F>1к высоким).


Рис. 4. Представление шести русских гласных [А], [Э], [И], [О], [У], [Ы] в координатах «частота первой форманты F>1(по оси абсцисс) – частота второй форманты F>2(по оси ординат)» (Fant, 1965).

Характерное положение каждой гласной на плоскости F>1 – F>2 обозначено точкой. Рядом изображен характерный профиль речевого тракта при артикуляции данного звука и типичные для каждой гласной спектрограммы.


Согласно акустической теории речеобразования (Fant, 1960), каждый речевой звук характеризуется наличием ряда формант. Однако для эффективного узнавания звуков речи слушателем достаточно первых двух формант (F>1и F>2). В отличие от гласных спектральные максимумы многих согласных (например, С, З, Ш) сильно сдвинуты в высокочастотную область вплоть до ультразвуковых частот 50–80 кГц (Мясников, Мясникова, 1970). Вместе с тем в спектре естественной речи обнаружены и низкочастотные составляющие в области инфразвуков (Морозов и др., 1972).

Приведенные на рисунке 4 значения формантных частот гласных звуков отнюдь не являются строго фиксированными (равно как и согласных) и у разных людей могут отклоняться в пределах до 20 % (в силу анатомо-физиологических различий речевых трактов у разных людей). Поскольку у женщин и детей речевые резонаторы в целом имеют меньшие объемы, формантные частоты их речи сдвинуты в высокочастотную область: у женщин на 17 %, у детей (до 10 лет) на 25 % по сравнению с таковыми у мужчин. Указанное обстоятельство тем не менее не вызывает особых затруднений у слушателей в восприятии детской и женской речи, хотя в целом разборчивость детской и женской речи оказывается несколько ниже, чем мужской, особенно в верхней части звуковысотного диапазона голоса (Морозов, 1964b, Morozov, 1980).

Выше упоминалось о среднестатистических распределениях формантных областей на стационарных участках речевых звуков. Однако естественная речь характеризуется более или менее плавными переходами от одного артикулируемого звука к другому, что отражается на спектрах в наличии переходных процессов, т. е. участков между звуками, в которых содержится информация как о предыдущем, так и последующем звуке.