Распознавание речи

Упрощенно процесс машинного распознавания речи можно описать в нескольких фразах. Аналоговый сигнал, генерируемый микрофоном, оцифровывается, далее в речи выделяются так называемые фонемы, то есть элементарные фрагменты, из которых состоят произносимые слова и определяется, какое слово какому сочетанию фонем соответствует. Из всего этого строится словарь. Распознать слово – значит, найти его в этом словаре по произнесенному сочетанию фонем.

Но, во-первых, человек обычно не делает паузы между словами, а при слитном произнесении к задаче распознавания прибавляется еще и задача выделения слов из потока речи. Особенно «неприятной» кажется необходимость выделять односложные слова – именно с ними и связано максимальное число ошибок реально существующих систем. Можно, конечно, потребовать, чтобы человек произносил слова по одному, делая достаточно продолжительные паузы. Не очень удобно, но для подачи простых команд сгодится.

Следующая проблема – различие диалектов, дикций и прочие особенности говорящих. Для того чтобы система работала устойчиво, она должна, например, «осознавать», что мягкое южное и твердое северное «г» – это одна и та же буква. А звук «р» чего стоит! Специалисты утверждают, что речь человека столь же индивидуальна, как отпечатки пальцев. Именно из-за этих и многих других проблем до полного решения задачи распознавания речи по-прежнему весьма далеко. И все-таки, уже появились технологии, которые позволяют работать с почтой, контактной информацией и расписанием через голосовой интерфейс.

Преобразование текст-речь.

Так называется технология, позволяющая генерировать речь по тексту. Основная область применения – различные автоматические системы, предусматривающие голосовую передачу информации: справочные системы или программы автоматического чтения по телефону Сегодня уже существуют алгоритмы синтеза речи по текстам на английском, немецком, испанском, японском, русском и ряде других языков.

Цифры и графика


Помните, как в детстве мы перерисовывали картинку? На картинку наносилась сетка, на чистый лист бумаги такая же, и затем, клеточка за клеточкой изображение с картинки переносилось на бумагу. Так можно перенести на чистый лист бумаги не только графику, но и цвет-свет каждой клеточки исходной картинки. И чем больше клеточек, тем более похожим на оригинал будет наше произведение.

А ведь картинку можно описать.

Координаты клеточек обозначать как в игре «Морской бой» (a1, а2….. ж10), а их цветосветовые характеристики буквами типа: тк – тёмнокрасный, сз – светлозеленый, ее – светлосерый и т. д. А теперь представьте, что клеточек мы сделали 1200×800 и с помощью оптики перенесли картинку не на разграфленный лист бумаги, а на специальную светочувствительную матрицу. Каждая клеточка матрицы соединена с определенным участком памяти компьютера, в которой запоминается все о цвете-свете этой клеточки. Теперь в цифрах. Это цифровое описание изображения можно обрабатывать, а затем выводить на экран или с помощью принтера на бумагу.

ПЗС (прибор с зарядовой связью) или ПЗС-матрица

Такой светочувствительный прибор был изобретен в 1970 году и получил название ПЗС (прибор с зарядовой связью) или ПЗС-матрица. Первоначально эта технология нашла применение в телевидении. Именно появление ПЗС-матриц позволило создать легкие репортажные камеры с батарейным питанием, а затем и домашние видеокамеры. Фотография на основе аналогичной технологии возникла позже, т. к. для движущейся телевизионной картинки качество не столь важно, как для статического фотоизображения. Все дело в количестве светочувствительных клеточек. Если в матрице 1200 клеточек по горизонтали и 800 по вертикали, то всего их 960000, а для хорошей цифровой видеокамеры нужна ПЗС-матрица с количеством таких элементов не менее 1.5 миллиона, для хорошего фотоаппарата – не менее 3 миллионов. А ведь для описания изображения по каждой из этих миллионов клеточек нужна информация о ее цветосветовых характеристиках. Представляете, какое море нулей и единиц должно быть записано в памяти компьютера? А если картинка еще и меняется 25 раз в секунду? И при этом для обработки и превращения этого моря нулей и единиц в картинку компьютер должен выполнять множество самых разных операции? Вот все это и называется цифровыми видео технологиями.