В Санкт-Петербурге создается звуковой корпус «Один речевой день» (model.org.spbu.ru). Для сбора материала создатели корпуса предложили 40 добровольцам повесить на шею диктофоны и записывать все (ну или почти все) разговоры в течение целого дня. В корпус войдут как сами аудиозаписи, так и их снабженные аннотацией расшифровки. Уже сейчас известно, что самым частотным словом в этом корпусе оказалось местоимение «я», что легко объяснимо.

Перевод в цифровую форму исторических документов существенно расширяет список текстов, представленных в корпусах. Собственно коллекции исторических текстов существуют уже много веков. У исследователя древнего языка нет возможности уточнить что-то у носителя или обратиться к собственной языковой интуиции, поэтому сбор всех доступных текстов представляется необходимой задачей. Эти коллекции, по сути «доцифровые корпуса», часто становились основой для настоящих электронных диахронических корпусов (англ. diachronic corpus).

Корпус древнейших старославянских текстов включает десяток рукописных книг и несколько надписей и отдельных листков, хранящихся в разных странах по всему свету. Большая часть этого корпуса известна еще с XIX века, но сбор их в единый электронный корпус стал возможен только в наше время. Этот корпус называется Corpus Cyrillo-Methodianum Helsingiense.

Вообще при создании корпуса никаких ограничений на тип текста, кроме технических, не существует. Единственный критерий для отбора – задача, для которой собран корпус. И даже самый странный и маргинальный языковой материал заслуживает внимания лингвиста.

The HCRC Map Task Corpus

Этот корпус был собран в Шотландии и состоит из диалогов, в которых один собеседник объясняет другому маршрут. Все бы ничего, но говорящие разделены непрозрачной перегородкой (то есть не могут использовать жесты) и не имеют общей карты.

3. Жанры текстов

К предыдущей части примыкает и разделение текстов, входящих в корпус, на разные жанры. Корпус может состоять не только из литературных произведений разных жанров (например, фанфик или исторический роман), но и из текстов разговорных, публицистических, исторических и даже ученических.

В течение одного лета 2013 года студенты и ученые записывали диалектные данные в одном районе Архангельской области. В результате появился корпус, созданный на основе этих записей. Он включает тексты одного жанра: рассказы носителей северо-русского диалекта. Этот корпус называется «Язык бассейна Устьи. Корпус северорусской диалектной речи». На сайте www.slavist.de/Pushkino вы сможете послушать, как звучит живая диалектная речь.

4. Представленность языкового материала

Корпус может содержать как полные тексты, так и фрагменты. Фрагментированный корпус обеспечивает лучшую сбалансированность собранного материала.

Брауновский корпус (Brown University Standard Corpus of Present-Day American English, Brown Corpus). Один из первых корпусов был создан в начале 1960-х годов и состоял из пятисот случайно выбранных фрагментов объемом около 2000 слов из текстов 15 разных жанров. При этом доля фрагментов одного жанра соответствовала доле всех опубликованных текстов этого жанра. По замыслу составителей, именно это обеспечило сбалансированность собранного материала.

Особыми типами фрагментированного корпуса могут считаться корпуса n-грамм и конкордансы.

Корпуса n-грамм

Как следует из названия, такой корпус содержит загадочные n-граммы (англ. n-grams) – цепочки, состоящие из идущих подряд двух, трех, четырех и т. д. токенов (их называют, соответственно, биграммы, триграммы, 4-граммы и т. д.).