Вот как выглядит обычный текст и его представление в виде би- и триграмм.


Согласитесь, довольно странный и неудобный вид. Но даже эти короткие фрагменты показывают, что некоторые n-граммы (например, не до) встречаются чаще, чем другие. Следовательно, такой корпус позволяет искать устойчивые сочетания. Примерами фрагментированного корпусов такого типа являются Google n-gram corpus (books.google.com/ngrams/datasets) и корпуса, составленные на основе НКРЯ (ruscorpora.ru/corpora-freq.html)

Конкордансы

Конкордансом (англ. concordance) в корпусной лингвистике называют список найденных примеров (вхождений) нужного токена или леммы в минимальном контексте. Обычно такой контекст представляет собой фрагмент из нескольких единиц слева и справа. Многие современные корпуса предлагают конкорданс в качестве дополнительной возможности вывода найденной информации на экран, такой формат вывода называется KWIC (читается «квик», англ. key word in context). Вообще, конкорданс – не столько корпус, сколько формат показа результатов. Вот пример конкорданса, составленного по запросу «Пушкин – наше»:



5. Типы разметки (аннотация)

Метатекстовая разметка

Самый простой тип разметки – информация о текстах, вошедших в корпус: метатекстовая разметка, или метаданные (англ. metadata). Такая разметка содержит информацию о внешней истории текстов: обстоятельства создания, социальные и возрастные характеристики автора, правила использования корпуса и т. д. Одна из самых подробных схем метаразметки представлена в Национальном корпусе русского языка (она называется паспорт текста).

I.1.

● Автор текста: имя, пол, дата рождения (или примерный возраст)

● Название текста

● Время создания текста

● Объем текста

II.1. Художественные тексты

● Жанр текста: историко-приключенческая, криминальная, любовная литература, сатира и юмор, фантастика и т. п.

● Тип текста: анекдот, боевик, детектив, повесть, притча, рассказ, роман, сказка, триллер, эпопея, эссе и т. п.

● Хронотоп текста: доисторический период, античность, Средние века, Новое время, Россия: 19 век, Россия: 20 век (до 1914), Россия/СССР: война 1914–1918, революция, гражданская война, 20-е гг., 30-е гг., война 1941–1945, послевоенный период (до 1952), 50-е гг., 60–80 гг., перестройка, Россия: постсоветский период.

II.2. Нехудожественные тексты

● Сфера функционирования текста: бытовая, официально-деловая, производственно-техническая, публицистическая, учебно-научная, церковно-богословская.

● Тип текста: автобиография, акт, дневник, договор, документ, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, листовка, обзор, объявление, отзыв, отчет, очерк, письмо, постановление, проповедь, путеводитель, резюме, реклама, рекомендация, рецензия, рецепт, сочинение, справочник, статья, учебник, характеристика, хроника, эссе и т. п.

● Тематика текста: бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производство; сельское хозяйство; спорт; природа; частная жизнь и т. п.

Уже эта информация позволяет проводить исследования по стилистике, истории, региональным вариантам языка. Однако современный корпус обычно оснащен еще более важным арсеналом – языковой разметкой.

Языковая разметка

Лингвистически аннотированный корпус можно представить как набор языковых единиц, для каждой из которых выполнен языковой разбор, примерно так, как это делают школьники, выполняя, например, морфологический разбор. Конечно, такого рода анализ делают не горемычные школьники и часто вообще не люди, а специальные программы, да и хранятся они не в школьных тетрадках. Вот как может выглядеть компактная морфологическая разметка (попробуйте сами разобраться, что значат, например, первые, заглавные, буквы в аннотации):