Многие корпуса предлагают более глубокую разметку, которая содержит информацию о нескольких языковых уровнях. Однако степень проработанности и, так сказать, обязательности той или иной разметки существенно различается. Типам лингвистического аннотирования будет посвящена вся следующая глава, здесь же отмечу, что почти все корпуса содержат сведения о начальной форме, точнее лемме. Многие корпуса предлагают частичное или полное морфологическое аннотирование; редкие – синтаксический разбор; почти нет таких, которые содержат фонетическое и просодическое аннотирование. В общих чертах схемы аннотирования совпадают с разработанным в структурализме и других лингвистических теориях делением языковой системы на уровни: фонетическая, морфологическая, синтаксическая и т. д. Однако встречаются и очень экзотические типы разметки.

Общение на барабанах

Жители племен бóра и окáйна, живущие в северо-западной Амазонии, «общаются» друг с другом с помощью барабанов. Корпус таких сообщений собран в Перу и содержит аннотированные видеозаписи ритуальных церемоний, в том числе расшифровку барабанных диалогов.

6. Объем и полнота данных

Конечно, чем данных больше, тем лучше. Однако исследования показывают, что иногда достаточно корпуса в пару тысяч слов, иногда не может помочь и корпус в миллионы слов. Все зависит от поставленной задачи: для анализа стихотворения О. Мандельштама «Мы живем, под собою не чуя страны» может быть достаточно текста этого стихотворения, для анализа языка романов XIX века нужны тексты романов – не всех, но в достаточном количестве. Корпус, который представляет все разнообразие определенного языка или его подъязыка, называют представительным (англ. representative). Еще раз подчеркну: представительный корпус не обязательно содержит все тексты, но их должно быть достаточно, чтобы судить об общих закономерностях. За корпусами, представляющими весь язык в целом во всех его жанрах и разновидностях, закрепилось название национальные корпуса.

«Национальный» не значит, что корпус принадлежит какой-то нации. Это значит, что корпус представляет национальный вариант какого-то языка. Такое употребление является производным от англ. national corpus (то есть корпус национального варианта какого-то языка, например, British National Corpus «корпус британского варианта английского языка» или НКРЯ – Национальный корпус русского языка).

Национальные корпуса готовятся много лет, часто по государственным программам и в рамках больших проектов. При всей их сбалансированности и полноте такие статичные корпуса не успевают реагировать на быстрые, текущие изменения в языке, особенно в лексике. Для решения этих задач создаются мониторинговые корпуса (англ. dynamic/monitor corpus), которые позволяют следить за языком в режиме реального времени, день в день.

Словечко PR приобрело новое значение летом 2012 года. Как это установить? Информационная система Интегрум (www.integrum.ru) – гигантская ежедневно пополняемая коллекция журнальных текстов – позволяет отслеживать самые новые или очень мелкие движения языка, иногда с точностью до одного дня.

Наконец, существуют относительно маленькие иллюстративные корпуса (англ. corpus of examples), задача которых не представлять весь язык, а лишь иллюстрировать те или иные явления. Такие инструменты незаменимы, например, в учебной аудитории при работе со школьниками или иностранными студентами.

Хельсинкский аннотированный корпус ХАНКО содержит всего 100 тыс. текстоформ. Очень маленький по современным меркам. Но он, единственный в своем роде, содержит разметку в терминах самой популярной синтаксической теории – школьного учения о частях речи и учитывает такие сложные для автоматического анализа формы,