5. Савчук С. О., Шаров С. А. Типология текстов для представительного корпуса // Труды международной конференции «Корпусная лингвистика – 2004». СПб.: Издательство С.-Петербургского университета, 2004. С. 352–362.
1. Пользуясь предложенной классификацией, мысленно «составьте» свой корпус (выберите язык, тип текстов и т. д.). Объясните, в каких исследовательских или учебных задачах его можно было бы использовать.
2. Главный ресурс по русской корпусной лингвистике – Национальный корпус русского языка, расположенный по адресу ruscorpora.ru. Объясните, почему в адресе сайта используется множественное число английского слова corpus – corpora. Зайдите на сайт и выясните, какие виды корпусов там представлены и каков их объем в настоящий момент.
3. Пользуясь описанными выше корпусами, проверьте, как изменялась частотность лемм «советский» и «товарищ» в русских текстах XVIII–XXI веков. Какое из этих слов, по вашему мнению, сохранится в языке и в будущем?
4*. Познакомьтесь с корпусом n-грамм на сайте books.google.com/ngrams. Выбрав русский язык, экспериментально определите максимально допустимое количество слов в n-граммах.
Глава 5. Типы лингвистического аннотирования
Один из основателей корпусной лингвистки Джордж Лич написал однажды, что корпус предлагается пользователю на основе старого римского принципа caveat emptor, что значит «Пусть покупатель будет осмотрителен». Многие из нас скорее согласятся работать с корпусом, содержащим хоть какую-то лингвистическую разметку, чем захотят аннотировать самостоятельно или ждать безупречно подготовленный корпус. Создание корпуса – результат компромисса между «большой» теорией и возможностями ее компьютерной реализации. Из этого вовсе не следует, что всякий корпус несовершенен, но пользователь должен понимать его особенности и ограничения.
В грамматическом словаре А. А. Зализняка мы найдем указание на отсутствие множественного числа у лексемы любовь. В НКРЯ это слово встречается в формах любови, (без) любовей. Дело не в том, что даже в этом очень качественном словаре есть упущения, а в том, что в любом живом языке в результате словотворчества возникают и исчезают лексемы, словоформы и значения – окказионализмы.
Если раньше большое количество сил и времени при создании корпусов-коллекций отнимали сбор материала и перевод его в цифровую форму, то современный корпус легко справляется с этими задачами, поэтому он уже должен содержать не только тексты, но и их аннотацию, или разметку (англ. annotation, mark-up, tagging).
Аннотация – это приписанная всем единицам выбранного уровня (текст, предложение, словоформа и т. д.) соответствующая лингвистическая информация. Например, морфологически аннотированный корпус содержит морфологический разбор частей речи – по сути такой же, какой вы делали в школе, но только не для одного-двух, а для всех слов. Представьте, сколько времени надо потратить, чтобы сделать морфологический разбор хотя бы ста тысяч слов!
Если вы создаете корпус для себя или для маленькой исследовательской группы, то разметка может быть понятной только вам и вашим друзьям. Однако многие корпуса публикуются в интернете, с ними работают люди, незнакомые не только с вами, но и с вашей теорией. В таком случае прозрачность и ясность разметки становится ключевым фактором для успешной работы. По словам Дж. Лича (Leech 1991), разметка общедоступного корпуса должна подчиняться нескольким принципам.
● Разметка должна основываться на доступной для пользователя в виде руководства или инструкции схеме анализа, в которой введение каждого параметра должно быть мотивировано.