или – на более глубоком уровне – сочетания нулей и единиц). Именно цепочки букв являются основным объектом анализа лингвистических программ. Основной единицей морфологической разметки является текстоформа, или токен – цепочка символов от пробела до пробела, которая в большинстве случаев соответствует обычной словоформе. Однако в некоторых случаях компьютер, работающий по принципу «от пробела до пробела», выделяет две текстоформы там, где любой школьник выделит только одну словоформу (например, аналитические формы рус. буду читать, англ. wake up). С этим связаны и основные сложности морфологической разметки.

– Доктор, доктор, я лечу!

– Я такого не лечу. (Г. Лукомников)

Ни одному лингвисту не придет в голову считать выделенные формы одной лексемой. Однако компьютер при простом поиске по буквам найдет обе глагольные формы, считая их одинаковыми текстоформами.

Компьютерные программы очень плохо справляются с омографами (совпадающими по написанию словами), считая их одной и той же единицей. В приведенном выше стишке выделены две одинаковые текстоформы, которые с точки зрения лингвистики являются омонимами. Наиболее простой способ отметить разницу – показать, что та или иная текстоформа относится к определенной начальной форме:

лечу – лететь

лечу – лечить

Эта процедура автоматического приписывания текстоформы к определенной «начальной форме» получила в корпусной лингвистике название лемматизации, а сама «начальная форма» стала называться леммой.

Лемму следует отличать от лексемы. В корпусной лингвистике под леммой обычно понимается графическая единица без учета лексических различий. Например, полные омонимы типа ключ будут приписаны при морфологическом аннотировании одной лемме, хотя никто никогда не назовет их одной лексемой.

Однако бывает, что и лемматизации недостаточно для того, чтобы явно указать, что текстоформы относятся к разным лексемам. Рассмотрим следующий пример:

По дороге шел боксер
В пиджаке и шляпе.
По дорожке шел боксер
С пятнышком на лапе.
(М. Яснов)

Боксер и боксер – разные лексемы с совпадающими начальными (да и всеми остальными) формами, однако лемма у них одна, поскольку все формы этих слов совпадают, а разница в лексических значениях на морфологическом уровне не учитывается. Лемма – это результат автоматического сведения текстоформ к одной обобщающей единице, отличающийся от начальной формы тем, что для компьютерной морфологии не важны различия в семантике слов или в ударении, если эти различия никак не выражены в буквенной форме слов. Для того чтобы закрепить в корпусе разницу между разными боксерами, придется вводить новый уровень разметки – семантический, о котором пойдет речь дальше. Понятно, что поиск леммы боксер в морфологически размеченном корпусе будет выдавать все формы этих двух разных лексем русского языка. Особенно актуальна проблема определения лексемы для английского языка, в котором омонимия чрезвычайно часта.

Английское предложение Fruit flies like a banana может быть переведено как: 1) Фруктовые мушки любят банан или 2) Фрукт летает как банан.

1. flies ‘мухи’ – лемма fly

flies ‘летит’ – лемма fly

2. like ‘любят’– лемма like

like ‘как’ – лемма like

Согласитесь, трудно разобраться. Для решения проблемы достаточно указать, что текстоформы принадлежат разным частям речи (англ. parts of speech, POS). Такой тип аннотации был назван частеречная разметка (англ. POS-tagging), а значок, условно обозначающий морфологический признак, стал называться тег (англ. tag).



Любопытство лингвистов росло, автоматические анализаторы развивались. Появились программы, которые умеют извлекать из цепочки букв морфологические характеристики текстоформы. Программы, автоматически анализирующие морфологию слов, назвали