В качестве материала могут быть использованы письменные тексты/дискурсы, которые отбираются исследователем по одному или нескольким критериям: время создания, литературный жанр, речевой жанр, автор, единство литературного направления, школы, принадлежность одному регистру языка, одному функциональному стилю, вид материального субстрата (электронные носители, сетевые (Интернет), традиционные бумажные) и т. д. Данные такого рода могут собираться на одном языке, или на нескольких языках одной и той же группы языков, или на нескольких даже не близкородственных языках. Как правило, сбор такого рода авторского корпуса не требует каких-либо юридических формальностей, и исследователь не сталкивается с этическими нормами и правилами.
Однако, если речь идет об анализе архивных документов, личной или дипломатической переписке, могут потребоваться дополнительные документы, разрешающие публикацию фрагментов такого материала, их обнародование в статьях, монографиях, выступлениях на конференциях и т. д. В нашей практике был случай, когда магистрант в качестве материала для исследования собирал названия папок для хранения документов на персональных компьютерах. Для этого русских и американских коллег попросили прислать скриншоты вкладок с папками на их персональных компьютерах, что коллеги охотно согласились сделать и начали присылать скриншоты на электронный адрес исследователя. Однако через некоторое время на тот же электронный адрес пришло официальное письмо из службы безопасности одного из международных серверов с просьбой прояснить цель, с которой ведется сбор подобной информации. Исследователь счел благоразумным сменить материал и скорректировать тему.
Бесценным источником материала для современных исследователей являются корпусные данные. Корпус лингвистический – это собрание текстов в электронном виде, сопровожденное разметкой34. Лингвистический корпус отличается от электронной библиотеки тем, что собранные в нем тексты предназначены не для того, чтобы их читать, а для того, чтобы их изучать. Кроме того, тексты в корпусе специальным образом проанализированы – аннотированы или размечены, что позволяет осуществлять поиск по лингвистическим параметрам. В табл. 4 представлены наиболее крупные языковые корпусы, доступ к которым бесплатен или условно бесплатен (при каждом входе можно получить ограниченное количество данных, но входить можно бесчисленное количество раз, или можно получить пробный доступ после регистрации, так называемый trial, на несколько недель или месяцев).
Таблица 4
Наиболее крупные лингвистические корпусы с бесплатным или условно бесплатным доступом
Преимущество корпусных данных состоит в том, что исследователь может задать параметр поиска (определенную словоформу или грамматическое значение, лексему с определенным количеством слов, составляющих ее левый и правый контекст, и т. д.) и достаточно быстро набрать материал в большом объеме. Корпусные данные используются как самостоятельный материал либо привлекаются для проверки выводов, полученных на более узком материале, собранном самим автором.
Экспериментальные данные обычно необходимы для исследований по психолингвистике, психосемантике, социолингвистике, когнитивной лингвистике. Иначе говоря, это данные, которые были получены в экспериментальной работе с информантами (респондентами, испытуемыми). Эксперименты могут быть построены на использовании специальной аппаратуры и соответствующего компьютерного обеспечения либо на постановке перед испытуемыми конкретных задач в непосредственной устной коммуникации.