. Индексы всех страниц сохраняются в архиве поисковой компании. Профессионалы процесс «чтения» называют индексированием.

Соответственно, когда пользователь вводит поисковую фразу, то поисковая программа сравнивает фразу с индексами из базы данных. Все совпадения составляют поисковый результат, который выдается в виде последовательного списка пользователю.



Морфология, как цифровая проблема


Первая проблема Интернет-поиска появилась практически сразу, особенно, в русском языке. В языке представлены разные морфологические формы с чрезвычайно близким значением. Прежде всего падежи: бизнес, бизнеса, бизнесу и т.д. Плюс другие способы словообразования, например, видеть, видение, или наоборот, индекс, индексирование. Практически всегда пользователю интересны все морфологические варианты. самостоятельный перебор всех морфологических форм сейчас кажется нонсенсом.

В русском сегменте Интернета полную морфологическую унификацию произвел Яндекс в середине 1990-х на основе словаря академика А. Зализняка. Все формы от одно слова – падежи, числа, новообразования – приводились к одной единице. Морфологическая унификация позволила Яндексу выйти на первое место в Рунете.

Конец ознакомительного фрагмента.

Купите полную версию книги и продолжайте чтение
Купить полную книгу