– скачивает страницы из Интернета, так же, как это делает наш браузер
– после скачивания проводит первоначальный анализ – содержит ли эта страница какую-то осмысленную информацию и нужно ли поместить ее в базу данных поисковика (иначе называемому «индексом»)
– если страница полезная, то следует более подробный анализ. Страница разбирается на составные элементы: текст, html код, ссылки, изображения и т. п. и затем помещается в индекс.
Индекс поисковой системы. Чтобы понять, как это устроено, давайте обратимся к примеру из жизни. Возьмем какую-нибудь умную книгу, например, справочник по астрономии. В книге, конечно, есть оглавление – но его бывает недостаточно, если нам нужно быстро найти какую-то конкретную информацию.
Поэтому в конце всегда приводится индексный указатель. Хотим мы найти все упоминания планеты Сатурн – открываем индекс и видим: Сатурн упоминается в 10 статьях, на страницах 5, 27,193ИТ.Д.
Индекс поисковой системы работает по тому же принципу-для каждого слова есть список документов, его содержащих. Только в отличии от книжного указателя, индекс поисковой системы гораздо более полный и содержит не только номера документов, но и много дополнительной информации (как часто слово встречалось на странице, какими тегами было выделено и т. д.).
Поступил к Яндексу запрос «планета Сатурн» и с помощью индекса поисковая система в считанные секунды нашла список страниц, содержащих слово «планета», а затем выбрала из них те, которые содержат слово «Сатурн». Вот и получился первоначальный вариант поисковой выдачи.
Вы никогда не задумывались, почему поиск нужного документа только лишь на вашем компьютере может занимать несколько минут, а поиск «по всему Интернету» – доли секунды? А вот вам и ответ – у поисковой системы все данные уже подготовлены для поиска по ним. 99 % всей работы сделано еще до получения запроса от пользователя – список слов и документов подготовлен заранее. А уж искать с помощью готового индекса в миллионы раз быстрее, чем просмотром информации «в лоб».
Алгоритмы выдачи результатов. После того, как первоначальный список результатов получен, в дело вступают алгоритмы ранжирования. Ведь из миллиона найденных страниц нужно выбрать 1000, наиболее полно отвечающих на вопрос. Для отбора этой тысячи используются множество различных факторов – текст страницы, ссылки на эту страницу, поведение пользователей и т. д. На основе этих данных и формируется те 1000 результатов, которые мы можем увидеть в своем браузере.
Матрикснет и финальное ранжирование. Итак, у нас есть список документов, которые лучше всего отвечают на заданный запрос. Теперь нужно их отсортировать по качеству- ведь у пользователя нет возможности рыться во всей тысячи.
На этом этапе в дело вступает Матрикснет, о котором мы говорили ранее. Именно этот алгоритм сортирует полученные результаты и формирует окончательный вариант выдачи, которую мы увидим в нашем браузере.
2.3 Коротко о факторах ранжирования
В этой главе мы коротко рассмотрим все группы факторов, которые влияют на продвижение сайта. Все это мы будем разбирать детально в последующих частях книги, а пока что просто общий обзор, чтобы немного структурировать ваши знания.
Технические факторы продвижения. Это, по сути, оценка работоспособности вашего сайта. Сайт должен работать хорошо, с этим спорить не приходится. Если ресурс работает медленно, часто бывает недоступен – то это не очень хороший проект.
Неправильная настройка кодов ответа сервера, неверные настройки сессий, наличие доступных для поисковика дублей страниц – все это примеры технических недоработок (о которых мы поговорим в следующей главе).