Robots.txt
Robots.txt – это специальный служебный файл, расположенный в корневом каталоге сайта[38], который является незаменимым помощником в борьбе с дублями и нецелевыми страницами, попавшими в индекс. Следует обязательно создать этот файл в соответствии с рекомендациями поисковых систем[39], а затем указать в нем страницы и данные, которые поисковым роботам не следует индексировать.
Перечислим типичные разделы и страницы с дублированным контентом, индексацию которых стоит запретить в файле robots.txt:
– страницы фильтраций и сортировок с дублированным контентом;
– страницы с UTM-метками;
– результаты поиска;
– тестовые страницы, поддомены и серверы;
– RSS-фиды.
В файл также следует добавить разделы с малоинформативным и служебным контентом:
– служебные страницы и файлы, логи сайта, страницы с внутренней статистикой, вход в административную панель, кэш страниц, подгружаемые модули и другие технические страницы;
– страницы авторизации, смены и напоминания пароля;
– «висячие узлы», то есть страницы, с которых нет ссылок на другие страницы сайта (например, версия страницы для печати);
– страницы совершения действия (добавления в корзину, оформления заказа и прочее);
– страницы с динамическими параметрами[40];
– неинформативные или пустые doc- и pdf-файлы (такие файлы лучше не просто закрывать от индексации, а удалять с сайта). При этом надо помнить, что, если такие файлы уникальны и несут полезную информацию, их не закрывают от индексации.
Приведенные списки не являются исчерпывающими. Каждый движок имеет свои особенности, поэтому желательно делать регулярную проверку, выявлять дубли и «мусорные» страницы и запрещать их к индексации.
Надо отметить, что запрещение индексации разделов через файл robots.txt без скрытия ссылок на них может приводить к тому, что эти разделы все же попадут в индекс со всеми вытекающими последствиями.
Про robots.txt профессионалы даже шутят, что он как презерватив: вроде бы защищает, но гарантий никаких.
Поэтому желательно просто убирать ссылки на нежелательные разделы из клиентской части сайта: так вы надежно скроете их и от поисковых роботов, и от пользователей.
В файле robots.txt следует указать ссылку на карту сайта с помощью директивы Sitemap[41].
Остается добавить, что для анализа корректности файла robots.txt нужно воспользоваться валидаторами поисковых систем[42].
11. Оптимизация заголовков
При оптимизации заголовков встречается много ошибок. Давайте разберем типичные недостатки и поймем, как их избежать.
Заголовок hl
Согласно многим исследованиям, заголовок h1[43] зачастую работает как «второй тайтл», поэтому к нему нужно относиться максимально внимательно:
1. Заголовок h1 единожды должен присутствовать на каждой странице сайта. Повторное использование тегов заголовка h1 на странице недопустимо.
2. Заголовок должен «перекликаться» с тегом
3. Заголовок должен однозначно визуально идентифицироваться на странице, чтобы пользователь сразу понимал содержание текущего раздела. Добиться выделения заголовка можно с помощью размера букв, шрифта, цвета и других приемов.
4. В теле заголовка желательно использовать ключевые слова, но переоптимизация (чрезмерное употребление) недопустима.
Рис. 3. Сайт htmlbook.ru – полезный справочник для любого вебспециалиста
Теги h2-h6
Перечислим основные рекомендации, которые помогут правильно применять второстепенные заголовки:
1. Заголовки пришли в Интернет со страниц газетных полос и по возможности должны следовать газетной традиции визуального оформления: h1 должен быть самым крупным и заметным, h2 – меньше, h3 – еще мельче. Так пользователь сможет легче понять иерархию текста на странице.