2. Заменить символы кириллицы согласно таблице ниже.
1. Все символы, кроме допустимых (знака тире, букв и цифр), заменить на «-» (включая пробел). Регулярное выражение для замены [^-a-zQ-9].
2. Заменить несколько идущих подряд «-» на один «-».
3. Проверить и удалить, в случае необходимости, символ «-» на первой и последней позиции в строке.
4. К полученному результату слева присоединить косую черту и ЧПУ раздела, находящегося на один уровень выше текущего. Понятно, что самым верхним уровнем будет домен сайта.
Для проверки качества ЧПУ можно провести простой тест: дать контрольной группе пользователей только URL-адрес нескольких разделов сайта и попросить описать, чему посвящены эти страницы. Если у них возникнут проблемы – стоит внести коррективы.
Важные замечания
Спам. ЧПУ не должен быть заспамлен, то есть в нем не должно быть слишком много ключевых слов (тем более они не должны повторяться!). Если ЧПУ формируется из заголовка, то сначала необходимо оптимизировать заголовки согласно ранее данным рекомендациям.
Длина. URL-адрес должен быть коротким. Хорошим тоном считается удерживать длину адреса в пределах 150–200 символов. Это удобно для пользователей и радует поисковых роботов.
Ключевые слова. В адресе обязательно нужно использовать ключевые слова. Это не только поможет пользователям лучше понимать структуру адресов сайта, но и может улучшить кликабельность на странице поисковой выдачи, так как ключевые слова там выделяются жирным шрифтом.
Подразделы вместо поддоменов. Без крайней необходимости не стоит выносить контент за пределы основного домена сайта (на поддомены).
В общем случае домен и его поддомен поисковыми системами воспринимаются как два разных сайта. Соответственно, если весь контент агрегируется на основном домене, можно получить синергетический эффект при продвижении за счет роста размера сайта, ссылочной массы и поведенческой статистики. Если вынести часть контента на поддомены, в общем случае вместо одного «сильного» сайта получится несколько «слабых», которые даже в совокупности будут генерировать гораздо меньше трафика.
Нижний регистр. Все URL должны быть в нижнем регистре. Если на сайте использовался верхний регистр, нужно настроить 301 редирект на страницы в нижнем регистре.
13. Файл Sitemap.xml
Sitemap.xml – это служебный файл[46] карты сайта в формате XML[47], который позволяет сообщить поисковым системам информацию о том, как организованы данные на продвигаемом вебресурсе. В нем содержатся ссылки на все разделы и страницы, которые должны быть проиндексированы поисковыми роботами.
Как правило, sitemap.xml на больших или часто изменяющихся сайтах генерируется на лету (этот процесс легко автоматизировать). Реальный адрес файла вовсе не обязан быть site. ru/sitemap.xml: он может быть абсолютно любым, например, site.com/anything (хотя лучше, конечно, чтобы у карты сайта был осмысленный адрес).
Поисковые роботы регулярно скачивают файл карты сайта, сравнивают его с имеющейся у них версией и, если файлы отличаются (например, в скачанной версии добавились новые ссылки), индексируют изменения на сайте.
Помимо новых ссылок, файлы Sitemap помогают передать поисковику метаданные о страницах сайта. Например, можно указать дату последнего изменения, периодичность обновления контента и важность страницы на сайте по сравнению с другими разделами.
Существуют отдельные виды файлов для разных типов контента, включая видео[48] и изображения[49]. Для абсолютного большинства веб-проектов генерировать их нет смысла, но, если для продвигаемого проекта это актуально, рекомендуется разработать в движке функционал, позволяющий автоматически генерировать и обновлять соответствующие документы.