Чем опасны дубли страниц для сайта?
Дубликат — полное или частичное повторение контента на двух или более страницах сайта. Повторы плохо воспринимаются поисковиками и ведут к ухудшению ранжирования, а иногда и к попаданию под фильтры — санкции поисковиков, выпадение сайта из поиска.
Обычно дубли появляются из-за особенностей работы CMS, ошибок в robots.txt или в настройке 301 редиректов.
Появления дублей можно избежать на начальном этапе технической оптимизации сайта, еще до того, как он начнет индексироваться поисковиками.
Что будет сделано:
- Код ответа должен быть 404.
- Пользователь должен иметь возможность вернуться с 404 страницы на главную.
- 404 страница должна открываться при указании любого несуществующего адреса на вашем сайте.
- Страница должна быть в стиле сайта, но без лишних элементов.
Сайты с SSL-сертификатами получают преимущество в результатах выдачи. Но из-за ошибок при переходе на HTTPS появляются дубли.
Все страницы сайта с устаревшего не защищённого протокола HTTP должны автоматически перебрасывать посетителя на защищённый протокол HTTPS
Чаще всего перенаправляют на URL без WWW
Пример:
https://site.ru/list/
https://site.ru/list
URL с множественными слешами создают дублированный контент. Пример URL с повторяющимися слешами (//): https://site.ru/catalog////// или https://site.ru/////catalog/
URL с /index.php создают дублированный контент.
URL с /index.html создают дублированный контент.
Проблема:
Поисковая система может видеть URL адреса с разным регистром как разные страницы, но с одинаковым контентом, что создаст дубли страниц.
Пример:
https://site.ru/catalog/DEMO-TOVAR/ является дублем https://site.ru/catalog/demo-tovar/
Что делать?
Необходимо создать правило, которое будет автоматически переводить верхний регистр в нижний для всего сайта.
Поисковые системы утверждают, что они могут автоматически выбирать лучшую версию контента для отображения в результатах поиска, но это не обязательно будет та версия страницы, которую вы хотите проиндексировать. Поэтому похожие или дублированные страницы сайта должны иметь атрибут «rel=canonical», чтобы поисковые системы отображали наиболее авторитетную (каноническую) версию страницы в результатах поиска.
404 — Not Found — распространенная ошибка 4xx, указывающая на то, что запрошенный URL-адрес не существует.
По правилам SEO, этой ошибке уделяется особое внимание, так как она может наплодить дубли страниц и отпугнуть посетителей.