Как найти и убрать дубли страниц на сайте
Дубли страниц — это страницы на сайте с одинаковым либо частично одинаковым содержанием. Опасность дублей страниц заключается в том, что у сайта снижается уникальность контента, а также в трудностях, которые будет испытывать поисковик при ранжировании: когда одному запросу может соответствовать несколько страниц, то становится труднее определить целевую, вследствие чего позиции будут крайне неустойчивыми.
Дубли страниц бывают двух видов:
- полные — две идентичные страницы доступны по разным ссылкам
- частичные — на двух разных страницах есть одинаковый контент
Полные дубли могут появиться вследствие нескольких причин:
- Есть варианты страницы с www и без www
- Страница может быть доступна по похожим ссылкам типа http://site.com/index и http://site.com/index.html
- Допущены ошибки в иерархии сайта, и страница может быть одновременно доступна по ссылкам вида http://site.com/category/tovar.html и http://site.com/tovar.html
- Дубли, появившиеся из-за реферальных ссылок или UTM-меток
Причины появления частичных дублей:
- Страницы поиска, фильтров. Если в вашем магазине несколько десятков товар соответствует одному запросу, то они будут размещены на нескольких страницах результатов поиска, в которых будут дублироваться SEO-элементы, например, описание категории товаров.
- Опять же актуально для интернет-магазинов: описание товаров может быть применимо к нескольким разным моделям, следовательно, один текст будет на разных страницах.
- Версии страниц для печати. Они несколько упрощеннее исходных, не содержат ненужных элементов, но и повторяют основной их контент.
В целом, дубли появляются из-за технических неполадок, человеческого фактора либо особенностей функционирования движка сайта. Для ранжирования по-своему опасны и частичные, и полные дубли. При этом влияние первых слабее, но и обнаружить их бывает гораздо сложнее.
Как проверить наличие дублей страниц
Существует несколько способов проверки дублей страниц.
Оператор «site:»
Достаточно вбить в поиске Гугла данный оператор и домен, и найти страницы с одинаковыми заголовками либо сниппетами.
Использование Google Search Console
Необходимо перейти во вкладку «Оптимизация html» и посмотреть графу «Повторяющиеся заголовки (теги title)». Это не стопроцентная гарантия дублей, но страницы стоит проверить.
Программная проверка
Самый продвинутый способ. Нужно воспользоваться одной из программ-парсеров, например, Xenu, Netpeak Spider или Screaming Frog Seo Spider. Они просканируют ваш сайт и выдадут полный список всех страниц, где также можно будет отобрать потенциальные дубли исходя из одинаковых title и description.
Как убрать дубли страниц
Во-первых, конечно, нужно разобраться с причиной появления дублей. Хорошо, если это просто случайная ошибка, и такую страницу можно элементарно удалить и забыть. Если же дубли — это следствие сбоев в работе CMS, то, соответственно, нужно справиться с проблемами в движке, иначе дубли продолжат появляться. К основным же способом предупреждения появления дублей относятся.
Файл robots.txt
Простой способ, который заключается в том, что в сайте robots.txt вы запрещаете индексацию определенных страниц. Например, это делается командой такого вида:
Disallow:/page.html
301 редирект
Если у вас есть два одинаковых УРЛа, то посетителей можно автоматически перенаправлять с одного на другой с помощью 301 редиректа, что делается в файле .htaccess. Например, для перенаправления со страницы с www на страницу без www можно использовать код такого типа:
RewriteEngine on
RewriteCond %{HTTP_HOST} ^site.com$ [OR]
RewriteCond %{HTTP_HOST} ^www.site.com$
RewriteRule ^(.*)$ http://zerkalo.com/$1 [R=301,L]
Для редиректа с одной страницы на другую можно использовать команду
Redirect 301 /адрес страницы, с которой идет перенаправление /адрес страницы, на которую ведет редирект
Тег rel=canonical
Если у вас есть несколько дублей (например, страниц поиска или фильтра), то поисковику можно указать, какая страница должна участвовать в ранжировании. Это можно сделать, если в коде страниц, которые не являются для вас предпочтительным, указать на то, какая страница является главной. Нужно между тегами <head> и </head> прописать строчку такого вида:
<link rel=»canonical» href=»http://ссылка-основную-страницу»/>
Вывод
Дубли страниц, частичные и полные, представляют опасность для вашего сайта в том плане, что из-за их наличия будет нарушено ранжирование страниц. Особо ощутим эффект от полных дублей, но частичные дубли гораздо труднее выявить, и снижение позиций будет проходить не так заметно. Чтобы определить, есть ли на сайте дубли страниц, лучше воспользоваться специализированным софтом. Удаление дублей можно проводить вручную, или блокировать их появление с помощью файла robots.txt, 301 редиректа или определения канонических ссылок.