Главная » SEO » Как закрыть сайт от индексации

Как закрыть сайт от индексации

Закрыть сайт от индексации иногда требуется по различным причинам. Например, он находится на стадии редизайна, или вы тестируете новые варианты страниц, которые, по вашим соображениям, не должны попадать в индекс. Как гарантированно скрыть сайт? Самое очевидное решение может быть не самым лучшим.

Конечно, можно сразу обращаться к файлу robots.txt. Сделал вот такую запись и спишь спокойно:

User-agent: *
Disallow: /

Но реальноcть оказывается обратной: индексация сайта блокируется, но в выдаче Гугла он все равно находится. В чем дело и как с этим бороться?

Происходит так потому, что индексация не равна показам в поиске. Ведь для того, чтобы показоваться или даже высоко ранжироваться, можно обойтись вообще без индексации. На это влияют и другие факторы, например, внешние ссылки. И если на ваш сайт или страницу, скрытую файлом robots.txt ссылаются другие сайты, вы можете все равно оказаться в выдаче.

Или еще пример: сайт старательно скрывается с помощью robots.txt, но на него идут ссылки с других страниц, причем с анкорами, соответствующими запросу. Поисковой системе не остается ничего другого, как выдать ссылку на этот сайт, даже если поисковый робот на нем ни разу не бывал. В этом случае возможен даже вариант показа ссылки без сниппета — то есть никакого текстового описания, взятого с сайта, не будет. А если же сайт присутствует в каком-либо каталоге типа DMOZ, то сниппет может быть и вовсе составлен на основании того, что написано в каталоге. Таким образом, Гугл все равно показывает пользователям то, что они ищут. Может быть, не лучшим образом, но как может. При этом никаких нарушений и противоречий нет — сайт не индексируется.

Как полностью закрыть сайт от индексации

Итак, если robots.txt здесь не всегда помогает, нужно искать другие варианты. На самом деле, чтобы сайт не показывался в выдаче, поисковый робот, как бы странно это ни звучало, должен сайт просканировать. И только после того, как он увидит на нем определенный сигнал, из выдачи вы будете исключены. Речь идет об атрибутe noindex.

Если точнее, он должен располагаться в метатеге robots. Вот так:

<meta name=»robots» content=»noindex, nofollow»>

После того, как поисковик просканировал страницу и увидел noindex, он понимает, что показывать её выдаче не стоит, даже если на неё идет миллион ссылок. Однако здесь есть пару сложностей:

noindex должен располагаться на каждой странице
с его помощью можно скрыть только html-страницы

Для того, чтобы скрыть иные документы, не html, а например, xml или pdf, нужно воспользоваться robots.txt, что нас возвращает на исходную позицию. Решение этой проблемы следующее — X-Robots-Tag HTTP header. C его помощью можно запретить и показы сниппета в поисковой выдаче (noindex), и переходы по ссылкам на странице (nofollow).

Прописать эту команду нужно в файле .htaccess в корне сайта. Все просто:

Header ser X-Robots-Tag «noindex, nofollow»

Таким образом

Если вам нужно скрыть сайт от индексирования, то не надо использовать файл robots.txt. Наоборот, им должен быть разрешен допуск поискового робота на сайт, чтобы там он увидел действительно работающую команду. Это может быть либо метатег robots, либо, если страниц на сайте много, а также требуется закрыть все остальные документы, команду X-Robots-Tag HTTP header в файле .htaccess — таким образом сайт гарантировано не будет показываться в выдаче.