0

Идеальный robots.txt или история о маленьком, но очень важном файле.

Опубликовано: 13.05.2011 | Рубрика: SEO, Начинающему блоггеру

Привет всем! Сегодня я расскажу вам об одном небольшом файле, который играет огромную роль в продвижении вашего блога. Как вы уже наверное догадались, речь пойдёт о robots.txt. Хоть нигде и не сказано, что его обязательно нужно использовать на сайтах, но я все же советую вам сейчас же (если вы не сделали этого раньше) открыть FTP-клиент и установить robots.txt – это займет не больше двух минут.

Вначале я расскажу о том, для чего он вообще нужен. В этом файле находятся инструкции для поисковиков, в которых написаны пути к файлам, страницам и каталогам блога, которые не нужно индексировать. Или же наоборот – в нём может быть указано расположение файла, который нужно проиндексировать в первую очередь.

У вас скорее всего уже возник вопрос – а зачем закрывать страницы от индекса? Ответ прост – чтобы не было дубля контента. Один и тот же пост может быть продублирован в тегах, страницах навигации, архивах и.т.д. Нам это совершенно ненужно по нескольким причинам:

1)    Поговаривают, что Яндекс негативно относится к подобному вида дублирования. Не знаю так это или нет так, но лучше на всякий случай перестраховаться, ведь потом вылезти из неприятной ситуации будет ой как сложно (пример подобной неприятности можете прочитать тут).

2)    Поскольку мы стремимся, чтобы в топ попала нужная нам страница с постом, лишние дубли страниц нам будут только мешать в этом (мой друг Вадим делал когда-то эксперимент с дублями, результаты на этой странице).

До недавнего времени меня полностью устраивал тот вариант robots.txt, который я установил себе на блог полгода назад. Соотношение страниц в индексе Гугла и Яндекса было приблизительно одинаковым (около 200 страниц) – а это very good :). Но буквально 2-3 выдачи назад у меня вместо 200 страниц в Яндексе стало 500, а потом больше 600! Я зашёл в панель Яндекс.Вебмастер, и увидел, что в индекс попали страницы вида http://sidash.ru/tag/vebmaster/feed/ (было ещё несколько видов ссылок, но я их не запомнил). Я сразу же открыл свой robots.txt и начал искать в нём ошибки, которые я мог допустить. Для перестраховки, я решил посмотреть на то, как выглядят подобные файлы у других известных блоггеров. За образец взял robots.txt с блога Михаила Шакина (http://shakin.ru/robots.txt).

Затем я зашел на форум Маула, создал там тему, в которой кратко описал свою проблему и то, как я решил её. На моё удивление, после той выдачи не у одного меня появилась подобная проблема! И знаете что меня еще больше удивило? А то, что robots.txt, который я взял за пример у Шакина, оказался с небольшими ошибками! Поэтому я решил взять за основу файл, который увидел на блоге Дмитрия Лебедя. Как видите, спустя полмесяца у меня в индексе 177 страниц (в Гугле в 2 раза больше, но в этом нет ничего плохого – Гугл более лояльный в плане дубля контента).

Итак, приступим к созданию файла: создаём новый текстовый документ robots.txt, заполняем его нужными данными и заливаем его в корень директории, где находится ваш блог.

А вот, собственно и текст, который нужно вставить в файл:

User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: sidash.ru

User-Agent: MJ12bot
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-login.php

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Sitemap: http://sidash.ru/sitemap.xml

 

Внимание! Не забудьте внести изменения в строчки с адресом моего блога (sidash.ru и http://sidash.ru/sitemap.xml).

User-agent: Yandex – указываем поисковому роботу Яндекса что нужно делать.
User-agent: MJ12bot – информация про этого робота здесь. Даже не помню, где я вычитал что нужно запретить от него индексацию, но убирать все же не стал.
User-agent: * — указываем всем поисковым роботам что можно а что не можно индексировать. Очень важно, чтобы этот раздел (*) был последним среди разделов, так как вначале нужно указать конкретным роботам конкретные действия, а уже потом – делать указания для всех.

Понимаю, что статья получилась не из разряда интересных и весёлых, но все же я не хотел бы, чтобы вы столкнулись с подобными проблемами. Ну а чтобы хоть немножечко развеселить вас, я хотел бы поделиться с вами ссылкой на рубрику «Смешное фото» блога с позитивными новостями. Кстати, этот тот самый блог, о котором недавно был пост «Как я получил 12 тыс. ссылок с социальных сетей за 1 пост» на блоге Ленара Амирханова! Материалы на позитивном блоге действительно шикарные!

Постовой: Проверенные партнерки для сайта или блога.

Понравилась статья? Подписывайтесь на RSS, чтобы быть в курсе всех самых интересных новостей моего seo блога!

Sidash

Предыдущая
«
Следующая
»