Идеальный robots.txt или история о маленьком, но очень важном файле.

Привет всем! Сегодня я расскажу вам об одном небольшом файле, который играет огромную роль в продвижении вашего блога. Как вы уже наверное догадались, речь пойдёт о robots.txt. Хоть нигде и не сказано, что его обязательно нужно использовать на сайтах, но я все же советую вам сейчас же (если вы не сделали этого раньше) открыть FTP-клиент и установить robots.txt – это займет не больше двух минут.

Вначале я расскажу о том, для чего он вообще нужен. В этом файле находятся инструкции для поисковиков, в которых написаны пути к файлам, страницам и каталогам блога, которые не нужно индексировать. Или же наоборот – в нём может быть указано расположение файла, который нужно проиндексировать в первую очередь.

У вас скорее всего уже возник вопрос – а зачем закрывать страницы от индекса? Ответ прост – чтобы не было дубля контента. Один и тот же пост может быть продублирован в тегах, страницах навигации, архивах и.т.д. Нам это совершенно ненужно по нескольким причинам:

1)    Поговаривают, что Яндекс негативно относится к подобному вида дублирования. Не знаю так это или нет так, но лучше на всякий случай перестраховаться, ведь потом вылезти из неприятной ситуации будет ой как сложно (пример подобной неприятности можете прочитать тут).

2)    Поскольку мы стремимся, чтобы в топ попала нужная нам страница с постом, лишние дубли страниц нам будут только мешать в этом (мой друг Вадим делал когда-то эксперимент с дублями, результаты на этой странице).

До недавнего времени меня полностью устраивал тот вариант robots.txt, который я установил себе на блог полгода назад. Соотношение страниц в индексе Гугла и Яндекса было приблизительно одинаковым (около 200 страниц) – а это very good :). Но буквально 2-3 выдачи назад у меня вместо 200 страниц в Яндексе стало 500, а потом больше 600! Я зашёл в панель Яндекс.Вебмастер, и увидел, что в индекс попали страницы вида http://sidash.ru/tag/vebmaster/feed/ (было ещё несколько видов ссылок, но я их не запомнил). Я сразу же открыл свой robots.txt и начал искать в нём ошибки, которые я мог допустить. Для перестраховки, я решил посмотреть на то, как выглядят подобные файлы у других известных блоггеров. За образец взял robots.txt с блога Михаила Шакина (http://shakin.ru/robots.txt).

Затем я зашел на форум Маула, создал там тему, в которой кратко описал свою проблему и то, как я решил её. На моё удивление, после той выдачи не у одного меня появилась подобная проблема! И знаете что меня еще больше удивило? А то, что robots.txt, который я взял за пример у Шакина, оказался с небольшими ошибками! Поэтому я решил взять за основу файл, который увидел на блоге Дмитрия Лебедя. Как видите, спустя полмесяца у меня в индексе 177 страниц (в Гугле в 2 раза больше, но в этом нет ничего плохого – Гугл более лояльный в плане дубля контента).

Итак, приступим к созданию файла: создаём новый текстовый документ robots.txt, заполняем его нужными данными и заливаем его в корень директории, где находится ваш блог.

А вот, собственно и текст, который нужно вставить в файл:

User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: sidash.ru

User-Agent: MJ12bot
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-login.php

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Sitemap: http://sidash.ru/sitemap.xml

 

Внимание! Не забудьте внести изменения в строчки с адресом моего блога (sidash.ru и http://sidash.ru/sitemap.xml).

User-agent: Yandex – указываем поисковому роботу Яндекса что нужно делать.
User-agent: MJ12bot – информация про этого робота здесь. Даже не помню, где я вычитал что нужно запретить от него индексацию, но убирать все же не стал.
User-agent: * — указываем всем поисковым роботам что можно а что не можно индексировать. Очень важно, чтобы этот раздел (*) был последним среди разделов, так как вначале нужно указать конкретным роботам конкретные действия, а уже потом – делать указания для всех.

Понимаю, что статья получилась не из разряда интересных и весёлых, но все же я не хотел бы, чтобы вы столкнулись с подобными проблемами. Ну а чтобы хоть немножечко развеселить вас, я хотел бы поделиться с вами ссылкой на рубрику «Смешное фото» блога с позитивными новостями. Кстати, этот тот самый блог, о котором недавно был пост «Как я получил 12 тыс. ссылок с социальных сетей за 1 пост» на блоге Ленара Амирханова! Материалы на позитивном блоге действительно шикарные!

Постовой: Проверенные партнерки для сайта или блога.

Понравилась статья? Подписывайтесь на RSS, чтобы быть в курсе всех самых интересных новостей моего seo блога!

Sidash

Понравилась статья? Поделиться с друзьями:
Комментарии: 125
  1. Allpa

    Огромное спасибо — наконец-то я нашла чёткое и внятное объяснение, что к чему, зачем и почему. И, главное, увидела содержимое файла robots.txt таким, каким оно должно быть в идеале :)
    А то ведь про сей маленький файлик в Сети много чего понаписано.. как я есть лузер, понимала в понаписаном мало. А Ваш пост как-то сразу всё поставил на место в голове.
    Оказывается, мой robots.txt был девственно чист! о.О
    Что ж, теперь остаётся присматривать за результатами в гуглояндексах)

  2. Tettie

    А зачем разрешать индексацию каталога /wp-content/uploads/?

  3. Allpa

    Хм.. только сейчас обратила внимание.. действительно, зачем?

  4. Ильдар Шакиров

    Большое спасибо. Никогда не обращал внимания на это файл, но сейчас обязательно отредактирую.

  5. Vadyxa

    Если я не ошибаюсь, в этой папке хранятся картинки и прочие файлы которые мы загрузили. Таким образом можно получить еще трафика на сайт с Яндекс Картинок например.

  6. Виктор

    Ты же в начале уже указал, что ты разрешаешь индексацию для всех поисковиков, написав такой код:

    User-Agent: *
    Так зачем после него разрешать индексацию еще и для Яндекса отдельно ?
    User-agent: Yandex

  7. Dneprolab

    Не совсем разобрался как и автор так и Дмитрий Лебедь.
    Allow: /wp-content/uploads/ бесполезная строка, так как индексация там и так открыта. Данная строка нужна была бы если имела место Disallow: /wp-content/, а так как таковой нет, то и Allow: /wp-content/uploads/ не требуется.

  8. sidash

    Tettie, Vadyxa сказал выше правильный ответ)

  9. Dneprolab

    Еще вопрос автору. В чем отличие Disallow: */feed от Disallow: */feed/ ? Очень интересно ваше мнение.

  10. sidash

    не считаю её бесполезной, так как в ней я указываю что мне нужно обязательно проиндексировать этот раздел

  11. Dneprolab

    А Вы проверили данные по совему блогу? Если Вы вчера это все прописали, то глобальные изменения в индексации еще не произошли. Проверьте, если картинки в Яндексе и Гугле с вашего блога.

  12. sidash
  13. Dneprolab

    Оно и так индексируется, проверить просто как писали выше. Если Ваши картинки в индексе ПС. У меня на блоге такое не прописано и картинки попадают в индекс, хотя даже стоит Disallow: /wp-content/

  14. Dneprolab

    Там ответа на мой вопрос нет! Можешь сказать в чем разница в написании со / к конце или без….
    Disallow: */feed
    Disallow: */feed/
    В чем разница этих друх строк?:)

  15. Евгений

    robot важный файл, и его настройка необходима. Также в нем можно исключать полностью из индекса какие нибудь темы, теги и так далее.
    Я в своем роботсе еще оставил два дополнения для гугла и яху. посмотреть можно)))
    Оптимально смотреть, что бы в строке браузера не писать,( так как я очень ленив)
    с помощью плагина для мозиллы, про данный плагин как раз рассказывалось в посте про домены tk.

  16. sidash

    User-Agent: * — означает что я даю указания всем роботам
    User-agent: Yandex — нужен для конкретных указания роботам яндекса. в моём случае код что там что там практически одинаковый(для того, чтобы наверняка указать нашему любимому яше что нужно индексировать)

  17. sidash

    Disallow: */feed — все что заканчивается на feed тоже не индексировать. к примеру: http://sidash.ru/tag/vebmaster/feed/
    Disallow: */feed/-запрещаем индексировать эту папку

    или я ошибаюсь?

  18. sidash

    то что я нашел все проиндексировано со страниц с постами. глобального чего то эта строчка не даёт, но она мне не мешает

  19. Dneprolab

    Практически правильно, Disallow: */feed — запретит все что начинается с feed, то есть у вас будет пост на блоге с УРЛом…/feedburner-rules его не проиндексирует, так как у вас прописано Disallow: */feed . Поэтому рекомендую оставить только Disallow: */feed/. Тоже касается тегов, категорий и архивов. Готовлю большой обзор работы с файлом РОБОТС.тхт поэтому как опубликую посмотрите на мелкие детали работы с этим файлом.

  20. sidash

    обязательно =)
    спасибо за советы!

  21. Dana

    Еще один вопрос от новичка, а если этого файла нет вообще? Каких проблем ожидать?

  22. Tettie

    Изображения ведь индексируются не из каталога, а со страниц блога. И дополнительный трафик можно получить, когда у этих изображений прописаны alt и title — именно по этим описаниям их отлавливает ПС. А просто пачка картинок в папке на ФТП, как мне кажется, поисковикам до одного места.

  23. Tettie

    Он может быть виртуальным, генерируемым плагином для WP.
    Но, думаю, не помешает загрузить и обычный текстовый файлик.

  24. danc1r0k

    Обьясните пожалуйста зачем закрывать от индексации комментарии?

  25. Tettie

    Dneprolab правильно написал. Убирай все дубли без слэша «/» в конце, иначе рискуешь закрыть от индексации то, что не нужно. Вдруг у тебя будут посты, в названиях которых проскочат слова из запрещенных.

  26. Tettie

    Думаю, чтобы тоже избежать дублей, ведь комментарии отображаются и просто на странице поста, и доступны по длинному адресу …/comments/…

  27. lo5t

    Опробую с одним из блогов.

  28. Dneprolab

    Да думаю будет интересно и познавательно. А если Вы мне поможете в ее распространении в виде обмена постовыми и ретвитом. Думаю это будет круто!
    П.С. Завтра на Донбасс-Арене не будете? Сколько туда билеты стоили?

  29. Dneprolab

    Спасибо за поддержку:) Вероятность небольшая, но все же. Мы же идеалисты. Ждите моего поста, вот на выходных его напишу и в начале следующей недели расскажу еще о кое-каких моментах.

  30. Dneprolab

    Tettie правильно указала. Это закрывается дублирующаяся страница, а не комментарии

  31. Тони

    молодец! пригодящаяся инфа!

  32. Dneprolab

    Ожидать кучи ненужных страниц в индексе ПС, которые будут попадать в суплементал. Вообщем найти достойное в большой куче непонятно чего будет намного труднее.

  33. Тони

    вот нашел у тебя: в Гугле в 2 раза больше, но в этом нет ничего плохого – Гугл более лояльный в плане дубля контента — а теперь слышал ли ты про вредную Панду! которая очень не любит дубли контента, так что возможно придется и с гуглем повазиться! закрыть все лишнее

  34. Phonteq

    Ребят, на самом деле полезная штука, я вот лично полностью роботс заменил на этот..только Disallow: /category убрал

  35. Dneprolab

    Не достоверная информация, Google не делает штрафных санкций из-за дубликата, он просто может выдвинуть в основной поиск не ту версию страницы (например, дубль с /feed в конце), а основную версию в суплементал. Вы потом будете ставить ссылки и пытаться продвинуть страницу, а она не двигается так как Google ее считает дублем. Конечно же построение ссылочной массы может изменить ситуацию и основная ссылка войдет в основной индекс, но это потеря времени и поискового трафика.
    А на счет Панды, так она не любит не дубликат, а низкокачественный (сгенерированный, плохо отрерайтный) контент.

  36. Dneprolab

    Я тоже советую убрать или category или tag, одно из этих можно оставить в индексе. Особенно на крупных проектах, где много страниц. Этим вы поможите в индексации страниц глубокого залегания и плюс это элемент внутренней перелинковки.

  37. Свекровушка

    Дима, спасибо за нужную информацию. Только объясни мне пожклуйста как в блоге найти этот файл. И как «залить его в корень директории». для меня это китайская грамота.

  38. Mikhail

    Полностью разделяю эту точку зрения. В любом seo-сервисе можно посмотреть как выглядит ваш сайт «глазами» поисковиков. А в uploads wordpress создает кучу вариантов картинок, если их править в админке, создавать миниатюры и т.п. Зачем это Яндексу.

  39. Dneprolab

    Пытался бороться с дублями картинок, часть удалял. Только потом и с блога пропали:)

  40. Tettie

    Зачем бороться с дубликатами картинок??? Давайте еще с дубликатами слов и букв будем бороться ))))) Ребята, в погоне за оптимизацией не стоит доходить до абсурда :)

  41. РоМэО

    Привет, хотел бы увидеть такой же файл, но только для дле. Что в этой надо закрывать, а открывать для роботов?

  42. Dneprolab

    Я уменьшал вес блога на хостинге:)

  43. Shatkovskiy

    Спасиб!)
    А я в свою очередь спёр свой прежний роботс.тхт у тебя)
    Теперь у меня останется наверное в поиске страничек 30… =D

  44. Shatkovskiy

    Когда еще мой блог стоял на ДЛЕ, то я составил вот такой:
    http://shatkovskiy.ru/robots_for_DLE.txt
    Пользуйтесь! ;)

  45. Shatkovskiy

    Отвечу за Дмитрия:
    — Создаёте на рабочем столе Текстовый документ.
    — Называете его robots
    — Открываете его, вписываете туда то, что в статье, только адрес блога меняете на свой. Сохраняете.
    — Заходите на ФТП вашего блога (через программу FileZilla, или же Total Commander (я не знаю чем вы пользуетесь) и закидываете этот файл в папку с сайтом (папка с названием «вашблог.ru»).
    Вот и всё!))

  46. Свекровушка

    Понимаете, мне надо увидеть, как это делается. У меня не получается ничего закинуть через FileZilla.

  47. Shatkovskiy

    У вас именно загрузить файл не получается в папку или зайти на ФТП через FileZilla не получается?

  48. Свекровушка

    Не получается загрузить файл. Хотя это уже не актуально. Я скачала плагин и добавила в него. Для меня так проще. И не испорчу ничего.

  49. Shatkovskiy

    Ну таким образом тоже можно… :)

  50. Allpa

    То есть если у меня в настройках стоит другой каталог для загрузок, не uploads, то мне следует в robots.txt указывать именно этот каталог в качестве индексируемого?

  51. Allpa

    То есть строчки

    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments

    следует убрать вообще?

  52. sidash (автор)

    это не обязательное поле, можете не указывать его вообще

  53. sidash (автор)

    на ДА не захотел ехать — я больше люблю на матчи ездить нежели на концерты, да и цена немного кусается 190грн.

    а в распространении статьи помогу, если вы поможете мне сделать мой роботс.тхт еще лучше ;) как раз в этом посте я вас и упомяну.ок?

    а пока что оставлю его (роботс.тхт) без изменений, чтобы потом сразу все переделать

  54. sidash (автор)

    говорят, что эта Панда уже не так опасна как на начальном этапе (стала не такой строгой :))

  55. Mikhail

    Да!

  56. Елена

    Везет вам … а я вот почти ничего не поняла… как новичок . Тяжело .Как будто читаю интсранный текст…

  57. Allpa

    Спасибо! :)

  58. Женя

    Мне нравится ваш блог, с удовольствием читаю, много полезного уже почерпнул для своего сайта)). Спасибо за статью-инструкцию.

  59. sidash (автор)

    извините что сразу не ответил, сегодня полдня в дороге был

    так можно и без плагина установить этот файл — я же описал как в использовать тотал командер в качестве ftp. а скопировать файл так вообще просто — перетянуть файл с одной половины экрана программы в другую

  60. sidash (автор)

    спасибо ;)

  61. tood

    Хороший пост, для многих пригодится, ведь файл robots.txt является довольно таким важными в плане оптимизации блога. Еще бы хотел заметить, что у меня тоже стоял какой неправильный файл роботс, потому наблюдалось достаточно много дубля контента, в пример взял ваш, посмотрим что и как))

  62. aleksandr

    Хочется всем посоветовать , и в первую очередь автору , одного запрета от индексации страниц в robots.txt. недостаточно , если ваш блог на платформе WordPress. Чтобы избежать индексирования дублирующих страниц на сайте вида(feed, tag, page) самый легкий и простой путь-это нужно установить плагин Robots Meta и в настройках плагина запретить индексацию нужных страниц , категорий и тд, хотя есть и другие пути для этого , кто понимает. Проверяйте на дубли программой Site- Auditor. Забыл сказать, что нужно в обязательном порядке удалять дублирующие страницы из индекса поисковых систем . Ссылки на это -https://www.google.com/webmasters/tools/removals?hl=ru, http://webmaster.yandex.com/delurl.xml. Удачи вам всем в этом !!! Если есть вопросы , обязательно отвечу.

  63. gitosik

    Блин, круто, спасибо Дмитрий за такие клевые полезные статьи!:) Студенты рулят!)))

  64. Свекровушка

    Так надо же знать в какую именно папку его поместить. чтобы не навредить. Ты же понимаешь. таким как я надо хотя бы скриншот выложить. А то все пишут -закинуть в корневую папку или каталог или директорию. И все считают, что это само собой разумеется.
    Но хоть убей, я не понимаю этого. Поэтому и не стала рисковать.
    Тем более, что файл я создала в простом блокноте и вдруг он не подойдет?
    Конечно, много плагинов слишком нагружают блог. Но что делать?

  65. Свекровушка

    Вот интересно, в сети масс аблогов, неужели все знают от этом? Читаю такие блоги, как этот и понимаю, что ничего не понимаю. Но ведь люди же ведут блоги и не заморачиваются подобными проблемами. Почему?

  66. Дмитрий Канев

    Блин, у меня вообще этого robots.txt нет наверно стоит создать. Спасибо Дмитрий.

  67. Phonteq

    Конечно стоит! Нужный файл ;)

  68. Phonteq

    Если человек ведёт блог для какого-то морального удовлетворения то ему плевать на все сео…смо….сколько станиц в индексе…и т.д заморочки, а если создавать проект даже чтобы иметь с него финансы, то очень важны нюансы вроде этого ;)

  69. sidash (автор)

    вам сделать скрин как это все сделать?

  70. Shatkovskiy

    вот я заснял еще вчера)
    http://shatkovskiy.ru/capture-142.avi
    (весит 4.5 Мб)
    Окно программы полностью не снимал, дабы не светить свой список фтп-аккаунтов)

  71. Dneprolab

    Молодец, не поленился!

  72. Свекровушка

    Дима, а можеш написать мне гостевой пост на эту тему со скинами? Среди женщин много таких непонятливых, как я.
    Вопросов подобных моему в сети просто море. А таких непонятливых блАндинок еще больше?
    Если нет, тогда у себя напиши.

  73. sidash (автор)

    так я же уже все написал + видео в комментариях оставили вам (Shatkovskiy, спасибо)

  74. Елена

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: /feed
    Disallow: /comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?*
    Disallow: /*?
    Allow: /wp-content/uploads# Google Image
    User-agent: Googlebot-Image
    Disallow:
    Allow: /* # Google AdSense
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*
    # Internet Archiver Wayback Machine
    User-agent: ia_archiver
    Disallow: /
    # digg mirror
    User-agent: duggmirror
    Disallow: /
    Sitemap: http:// supervkusnjasha.ru/sitemap.xml
    User-agent: Yandex
    Crawl-delay: 5
    Disallow: /tag

    А этот код правильный ? У разных авторов — разные файлы robot.txt.

    Как разобраться новичку , который еще как слепой котенок , делает первые шаги ?

  75. sidash (автор)

    советую подождать пока Dneprolab не опубликует обещанный подробный пост об этом файле.он вроде бы хорошо разобрался с настройкой этого плагина

  76. Свекровушка

    У меня не открывается ссылка

  77. sidash (автор)

    Свекровушка, у меня все работает — ссылка на скачивание видео

  78. Свекровушка

    Да, ссылка работает в опере. Спасибо , скачала

  79. Shatkovskiy

    Пользуйтесь ;]

  80. Dneprolab

    Спасибо, уже заканчиваю пост! Скоро будет! А плагинов я не использую!

  81. Dneprolab

    Disallow: /cgi-bin не нужно вордпресс такую папку не создает
    Disallow:
    Allow: /* # Google AdSense
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*
    # Internet Archiver Wayback Machine
    User-agent: ia_archiver
    Disallow: /
    # digg mirror
    User-agent: duggmirror
    Disallow: /
    Без этого всего можно обойтись.

  82. Dneprolab

    Кстати нашел пост, ну очень похож на твой http://nytrox.ru/prodvizhenie/idealnyj-robots-txt-dlya-wordpress/

  83. Dneprolab

    Сделаю пост и покажу всем как легко проверять правильно ли Вы закрыли нужные страницы.

  84. viktor

    Хотелось-бы узнать по-подробней.Как установить robots.txt ?
    Начиная с того как зайти в корень директории?
    Желательно что-б было все подробно расписано.
    А то знаний крайне мало…

  85. sidash (автор)

    заходим на сайт с помощью ftp
    http://sidash.ru/rak-nastroit-ftp-klient-na-primere-total-commander-dlya-zagruzki-sayta-na-hosting/
    думаю тоталом умеют все пользоваться?)
    после этого заходим в корневую папку блога (в ней будут такие папки как wp-admin,wp-content итд — если у вас блог на вордпрессе)
    скидываем с компа уже созданный файл robots.txt в корень блога

  86. Эмиль

    Подскажите. А с помощью файла robots можно исключить индексирование ссылок на другие источники? Если нет, то как можно это сделать?))

  87. sidash (автор)

    можно специальным плагином Robots Meta
    настройте его аккуратно, чтобы не было такой проблемы как у меня когда то http://sidash.ru/reshaem-problemu-indeksatsii-stranits-yandeksom/

  88. Эмиль

    Большое спасибо!

  89. Эмиль

    Это мой роботс. Все ли с ним в порядке?
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /tag

    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /tag
    Host: azbuka-turista.ru
    Sitemap: http://azbuka-turista/sitemap.xml.gz
    Sitemap: http://azbuka-turista/sitemap.xml

  90. sidash (автор)

    Disallow: */*/feed/*/ можно убрать

  91. Эмиль

    Еще вопросик. Посмотрел в Яндекс вебмастер, что мои статьи не включены файлом Robots. Что в файле отвечает за это?

  92. Эмиль

    Я все файлы закачивал через обычный файловый менеджер TimeWebа в папку /public_html, я не правильно делаю? Обязательно закачивать через ftp или мой вариант подойдет?

  93. sidash (автор)

    какие именно статьи не включены? вроде бы все нормально у вас

  94. sidash (автор)

    ваш вариант тоже может подойти. скорее всего вы попали под какой-то фильтр яши, раз у вас 1 страница в индексе

  95. Эмиль

    А как узнать про фильтры?

  96. Эмиль

    Ни одна статья не включена, только главная страница. Зашел в раздел исключенные страницы и там их нашел, вот и погрешил на роботс. В тех поддержке яндекса тупо направляют на форум , мол читайте и сами разбирайтесь.

  97. sidash (автор)
  98. sidash (автор)

    неее, тут не в роботсе дело, поверь)

  99. Эмиль

    А в чем дело?) АГС?

  100. Эмиль

    В общем что интересного я нашел:
    Графа Документ запрещен в файле robots.txt есть такой адрес: http://azbuka-turista.ru/?p=189 то бишь он запрещен, но если перейти по нему будет нормальный адрес моей нормальной статьи http://azbuka-turista.ru/2011/05/reyting-samyih-opasnyih-kurortov-mira/ , которая по сути должна индексироваться.
    Дима не знаешь в чем проблема?

  101. Эмиль
  102. sidash (автор)

    а давайте знаете что? уберем практически все строчки в этом файле — посмотрите что будет с индексированием

  103. Эмиль

    То есть сделать роботс пустым?

  104. sidash (автор)

    прописать пару основных строк, а остальные удалите
    http://www.seo.su/articles.php?id=89

  105. Эмиль

    ок попробую, спасибо большое

  106. Эмиль

    Вот что мне ответил Яндекс)

    В данный момент Ваш сайт не полностью удовлетворяет нашему пониманию качественных сайтов, поэтому на него наложены санкции, и файл Sitemap временно не обрабатывается.

    Продолжайте наполнять уникальным контентом и развивать Ваш сайт. Он будет
    представлен в поиске большим количеством страниц, а также начнётся проверка файла Sitemap? если Ваш сайт станет соответствовать нашему пониманию качественных:

    И вот после этого появился вопрос: как долго он примет мой сайт как качественный))) и как это происходит в ручном или автоматическом режиме)
    Кто нибудь знает?

  107. Эмиль

    Да и как Яндекс будет определять мой уникальный пост, если он не индексирует сайтмап?

  108. sidash (автор)

    ну значит продолжайте публиковать статьи дальше (и уберите наконец-то это облако тегов в сайдбаре)
    страницы появятся в индексе через месяц скорее всего. не раньше

  109. sidash (автор)

    после публикации статей добавляйте ссылки на них в аддурилку яндекса

  110. Эмиль

    Спасибо за совет. А убрать только облако? или вообще теги)

  111. sidash (автор)

    в виджетах убрать вообще

  112. DaHuJIka

    Спасибо за статью. Только вопрос есть.
    Закрыл индексацию категорий, то есть site/category/espresso закрылся, но site/espresso (полный аналог по содержимому) открыт и проиндексирован. Как его закрыть?

  113. sidash (автор)

    у вас статьи выводятся вот таким образом: адрес сайта/название поста ?
    если да, то зачем их закрывать?)

  114. DaHuJIka

    Да нет же, до это не дойдет 8)

    дело в том, site/category/espresso = site/espresso;
    статьи же выводятся так: site/espresso/имя_статьи;
    хочу закрыть site/espresso

  115. sidash (автор)

    короче, закройте к индексации категории и все
    site/category/

  116. DaHuJIka

    так я и закрыл, но это не помешало Гоше проиндексировать site/espresso.
    Ладно, спасибо за уделенное внимание. Может он их сам потом выкинет

  117. PlayApps

    После вставки роботса из поста Яндекс выкинул из индекса пол сайта, в чем может быть проблема?

  118. sidash (автор)

    @PlayApps: а с чего вы взяли, что это случилось после использования моего варианта robots.txt?
    можете посмотреть как выглядит новый вариант этого файла у меня на блоге
    http://sidash.ru/robots.txt
    когда вы вставляли этот код и на какой сайт?

  119. xalls

    я ещё запрещаю индексацию роботу вебархива строчкой
    User-agent: ia_archiver
    Disallow: /
    чтобы конент через вебархив потом не тянули.

  120. zapahmoney

    Здравствуйте, у меня проблема с индексацией, а именно с категориями. Я в robots.txt прописал строку Disallow: /category/*/* но вот проблема гугл и яндекс индексируют категории. В чем может быть проблема?

  121. sidash

    @zapahmoney: здравствуйте. как давно вы прописали эти строчки? может поисковики еще не успели учесть изменения

  122. zapahmoney

    @sidash: Честно сказать сайт молодой, это его первый месяц. Ну он прошел индексацию и там категории прондексировались

  123. sidash

    @zapahmoney: ну вот, я так и думал. нужно просто подождать некоторое время

  124. zapahmoney

    Здравствуйте, Дмитрий. У меня так же осталась проблема категории индексируются (проверяю через яндекс вебмастер эти страницы в поиске есть). Может вместо Disallow: /category/*/* поставить Disallow: /category/ ?
    Просто не пойму зачем звездочки ставить? если просто поставив Disallow: /category/ категории закроются.

  125. sidash

    @zapahmoney: здравствуйте) попробуйте конечно же, я со своим файлом уже много раз экспериментировал

Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: