Как создать файл Robots txt для WordPress | Заметки вебмастера






Как Создать Robots txt для WordPress

robots txt для wordpressВсем привет!

В этой статье поговорим об оптимизации своего блога с помощью файла robots.txtзаточке его под поисковики и зачем это вообще так необходимо.

Как создать Robots txt для WordPress?

Не для кого не секрет, что более 70-80% трафика на наш сайт приходит из поиска или из поисковых систем ( ПС ).

Многие из Вас, имеющие свои личные блоги или сайты пишут на них интересные статьи, тем самым стараясь помочь людям решить их насущные проблемы в той или иной области.

Некоторые блогеры говорят, что им не нужна оптимизация своего сайта( «…зачем нужен этот Robots txt?…») и то,что к ним будет приходить большое количество людей, так как статьи у них уникальные

Это всё правильно, чем уникальнее статья, тем она лучше индексируется поисковыми системами и тем большее количество людей приходит из поиска. Но нельзя отрицать тот факт, что у поисковых систем есть роботы, которых необходимо задабривать.

Как создать Robots txt

Установим файл Robots на WordPress своего блога и тем самым увеличим поток посетителей с ПС на свой ресурс!

Дело в том, что в директории системы Wordpress находится много вспомогательных скриптов, страниц, файлов, которые просто необходимо закрывать от индексации роботов.

Самая главная функция  Robots  txt для WordPress это то, что он лежит в корне блога и в нём прописаны все параметры для поисковых роботов,  которые указывают, что нужно индексировать на блоге, а что нельзя.

Bender_drinking

Теперь создадим этот файл, пропишем в него нужные параметры и установим на наш блог. Создать robots.txt для WordPress можно двумя способами :

 — Вручную : 

Откройте любой текстовый редактор, например Блокнот или Notepad++, создайте новый документ,внесите туда все необходимые параметры (смотрите ниже), сохраните данный документ под названием «robots» и расширением «txt» и затем закачайте на сервер в корень блога.

 — С помощью плагина:

 Плагин называется «KB Robots.txt». Он очень прост и на странице настроек имеет лишь одно окно формы, в которое и нужно внести все необходимые параметры (смотрите ниже), затем нажать кнопку «Submit» для сохранения.

Кто не знает как установить и активировать плагин читайте статью «Как установить плагин на WordPress». После активации плагина во вкладке «Настройки» появится пункт с одноимённым названием плагина, кликнув по которому, Вы попадёте на страницу настроек.

Вот как выглядит мой вариант файла robots.txt на моём блоге:

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /feed/
Disallow: */feed
Disallow: */trackback
Disallow: */comments
Disallow: /*?
Disallow: /*?*
Disallow: /tag
Disallow: /samorazvitie/
Host: saranchinsergey.ru
Sitemap: http://saranchinsergey.ru/sitemap.xml

Внимание!!! Вместо адреса моего блога Вам нужно подставить свой.

Чтобы увидеть как Ваш файл robots.txt (его содержание) выглядит на сервере, в адресной строке браузера к адресу блога через слэш «/» допишите robots.txt

Проблемы при индексации блога

В том случае, если у Вас на сайте не стоит плагин для вывода ссылок ЧПУ, то может возникнуть проблема при индексации страниц.

Всё дело в том, что без ЧПУ ссылки на страницы в адресной строке имеют вот такой вид:

 http://saranchinsergey.ru/?p=347

Строчка в файле robots.txt :

 Disallow: /*?*

как раз запрещает индексацию страниц такого вида. Поэтому, чтобы не возникло проблем, советую Вам перейти по ссылке выше и настроить ссылки ЧПУ на своём блоге.

Как видите я не использую для робота Google запрет Disallow: /*?* в robots.txt и вам не советую. Только для Яндекса!

Запрет Disallow: /*?* не работает для страниц-комментариев, если у вас разрешены древовидные комментарии в WordPress. Поэтому, Яндекс их не будет индексировать, а вот Google за милую душу!

Тем самым таких дублированных страниц у вас появится несметное количество в результатах поисковой выдачи системы Google. Это повлечёт за собой санкции этого поисковика.

Потом будет поздно жаловаться на то, что ваш блог не может подняться на топовые позиции и что трафик упал в несколько раз.

Вы можете просто не использовать кнопку «Ответить» в поле для комментирования, а также чтобы предотвратить эту ситуацию можно просто настроить редирект 301 с таких страниц-дублей.

Для этого зайдите через ФТП в корневую папку своего блога и откройте для редактирования файл .htaccess. Потом пропишите в нём эти строки:

 RewriteCond %{QUERY_STRING} ^replytocom= [NC]
 RewriteRule (.*) $1? [R=301,L]

Вот и всё. Теперь если робот перейдёт на такую дублированную страницу, то его сразу же перенаправит на основную страницу.

Правильный robots txt

Кстати, этот вариант файла robots.txt не является истиной в последней инстанции. Но это правильный robots.txt .Я так считаю.

Это связано с тем, что существует большое количество мнений по поводу правильности и целесообразности написания или нет, тех или иных директив в файле.

Однозначный ответ на этот вопрос могут дать только программисты ПС.

Здесь в первую очередь важен результат и результат на данный момент таков:

—   В индексе Google и Yandex есть только страницы и публикации блога.

—   В панели вебмастера Google и Yandex нет никаких ошибок и замечаний по поводу файла robots.txt

Хочу отметить, что работает мой файл правильно. Я проверял это не раз, проводя аудит блога с помощью различных сервисов.

Ну а теперь ещё одна фишка от меня. Если у Вас блог пока молодой, то в этом надобности нет, но в будущем точно пригодится.

Избавляемся от нагрузки на сервер

Я сейчас говорю о повышенной нагрузке на сервер при сканировании Вашего блога поисковым роботом. Чтобы от этого избавиться, Вам нужно прописать в своём файле robots.txt директиву crawl delay.

Сделать это достаточно просто. Пропишите значение Crawl-delay: 10 после значений Disallow, Allow.

Если Вас интересует тема Как увеличить скорость загрузки блога, то читайте мою статью и применяйте на практике. Очень эффективно!

Обновлённый robots txt для WordPress.

Друзья, а теперь очень важная информация! Если вы посмотрите мой файл robots txt, то увидите, что он уже не похож на тот, который я предлагал вам установить на свой блог ранее в этой статье. А всё потому, что он, к сожалению, не работает!!!

Да, да вы не ослышались. Он не работает! Дело в том, что он на самом деле не запрещает индексацию таких разделов как tag, page, feed, attachment, comment-page, trackback и category. Это приводит к появлению дублей страниц, то есть дублированного контента. А дубли страниц в свою очередь могут привести к фильтрам поисковых систем.

Этот «косяк» заметил уважаемый блогер Александр Борисов и рассказал об этом в статье на своём блоге isif-life.ru. Это был шок для многих блогеров. В результатах выдачи у некоторых были десятки тысяч страниц с дублями. Мой блог тоже попал под раздачу. Посмотрите сколько у меня страниц в индексе Google:

страниц в индексе

И это притом, что у меня написано 98 статей! 476-98=378 страниц-дублей!!! Фух…мне ещё повезло…

Но ситуация на моём блоге меняется, график уже стабилизировался и скоро этих дублированных страниц будет всё меньше и меньше! Спасибо Александру за помощь!

Поэтому, вы обязательно должны прочитать статью Александра Борисова на блоге isif-life.ru о том, как удалить дубли этих страниц. Но смею заметить, что в статье предоставлена не вся необходимая информация.

Чтобы удалить полностью все страницы-дубли со своего блога, переходите по этой ссылке и изучайте супер-видеокурс Александра Борисова по этой теме — Как стать блоггером тысячником 3.0.

Ну вот в принципе и всё. Теперь вы знаете как создать robots.txt для своего блога. Оставьте, пожалуйста комментарии к данной статье. Буду рад услышать Ваше мнение.

Да, кстати, рекомендую вам почитать статью о микроразметке. Это очень важная тема и здорово поможет в продвижении своего блога!

Не забудьте подписаться на обновления моего блога, чтобы получать новые статьи о развитии и продвижении своего блога в сети и заработке в интернете.

Успехов Вам и Удачи
С Уважением,


Книга о заработке в интернете:
Книга о заработке в интернете

Комментариев к статье: 62

  1. Юрий Йосифович:

    Очень важный файл, который необходим для сайта или блога. Но я когда-то его удалил, и теперь с целью эксперемента не устанавливаю. Пока, не вижу разницы в плане трафика — как было 300 хостов, так и держится около года.

    Ответить

    • Сергей Саранчин:

      Юрий Йосифович, может стоит установить обратно. И тогда было бы не 300 хостов, а больше. Вы проверяли в инструментах для вебмастеров сколько у Вас страниц в дополнительной выдаче Google?

      Ответить

      • Юрий Йосифович:

        На сайте 230 страниц, в поиске 480. Но я предполагаю, что так как блог переносился один раз с Блоггера на WP, а потом с WP на Joomla, то в индексе остались ссылки на публикации по старым URL. Со временем они улетят с индекса, так как я просто настроил с этих URL редирект.
        Какая-то штука приключилась 19 декабря в Google, так как именно в этот день он избавил мой блог от 90% дублей и прочего мусора в выдаче.

        Ответить

        • Сергей Саранчин:

          Тогда всё ясно. Нужно ждать постепенного удаления этих несуществующих страниц из индекса и помогать им исчезать с помощью ручного удаления.
          Странно, но у меня с 14 декабря по 21 удалено всего з страницы из выдачи…

          Ответить

          • Юрий Йосифович:

            Под именем скриншот, на котором видно резкие изменения 19 декабря (точный день не видно) — количество индексированных страниц в день равно количеству страничек в индексе.

            Ответить

          • Сергей Саранчин:

            К сожалению, скрин не открывается через ссылку автора. Но я его увидел )). Да, действительно, заметно резкое уменьшение страниц в индексе. Ребята, кому интересно, можно посмотреть скриншот по этому адресу: yosyfovych.te.ua/s5/2015-01-24_145357.jpg

            Ответить

      • Alexandr:

        Ряд сеошников утверждает что роботс больше вредит чем приносит пользы.

        Ответить

  2. Alexandr:

    В вашем варианте файла robots.txt Disallow: /wp-admin. А вы в другой статье писали что переименовали папку wp-admin от хакеров.

    Ответить

    • Сергей Саранчин:

      Я переименовал в другой статье не папку, а файл wp-login.php Почитайте внимательнее :oops:

      Ответить

      • Alexandr:

        wp-login.php меняли на open.php. Значит про замену имени папки не у вас прочитал или напутал что то.

        Ответить

        • Сергей Саранчин:

          Наверно напутали, Александр. Бывает :smile:

          Ответить

  3. Василий:

    Сергей,
    зачем нужно закрывать эти строчки, за что они отвечают:
    Disallow: /feed/
    Disallow: */feed
    Disallow: /*?
    Disallow: /*?*

    Ответить

    • Сергей Саранчин:

      Василий, страницы с feed образуются от RSS новостной ленты, а со знаком вопроса это все страницы вашего блога, если не настроены ссылки ЧПУ или же страницы-дубли от древовидных комментариев replytocom.
      Если у вас не настроены ссылки ЧПУ ставить запреты со знаком вопроса категорически нельзя. В противном случае у вас не попадёт в индекс поисковой системы ни одна статья! :grin:

      Ответить

      • Alexandr:

        Гуглу без разницы эти строки, он их проиндексирует.

        Ответить

    • Alexandr:

      Василий, Disallow: /*? запрет на файлы с ?. В статье написано.

      Ответить

  4. Василий:

    Сергей, спасибо за ответ на мой вопрос.

    Скажите пожалуйста, зачем вот это закрывать — Disallow: */comments ?

    Ведь для ПС видеть что есть коменты — это ж хорошо, сайт живет, не мертвый. Или не так? :)

    Ответить

    • Сергей Саранчин:

      С помощью этого выражения закрываются страницы-дубли, которые образуются при оставлении комментария посетителем. Поисковые системы должны индексировать только основную страницу, естественно с комментариями и всё!
      Однако этот запрет подойдёт не всем блогерам. Здесь всё зависит от выбранного вами шаблона WordPress…

      Ответить

      • Василий:

        Сергей, спасибо за ответ!
        Тогда я так поступлю: пока этот запрет по комментариям прописывать не буду, посмотрю на их индексацию в панельке вебмастера, если будут дубли — то пропишу этот запрет, если нет, то как и оставлю.

        У меня последний вапрос по теме роботс.тхт:
        вот это зачем закрываете Disallow: /tag ?
        Это же вроде как «облако тегов», для ПС должно быть хорошо, или я опять ошибаюсь? :???:

        Ответить

        • Сергей Саранчин:

          Рад, что помог, Василий!

          Да, с comments лучше всего будет так поступить. В случае чего вы сможете в любой момент закрыть подобные страницы от индексации.

          Если Вы не закроете tag, то у вас появятся дубли страниц, а это сами понимаете негативно отразится на продвижении! :grin:

          Ответить

      • Alexandr:

        Роботсом дубли не закрываются ни от одного поисковика. Disallow: */comments не поможет.

        Ответить

      • Alexandr:

        убли закрываются файлом htaccess.

        Ответить

      • Alexandr:

        Вспомнил. Ещё дубли закрываются в админке отключением древовидных комментариев.

        Ответить

  5. Василий:

    Сергей, у меня еще несколько вопросов, но не уверен в какой статье их лучше задать, поэтому, считаю, что здесь будет более релевантно.

    Смотрю, в индексе Гугла появляются такие страницы (приводятся ниже). Возникли вопросы:

    1 Нужны ли эти страницы в индексе?
    2 Если «нет», как из закрыть отиндексации, в роботс.тхт или еще как?

    Страницы в индексе Гугла:
    1. мойблог.com/author/чье-то-имя
    2. superyachtshaven.com/2015/03/
    3. мойблог.com/uncategorized/post-1/
    4. мойблог.com/test/python/test.html
    5. мойблог.com/test/php/test.php?1408191582000
    6. мойблог.com/test/php/test.html

    Ответить

    • Сергей Саранчин:

      Василий, у меня к вам первый вопрос: «Вы настроили ссылки ЧПУ на своём блоге?»

      Ответить

      • Василий:

        Да, ЧПУ настроено так:

        Параметры — Общие настройки — Постоянные ссылки — Произвольно — /%category%/%postname%/

        Ответить

        • Сергей Саранчин:

          И всё? Или ещё плагин установлен Cyr to Lat? :grin:

          Ответить

          • Василий:

            Нет, такой плагин не установлен. По СЕОшным делам установлен только All in One SEO Pack.

            Ответить

          • Сергей Саранчин:

            Тогда советую вам пока не поздно прочитать мою статью про то как это осуществить! — http://saranchinsergey.ru/optimizatsiya/nastroyka-ssyilok-chpu-na-sayte/

            Ответить

          • Василий:

            Прочитал,
            как ссобщал выше, у меня сейчас так и прописано:«Произвольно», в той строке записан код: /%category%/%postname%/
            Плагин Cyr-to-lat, мне пока не нужен, т.к. пока идет заполнение на английском, на русском предполагается начать в следущем году.

            Вопрос-то был не про настройки ЧПУ, а что в индекс попали, на мой взгляд, ненужные страницы, поэтому и спрашивал:

            1 Нужны ли эти страницы в индексе?
            2 Если «нет», как из закрыть отиндексации, в роботс.тхт или еще как?

            Страницы в индексе Гугла:
            1. мойблог.com/author/чье-то-имя(латиницей)
            2. мойблог.com/2015/03/
            3. мойблог.com/uncategorized/post-1/
            4. мойблог.com/test/python/test.html
            5. мойблог.com/test/php/test.php?1408191582000
            6. мойблог.com/test/php/test.html
            :)

            Ответить

          • Сергей Саранчин:

            Василий, дайте ссылку на ваш блог и я посмотрю. Можете прислать адрес блога по почте :smile:

            Ответить

          • Василий:

            Сергей, я Вам в скайпе выслал. Или Вы скайпом не пользуетесь? :twisted:

            Ответить

          • Сергей Саранчин:

            Василий, проверил скайп. Там отсутствует сообщение от Вас. Вы отправляли на логин saranchinsergey.ru? :shock:

            Ответить

          • Alexandr:

            Мне кажется Василию нужно или удалять или переименовывать или запрещать исполнение файлу мойблог.com/test/php/test.php?1408191582000. Он может быть потенциально опасен.

            Ответить

          • Alexandr:

            Василий, в чём смысл наполнения английским контентом, а потом переводом на русский?

            Ответить

          • Василий:

            Просто я работаю в англо-нете. ЦА моего блога — британцы. Может быть, а может и нет, через годик-два сделаю /ру/ версию.

            Ответить

        • Alexandr:

          К /%category%/%postname%/ я бы добавил .html. Вроде так лучше.

          Ответить

    • Сергей Саранчин:

      Эти страницы нужно удалить из индекса поисковых систем. Как это сделать читайте мою статью — http://saranchinsergey.ru/optimizatsiya/udalenie-dubley-stranits-iz-poiskovoy-vyidachi/

      Ответить

  6. Василий:

    На некоторых вордпрессовских сайтах видел такие запреты, сразу прописано:
    1.
    Disallow: /trackback
    Disallow: */trackback

    Вопрос 1: в чем смысл /trackback без * пред слашем? Есть смыл его прописывать в файле роботс.тхт?

    2. что вот эта запись делает? — Disallow: /xmlrpc.php

    Ответить

    • Сергей Саранчин:

      1. Звёздочка подразумевает любое количество любых символов до слова trackback. Если Вы пропишете Disallow: /trackback, то запретите лишь индексацию именно этой директивы блога. Однозначно сказать нельзя насчёт прописывании этого запрета в robots.txt. Различные поисковые системы по разному воспринимают запреты в этом файле…

      2. Эта запись запрещает индексацию файла, который отвечает за удалённую публикацию с помощью внешних средств через XML-RPC

      Ответить

      • Alexandr:

        Сергей, Disallow: /trackback, это директива, т.е. указание на директорию))) Частая путаница между директивой и директорией. А здесь два словаё вместе.

        Ответить

        • Alexandr:

          Неправильно чуть написал. В Disallow: /trackback
          Disallow: — директива, а /trackback — директория.

          Ответить

          • Alexandr:

            Разобрался. Директива это не команда, директива это указание. Можно и не выполнять раз не команда.

            Ответить

      • Alexandr:

        Зачем запрещать индексацию файла, который отвечает за удалённую публикацию? В чём опасность для блогера?

        Ответить

  7. Alexandr:

    Судя по Disallow: */trackback у trackback нет постоянного места. Что это за папка?

    Ответить

    • Сергей Саранчин:

      Вообще, trackback – это механизм уведомления других сайтов, с помощью обработчика, который принимает эту информацию (за это отвечает файл wp-trackback.php в корне блога на WordPress) :smile:

      Ответить

      • Alexandr:

        О чём нужно уведомлять другие сайты и зачем их нужно уведомлять.

        Ответить

        • Сергей Саранчин:

          Например, о выходе новых статей или о том, что на них поставили ссылку с другого ресурса

          Ответить

          • Alexandr:

            На своём сайте я поставлю ссылку на Ваш сайт и Вы узнаете? Каким образом и где смотреть в админке?

            Ответить

          • Сергей Саранчин:

            Это можно увидеть в инструментах вебмастера Google :smile:

            Ответить

  8. Василий:

    Сергей, если меня интересует только роботс.тхт для Гугла (без Яндекса), есть какие-нибудь примеры составленного файла?

    Ответить

    • Сергей Саранчин:

      Василий, так бы и сказали изначально. Для робота Google нужно всё открыть в robors.txt. Он на него просто «забивает» и не следует его запретам! Это факт, о котором знают многие блогеры :smile:

      Ответить

      • Alexandr:

        А почему бы Googlу не забить на robots? Закона о robots нет, зачем гуглу себя ограничивать.

        Ответить

        • Артем:

          Мне вот тоже это очень интересно!?

          Ответить

          • Alexandr:

            Гугл шпионит за всеми, зачем монополисту ограничения в виде роботса?

            Ответить

        • Игорь:

          Да по моему Googl и так забивает на robots,где хочет там и гуляет.

          Ответить

        • Alexandr:

          Это риторический вопрос был.

          Ответить

      • Alexandr:

        А Гугл не может так проиндексировать личные данные, телефоны, адреса? В инет магазинах много личных данных.

        Ответить

  9. Артем:

    Долго я искал нормальной изложенной информации об этом файле, и вот нашел. Файл создам вручную через простой блокнот на виндовс так, как плагины использовать по минимуму.

    Ответить

    • Alexandr:

      Его большинство вручную копирует. Меняют адреса с чужих на свои. Дел на 5 минут.

      Ответить

  10. Игорь:

    Сергей,нормальный роботс у вас,у меня примерно такой же.
    Лично поисковики довольны :cry:

    Ответить

  11. Олег Севостьянов:

    Полезная Статья! Спасибо за очень нужную информацию.

    Ответить

    • Сергей Саранчин:

      Приветствую, Олег! Рад был помочь! :smile:

      Ответить


НАПИШИТЕ СВОЙ ПЕРВЫЙ КОММЕНТАРИЙ НА ЭТОМ БЛОГЕ И ПОЛУЧИТЕ ПОДАРКИ!

Нажимая кнопку "ОТПРАВИТЬ" комментарий, Вы принимаете пользовательское соглашение и подтверждаете, что ознакомлены и согласны с политикой конфиденциальности этого сайта.

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: