Как удалить дубли страниц из поисковой выдачи | Заметки вебмастера






Удаление дублей страниц из поисковой выдачи

удаляем дубли страницПриветствую всех посетителей моего проекта!

Друзья, на связи с вами опять я, Сергей Саранчин. И эта статья будет продолжением недавно начатой мной темы — поиску и удалению дулей страниц на сайте или блоге.

Кто читал мою предыдущую статью, тот помнит, что в ней я рассказывал о дублированных страницах в частности: что это за страницы, как они появляются, как определить есть ли они у вас, а также о том, как избавиться от дублей replytocom на своем веб-ресурсе.

Но как я упоминал в своей предыдущей статье дубли replytocom не единственно возможные дубли страниц на блоге. Помимо них есть еще много других. Поэтому я и хочу сегодня в этой статье рассказать вам о том, как их найти и обезвредить.

Почему блог не продвигается?

Одна из серьёзных проблем, мешающая нормальному продвижению веб-ресурса — дубли страниц! Вы о них можете и не знать, а они тем временем постепенно убивают ваш блог, не оставляя даже малейшего шанса на его возможное продвижение. И это действительно так.

С каждым днем их может становиться все больше и больше, а вы только будите пожимать плечами и говорить: «Фигня этот блогинг… Ничего не получатся! Пишу статьи одну за другой и все без толку. Оно мне надо? Все хватит, бросаю эту лямку, — бесполезная трата времени…» Да, ребята. Вот именно так погибло очень большое количество различных сайтов и блогов.

Поэтому, чтобы уберечь свой веб-ресурс от этой напасти и дать возможность ему нормально развиваться, нужно найти и удалить все дубли страниц из поисковой выдачи.

Ну, и естественно прекратить их дальнейшее распространение. Чем мы сейчас и займемся.

Как бороться с дублями страниц на блоге

Итак, приступим. Если вы читали предыдущую статью про дубли replytocom, то должны помнить, что весь смысл борьбы с дублированным контентом сводится к одному обязательному правилу – нельзя закрывать в файле robots.txt для поискового робота Google доступ к подобным страницам на своем блоге!

Поэтому удаляем все ненужные запреты в robots.txt и тем самым даем право поисковому роботу с Google беспрепятственно посещать все эти страницы. Он без проблем их сканирует и обнаруживает в основном коде вот такой мета тег:

noindex для страниц дублей

Этот мета тег запрещает забирать такие веб-страницы в индекс. Если же вы закроете доступ поисковому роботу в файле robots.txt для дублированных страниц, то Яндекс не заберет их в индекс, потому что для него будет запретом посещение этих закрытых страниц, а вот Google за милую душу их добавит к результатам выдачи!

В прошлой статье, если вы вспомните, для того чтобы найти дубли replytocom в поисковой выдаче Google я прописывал в поисковой строке вот такой запрос:

 site:saranchinsergey.ru replytocom

Ищем дубли страниц на блоге

Ну, а теперь настало время найти другие дублированные страницы на своем блоге. В url-адресах у них прописаны следующие разделы:

 tag
 page
 comment-page
 attachment
 attachment_id
 category
 trackback

Найти их можно таким же способом, как и дубли replytocom. Подставляйте в поисковой строке вместо replytocom другие значения, которые я прописал выше, и наблюдайте за результатами. Советую вам на всякий случай достать нашатырь, чтобы во время его нюхнуть, если вам станет плохо после увиденного. Мне, признаюсь, было как-то не по себе…. Итак, заходим в Google и прописываем в поисковой строке следующее:

 site:адрес feed

Далее нажимайте «Показать скрытые результаты»:

показать скрытые результаты

Сколько у вас таких дублей страниц feed? У меня было 68 штук:

дубли страниц feed в выдаче

От этих страниц дублей необходимо избавиться. Но не нужно для этого использовать неработающие способы. Не добавляйте в robots.txt для робота Google никаких строк, наподобие этих (для Яндекса нужно будет наоборот их прописать):

установка запретов для робота

У всех блогеров, которые прописывали в robots такие запреты для поискового робота Google, имеются дубли feed в результатах выдачи Google и это факт! Нужно действовать по другому. Сначала открыть feed в robots.txt, а затем применить 301 редирект. Но не будем спешить. Давайте всё по порядку.

Отлично! Мы нашли дубли страниц feed. Теперь найдем другие. Действуем по аналогии. Вбиваем в строку Google эти запросы один за другим:

 site:адрес feed
 site:адрес tag
 site:адрес attachment
 site:адрес attachment_id
 site:адрес page
 site:адрес category
 site:адрес comment-page
 site:адрес trackback

Затем так же кликаем «Показать скрытые результаты». Вот какая картина была у меня вначале. Посмотрите я записал количество всех дублей страниц, перед тем как начал их удалять : дубли страниц перед удалением Как видите ситуация не айс! В настоящее почти все дубли этих страниц покинули результаты выдачи! А у вас какие результаты? Много дублей отыскали? Сразу успокою вас. Сколько бы их не было, — все можно исправить. Сейчас этим мы и займемся.

Как удалить дубли страниц из выдачи

Так. Давайте начнем. Для начала отредактируем свой файл robots.txt — удалим из него ненужные строки, чтобы он выглядел вот так:

 User-agent: Yandex
 Disallow: /wp-admin
 Disallow: /wp-includes
 Disallow: /wp-content/plugins
 Disallow: /wp-content/cache
 Disallow: /wp-content/themes
 Disallow: /feed/
 Disallow: */feed
 Disallow: */trackback
 Disallow: */comments
 Disallow: /*?
 Disallow: /*?*
 Disallow: /tag
 Host: блог.ru
 Sitemap: http://блог.ru/sitemap.xml

Можете его копировать и размещать  у себя. Видите, все запреты для робота Googlebot удалены, оставлены только для робота с Яндекса. Кстати здесь поменяйте блог. ru на адрес вашего ресурса. Итак, надеюсь на этом этапе пока все ясно.

Главным моментом здесь является открытие доступа для поискового робота Google ко всем типам страниц. У большинства блогеров были выставлены запреты в robots на индексацию страниц, которые находятся в разделах category, tag, page и т.д.

Далее вам нужно будет вместо этих бесполезных запретов для дублированных страниц, там где это можно осуществить, прописать  мета тег noindex. Помните его из прошлой статьи про дубли replytocom?:

 <meta name='robots' content='noindex,follow' />

Ну, а там где это сделать не представляется возможным, нужно использовать 301 редирект с дублированной страницы на основную.

Итак, теперь приступим к активным действиям. Чтобы было понятнее, я буду описывать все поэтапно.

  1. Пропишите в файле .htaccess вот этот код, состоящий из нескольких строк:
 RewriteRule (.+)/feed /$1 [R=301,L]
 RewriteRule (.+)/comment-page /$1 [R=301,L]
 RewriteRule (.+)/trackback /$1 [R=301,L]
 RewriteRule (.+)/comments /$1 [R=301,L]
 RewriteRule (.+)/attachment /$1 [R=301,L]
 RewriteCond %{QUERY_STRING} ^attachment_id= [NC]
 RewriteRule (.*) $1? [R=301,L]

Файл .htaccess находится в корне вашего блога весте с папками wp-admin, wp-content и другими. Скачайте его на свой компьютер, откройте с помощью программы notepad++, впишите этот код и сохраните файл.

Ну, а потом просто закачайте обратно туда, где он находился ранее. На всякий случай сделайте резервную копию этого файла, чтобы в случае непредвиденных обстоятельств можно было бы все вернуть назад. Вот так выглядит после изменения мой .htaccess:

.htaccess после прописи редиректов

  1. Теперь пропишите в самом начале файла functions.php после <?php вот этот код:
 /*** ДОБАВЛЯЕМ meta robots noindex,nofollow ДЛЯ СТРАНИЦ ***/
 function my_meta_noindex () {
 if (
 is_paged() // Все и любые страницы пагинации
 ) {echo "".'<meta name="robots" content="noindex,nofollow" />'."\n ";}
 }
 
 add_action('wp_head', 'my_meta_noindex', 3); // добавляем свой noindex,nofollow в head
  1. После этого входим в настройки плагина All in One Seo Pack и вставляем их следующим образом:

настройки против дублей страниц

  1. Войдите в панель администрирования блога и пройдите по вкладкам Настройки — Обсуждение. Уберите метку с чек бокса «Разбивать комментарии верхнего уровня на страницы»:

не разбивать комментарии на страницы

Так. Отлично. Все сделали как надо. Остается подождать пока переиндексируются страницы — дубли и исчезнут из результатов поисковой выдачи. Ну, а теперь вкратце опишу наши действия, которые мы осуществили, чтобы вы поняли, как это работает.

Итак. Про удаление запретов в robots.txt вы, надеюсь, поняли. Просто открыли путь поисковому роботу Googlebot к свободному индексированию страниц. После этого на страницах-дублях он будет видеть специальный мета тег  и поэтому не станет забирать эти страницы в индекс.

Все страницы page мы закрыли от попадания в индекс с помощью кода, который добавили в файл functions.php в пункте 2, а вот страницам tag и category мы также надежно закрыли путь в индекс, когда в настройках плагина All in One Seo Pack установили метки в нужных местах — пункт 3.

Страницы feed, attachment, attachment_id, comment-page и trackback скрылись от глаз робота благодаря использованию 301 редиректа. При таком раскладе никакой метатег вообще не нужен. Помните, мы просто прописали несколько строчек в файл .htaccess,- это было в пункте 1.

В этом случае поисковой робот при наличии редиректа, попадая на эти страницы, будет автоматически перебрасываться на основные URL. У него не будет никакой возможности забрать такие страницы в поисковую выдачу!

В настройках панели администрирования WordPress, а точнее в обсуждениях, мы убрали метку, чтобы наши комментарии не могли разбиваться на несколько страниц, и создавать другие url-адреса.

Ну, вот и все. Простая схема. Примените ее на своем блоге и избавитесь от дублей страниц, которые не дают развиваться вашему ресурсу. Все эти методы отлично работают и принесли конкретно мне хорошие результаты.

Вот так изменилось количество проиндексированных страниц в Google после того как я начал с ними бороться. Видите, их количество неуклонно снижается:

изменения индексирования дублей страниц

По правде сказать, после того как я узнал о том, что у моего блога в выдаче уйма страниц дублей, я потерял дар речи. Подумать только, — писал статьи и ждал увеличения трафика, а в итоге всё получалось с точностью да наоборот.

В голове крутится один и тот же вопрос,- «Насколько бы продвинулся мой блог на сегодняшний день, если бы в выдаче изначально отсутствовали дубли станиц?»

Обидно, конечно, что сложилась такая ситуация, но ничего, прорвемся. Дубли уходят из результатов поиска и это главное!

На этой оптимистической ноте я прощаюсь с вами. Надеюсь, моя статья поможет вам в борьбе с дублями страниц и соответственно, в продвижении вашего блога!

Успехов Вам и Удачи
С Уважением,


Книга о заработке в интернете:
Книга о заработке в интернете

Комментариев к статье: 27

  1. Игорь Черноморец:

    Привет Сергей! Отличная статья, все понятно описано, мололец.
    Я уже давно проделал все эти рекоммендации благодаря Борисову и…так и да, почти все дубли ушли.
    А вот у меня такой вопрос:
    Зачем убирать опцию древовидных комментариев, если так и так мы сделали редирект rypletocom? Лично я оставил эту опцию и уже как полгода дубли rypletocom не появились. Так это и логично, ведь стоит же редирект.

    Ответить

    • Сергей Саранчин:

      Приветствую, Игорь!
      А я не не писал про то, что нужно убрать опцию древовидных. Я отметил, что нужно убрать опцию «разбивать комментарии верхнего уровня на страницы». Ты, может быть ошибся?
      В действительности, даже можно и редирект убрать и включить опцию древовидных. Главное здесь — убрать лишние запреты для Googlebot и выставить настройки на noindex в All in Seo Pack.
      P.S. Я тоже начал удалять дубли после прочтения статьи Борисова, но в интернете потом нашёл массу статей 2010 и 2011 года о удалении подобных дублей… Так что Борисов не первый из первых!

      Ответить

      • Игорь Черноморец:

        Так и да, ты прав, это я ошибся! А то что Борисов не первый, это я и сам знаю, даже в своей статье про дубли об этом упомянул.
        А сейчас я тебе скажу то, что я лично думаю по этому поводу (про дубли)…Мне мало верится, что именно эти дубли как-то влияют на развитие сайта! ну не верю я и всё :))))
        На просторах интернета существует тысячи сайтов с этими дублями и…ничего, развиваются, раскручиваются, ростут.
        Мне кажется, что всё это фигня!
        Да, я тоже последовал советам и Борисова и остальных, но это исключительно на всякий пожарный :) Мало ли что.
        Абсолютно такое же у меня мнение по поводу закрытия ссылок в nofollow.Хотя я тоже на всякий случай по закрывал ссылки комментаторов в span, хотя в это не верю

        Ответить

        • Сергей Саранчин:

          Не, мне не кажется это фигнёй.
          Например по Яндексу, если робот грузит десятки тысяч ненужных страниц то это не айс. Это 100%.

          Начёт Google тоже не хорошо. Если много страниц в дополнительной выдаче это не прибавит веса блогу…

          Исходящие ссылки показывают многие сервисы — CheckTrust, Xtool, Linkpad. И после того как я начал бороться с дублями количество таких ссылок уменьшилось в разы по всем этим сервисам! CheckTrust показывал раньше, что мой блог спамный, а теперь всё класс!

          P.S. Игорь, я согласен, что в интернете много сайтов с подобными дулями в выдаче и они хорошо развиваются. Но вот вопрос — Сколько они инвестируют в развитие своих веб-ресурсов?
          Возможно, если бы они уделили особое внимание внутренней оптимизации, им не пришлось бы тратить гигантские суммы на раскрутку своих блогов с помощью внешней оптимизации…

          Ответить

  2. Игорь Черноморец:

    И ещё у меня есть один вопрос!
    Ты дал пример файла роботс и там через агента Гугла ты абсолютно ничего не закрыл. Ну на счёт дублей, типа replytocom, feed и т.п. это понятно, а вот что с админкой, плагинами и т.п.? Ты уверен в том, что для Гугла нужно открыть абсолютно всё?

    Ответить

    • Сергей Саранчин:

      Да, я ничего не закрыл и уверен в этом. Дело в том, что я проследовал по ссылкам, которые все блогеры прописывают в robots и мой сервер по этим запросам выдавал или пустую страницу или ответ 503 «сервис недоступен».
      Поэтому я закрыл только в Яндексе, потому как Яндекс всё забирает в выдачу, даже иногда страницы с мета тегом noindex и это факт!
      Кстати, такой robots.txt и у Борисова и у Белана тоже стоит.
      Но если у тебя сервер показывает страницы, например при запросе: site/wp-content/themes и т.д., то я не советую открывать доступ к этим разделам для Googlebot.

      Ответить

      • Игорь Черноморец:

        Понятно! Только что проверил и эти разделы при запросе мне выдают белый лист. Значит всё нормально? Можно не закрывать в роботсе для Гугла?

        Ответить

        • Сергей Саранчин:

          Да, Игорь, можно не закрывать. Google и так их выкинет из выдачи, а вот для Яндекса закрой, чтобы он лишний раз не загружал эти страницы, ну и в выдачу чтобы не добавлял (хотя это не так страшно) — там же нет контента…

          Ответить

  3. Алиса:

    Мозг кипит просто)). Наверное напишу хотя бы пару статей для начала, а потом полезу смотреть, как там и что и лазить по этим папочкам. Конечно, хорошо, что у вас тут все так поэтапно и со скриншотами, иначе не реально мне было бы чего то понять.

    Ответить

    • Сергей Саранчин:

      Алиса, я советую перед написанием статей проделать все эти манипуляции. Так как вам не нужно удалять дубли страниц (на новом блоге их пока просто быть не может), необходимо будет правильно настроить WordPress и всё!

      Ответить

  4. Алиса:

    Я по своему не лазила, только представила, как может быть и валерьяночки, как вы написали захотелось..

    Ответить

  5. Анютка Незабудка:

    Дубли страниц вещь ужасно неприятная и ненужная. Ваша статья очень полезная для тех, кто даже не догадывается об этой проблеме.

    Ответить

  6. Евгений:

    Очень актуальная тема! Я вот недавно тоже боролся с этими дублями. Эх, ну вот не дают они спать спокойно блоггерам… Жесть просто! Но тут уж деваться некуда, нужно с дублями бороться, а в этом как раз многим новичкам Сергей, твоя статья и поможет!

    Ответить

  7. Alexandr:

    Что значит RewriteRule (.+)/feed /$1 [R=301,L]
    Я незнаком с регулярными выражениями.

    Ответить

    • Сергей Саранчин:

      Это значит перенаправление со страниц блога, которые имеют feed на конце URL на их основные страницы (без feed) :smile:

      Ответить

      • Alexandr:

        Пора мне учить регулярные выражения, помнил их но подзабыл.

        Ответить

  8. Людмила:

    Сергей, замечательная статья. Все четко, аргументировано, замечательным стилем и без лишнего шума. Я очень рада, что наткнулась на Ваш блог в начале пути.

    Ответить

    • Сергей Саранчин:

      Людмила, спасибо за слова благодарности!
      Очень приятно их слышать в свой адрес и понимать, что твой труд приносит пользу людям!

      Читайте мой блог. Здесь нет «воды» и каждый момент проверен мной лично на практике! :smile:

      Ответить

  9. Виталий Охрименко:

    Я все проблемы с дублями решил одним плагином — wordpress by yoast, он конечно систему здорово грузит, зато функционал отличный!

    Ответить

    • Сергей Саранчин:

      Виталий, ну что ж, если решили, то всё ок! Это самое главное!

      Ответить

  10. Марина:

    Здравствуйте. У меня много исключенных страниц вида /?p= и /comment-subscriptions/?srp=

    Страницы /?p= перенаправляются на страницу с нормальным адресом.

    Яндекс показывает такую картину:

    Загружено страниц 701
    Исключено 443 — эти страницы не в поиске, но робот их загружает и, соответственно, тратит время в пустую. У гугла примерно такая же ситуация.

    Нужно ли мне что-либо делать с этими страницами? Можно ли их вообще удалить?

    Ответить

    • Сергей Саранчин:

      Приветствую, Марина!

      Я тоже задавался этим вопросом по поводу таких страниц в Яндексе. В техпомощи написано, что подобные страницы, если они закрыты от индексации, исключаются из статистики Яндекса только с течением времени. Поэтому совет один — ждать.

      А у Гугла Вы где смотрите статистику? В какой вкладке? Статус индексирования?

      Ответить

      • Марина:

        Я уже не помню, где у гугла смотрела, вроде там, просто на днях удалила эти ссылки, но гугл написал, что страницы со временем могут быть загружены роботом снова.

        У яндекса я тоже читала об этом в техпомощи, но эти странички уже долго висят и не исчезают, а с каждым новым постом их количество только увеличивается. Поэтому и решила спросить, вдруг вы знаете, нужно ли с этим что-нибудь делать или нет.
        Кстати, спасибо за статью об удалении дублей replytocom!!!

        Ответить

        • Сергей Саранчин:

          Марина, у меня тоже давно висят подобные страницы в статистике Яндекса.

          Возможно, Яндекс как всегда тупит и не удаляет их. Действительно проблема на лицо, потому как эти страницы загружаются поисковым роботом и отнимают время у него на индексирование новой информации.

          Я пока не знаю ответа на этот вопрос, но хочу в этом разобраться. Спасибо за напоминание о проблеме :oops:

          Ответить

  11. Игорь:

    Cергей,все что написано в вашей статье, я уже сделал давно, но вот, что мне не совсем понятно.В гугле, когда начинаю искать дубли,находится 780 страниц с trackback, хотя они идут с перенаправлением на основной урл. Стоит ли на это обращать внимание? Или они уже дублями не являются, поисковик их не индексируют?

    Ответить

    • Сергей Саранчин:

      Игорь, скорее всего, гугл ещё не выкинул из поисковой выдачи эти страницы, если идёт редирект. Нужно подождать некоторое время и всё будет окей :smile:

      Ответить

  12. Игорь:

    Еще у меня дополнение, Александр Борисов советовал вот эти строчки Disallow: /feed/
    Disallow: */feed
    Disallow: */trackback
    Disallow: */comments
    Disallow: /*?
    Disallow: /*?*
    Disallow: /tag
    из роботс удалять совсем,оставить роботу самому разбираться, что делать с ними.

    Ответить


НАПИШИТЕ СВОЙ ПЕРВЫЙ КОММЕНТАРИЙ НА ЭТОМ БЛОГЕ И ПОЛУЧИТЕ ПОДАРКИ!

Нажимая кнопку "ОТПРАВИТЬ" комментарий, Вы принимаете пользовательское соглашение и подтверждаете, что ознакомлены и согласны с политикой конфиденциальности этого сайта.

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: