Как удалить страницы из индекса Google и Яндекс | Заметки вебмастера






Как удалить страницы блога из индекса поисковика

удаление страниц из поискаДобрый день, уважаемые читатели, блогеры и случайные посетители!

Сегодня моя статья посвящена весьма актуальной теме в свете последних событий в мире блогинга. Не так давно многие вебмастера узнали, что душит их блоги, и по какой причине продвижение их веб-ресурсов остановилось.

Я сейчас говорю о дублях страниц. Именно они мешали многим блогостроителям. И я тоже в их числе. В настоящее время я веду борьбу с этой заразой. Через некоторое время напишу статью о том, как я расправился с дублями страниц на своем блоге.

Расскажу о тех методах, которые мне реально помогли, и покажу наглядно при помощи скриншотов как уходили дубли страниц с моего блога. Вот как-то так. Короче, как расправлюсь с дублями страниц, с меня статья.

А что так важно ручное удаление из индекса?

Ну, а сегодня я расскажу о том, как удалить страницы из поисковой выдачи. Это нужно знать и применять, если на вашем блоге тоже имеются дубли страниц, и вы хотите как можно скорее от них избавиться. Здесь ключевым моментом является время.

Чем быстрее вы освободитесь от дублированного контента, тем лучше. И удаление страниц вручную из индекса здорово в этом помогает.

Посмотрите доказательства на скриншоте. С 28.12.14 по 04.01.15 я удалял дубли вручную, а вот с 04.01.15 по 11.01.15 оставил все на усмотрение робота. Типа он увидит, что эта страница не существует и уберет ее сам. Результат на лицо:

индексирование в Google

С 28.12.14 по 04.01.15 удалено из индекса Google 447-397=50 страниц-дублей. А вот с 04.01.15 по 11.01.15 удалено всего 397-393=4 дубля. Исходя из этих результатов, я могу с полной уверенностью заявить, что ручное удаление страниц-дублей жизненно необходимо. И чем скорее, тем лучше. Думаю, я вас убедил в этом, поэтому пойду дальше.

Да, кстати, дубли страниц не единственный мусор, от которого нужно немедленно избавляться. На вашем блоге по любому есть еще куча других шлаковых страниц, которые присутствуют в индексе поисковых систем.

И их тоже нужно в обязательном порядке удалить из поисковой выдачи! Об этом я расскажу в своей будущей статье.

Ну да ладно. Я думаю все понятно. Теперь давайте разберемся, по какой причине запрещенные в robots.txt и не существующие (страницы ошибки 404) присутствуют в поисковой выдаче.

На самом деле причин не так уж и мало. Я постараюсь выделить основные из общей массы. Итак, как я уже упоминал закрытые страницы это различные веб-страницы, доступ к которым запрещен в файле robots.txt или же при помощи специального метатега.

Почему несуществующие страницы появляются в выдаче

Итак. Страницы, которые не существуют на блоге, продолжают появляться в поисковой выдаче по следующим причинам:

  •  Как ни странно, из-за того, что страница была на блоге, а потом была удалена автором. Ее больше нет.
  •  Адрес страницы был изменен, но эта страница была ранее проиндексирована поисковой системой с первоначальным адресом и таким образом сохранена в поисковой базе. Поэтому при нажатии по ссылке страницы в поисковой выдаче, пользователя перебрасывает на страницу 404. В этом случае нужно в обязательном порядке после изменения адреса веб-страницы настроить редирект 301.
  •  После того, как вы установите WordPress на хостинг и настроите систему, можно будет писать статьи. Адреса этих статей будут по умолчанию генерироваться с помощью латинских букв и различных цифр. Это будет недостатком внутренней оптимизации вашего блога и негативно отразится на продвижении. Поэтому вам нужно будет настроить ссылки ЧПУ. Прочитайте эту статью и поймете, о чем я говорю. Так вот. Если вы напишете несколько статей и у вас они проиндексируются, а после этого настроите ссылки ЧПУ, то эти страницы тоже окажутся в поисковой выдаче, но будут вести на страницу ошибки 404.

В этом случае наилучшим вариантом будет тот, при котором сначала делаются все необходимые настройки, а уже после этого публикуются статьи.

  • Не правильным образом настроен сервер. Страница, которая не существует на блоге должна выдавать при ее запросе код 404 или же код 3хх при правильно настроенном редиректе.

Как лишние веб-страницы попадают в поисковую выдачу

Лишние страницы добавляются в поисковую базу при определенных условиях:

  • Вы думаете, что закрыли определенные веб-страницы в файле robots.txt, но они на самом деле не закрыты и доступны для сканирования роботами поисковых систем. А может быть, вы не правильно прописали условие для закрытия той или иной страницы в robots.txt. Чтобы проверить права доступа роботов к определенным страницам блога необходимо воспользоваться инструментами для вебмастеров.
  • Страницы проиндексировались и уже попали в выдачу до того, как вы закрыли доступ для них.
  • На эти веб-страницы поставлены ссылки со страниц вашего блога или с других сайтов или блогов.

Итак, причины мы выяснили. Но есть один очень важный момент. Даже после того как вы устраните причины появления несуществующих или лишних страниц, они по-прежнему будут присутствовать в результатах поисковой выдачи. Когда они пропадут? Это будет зависеть от таких факторов как обновление базы (апдейт), а также от периодичности посещения вашего блога поисковым роботом.

Удаление веб-страницы из поисковой базы Яндекс

Для того чтобы удалить веб-страницу из поисковой базы Яндекс необходимо проследовать по этой ссылке:

 https://webmaster.yandex.ru/delurl.xml

На открывшейся странице в текстовом поле формы для удаления URL нужно прописать адрес веб-страницы, которую вы желаете удалить из результатов поисковой выдачи:

удаление страницы из индекса Яндекс

Основные условия для выполнения вашего запроса на удаление веб-страницы:

  • веб-страница обязательно должна содержать специальный мета-тег noindex или быть недоступной для индексирования при помощи определенных правил, которые прописываются в файле robots.txt;
  • при обращении к веб-странице сервер должен выдавать ошибку 404 (страница не найдена), так как автор ее удалил, и поэтому на блоге ее больше нет.

После того как робот посетит ваш блог и выполнит ваши запросы на удаление этих веб-страниц, они будут благополучно удалены из поисковой выдачи.

Удаление веб-страницы из поисковой базы Google

Для того чтобы удалить веб-страницы из поисковой базы Google нужно действовать таким же образом (как с Яндексом). Для этого заходим на сервис Google инструменты для вебмастеров. Далее на Панели инструментов нажимаем Индекс Google —> Удалить URL-адреса. Далее жмем на кнопку «Создать новый запрос на удаление:

удаление страницы из индекса Google

Откроется страница с формой для удаления. Вписываем адрес страницы, которую хотим удалить из поисковой базы и нажимаем кнопку «Продолжить»:

Запрос на удаление страницы

Из предложенных вариантов выбираем причину удаления: «Удалить страницу из результатов поиска и из кэша, а потом нажимаем «Отправить запрос»:

отправка запроса на исключение из индекса

Хочу отметить, что в выпадающем списке есть также функция для удаления каталога. Весьма удобная штука. Если вам нужно удалить все страницы из какой-либо рубрики, то не придется вписывать в форму отдельно каждый адрес страницы из этой рубрики.

Отслеживать статус запросов на удаление вы можете на этой же странице. Также для вас будет доступна функция отмены каждого запроса. Для того чтобы успешно удалить все ненужные страницы из поисковой выдачи Google должны быть соблюдены такие же условия, как и для удаления в Яндексе.

Все размещенные запросы, как правило, исполняются достаточно быстро и ненужная веб-страница моментально покидает результаты поисковой выдачи.

Вот и все. Надеюсь, информация вам пригодится. Буду счастлив, если вы удалите все ненужные страницы из поисковой выдачи, используя эту статью. Удачи вам, вебмастера!

Успехов Вам и Удачи
С Уважением,


Книга о заработке в интернете:
Книга о заработке в интернете

Комментариев к статье: 20

  1. Denys:

    Как с вами можно связаться ?
    Я все в роботе перекрыл , ЧПУ настроил в functions.php добавил коды , в htaacces добавил редиктеды… Но при ддобавлении обычной новости , у меня всё равно получается дубль страницы ….
    как с вами можно связаться ?дайте свой email пожалуйста

    Ответить

    • Сергей Саранчин:

      Связаться со мной просто. Есть для этой цели на этом блоге страница, которая называется «Контакты».

      Ответить

      • Alexandr:

        Думаю проблема в htaccess. Это основное что избавляет от дублей.

        Ответить

  2. Анатолий:

    Не могу не согласиться с тем, что надо чистить индекс. В посте всё хорошо и подробно расписано, спасибо, что освежили в памяти!

    Ответить

    • Сергей Саранчин:

      Всегда пожалуйста, Анатолий!

      Ответить

      • Анатолий:

        Сергей, а вы случайно не знаете, почему у сайта в индексе гугла страниц почти 1000, хотя в Яндексе 100, да и всегда на сайте их 100?

        Ответить

        • Сергей Саранчин:

          Потому что Google особое внимание уделяет дублированному контенту и строго за это наказывает ресурсы, а Яндекс более лоялен к дублям и не показывает их в инструментах для вебмастеров.

          Ответить

      • Анатолий:

        Получается, что в индексе страницы с фрагментом ?replytocom= в адресе, но в сниппете выдачи написано, что описание веб-страницы недоступно из-за ограничений в файле robots.txt.

        Ответить

        • Сергей Саранчин:

          Если у вас в robots.txt прописан вот такой запрет — Disallow: /*?*, то так и должно быть. Удалите запрет, закройте дубль с помощью мета-тега noindex и спокойно удалите его вручную из индекса Google.

          Ответить

          • Анатолий:

            Сергей, спасибо, так и сделаю!

            Ответить

          • Сергей Саранчин:

            Пожалуйста, Анатолий!
            Рад был помочь. Я просто действовал подобным образом. И сейчас дублей replytocom в индексе Google становится всё меньше и меньше!

            Ответить

          • Анатолий:

            То есть они долго уходят из индекса?

            Ответить

          • Сергей Саранчин:

            Если удалять вручную через форму удаления в инструментах для вебмастеров Google, то намного быстрее!

            Ответить

          • Саня Сабегатулин:

            Но наверное не стоит заморачиваться, если их было уж больно много. Сами уйдут потихоньку. А то времени не мало уйдет, вручную их удалять.

            Ответить

          • Alexandr:

            С каждой новой индексацией дублей станет меньше.

            Ответить

  3. Игорь Черноморец:

    Привет Сергей! Что-то часто ты начал писать статьи, так еще и такие объемные, обалдеть просто :)
    Муза проснулась? Время появилось? Или что?
    Статья как всегда на высшем уровне!
    Я постоянно проверяю ошибки сканирования в инструментах гугла и уже не раз удалял такие страницы, но иногда сервис мне выдает некоторые ошибки ссылок, которые я без понятия откуда взялись.Я всегда их проверяю и если убеждаюсь, что ссылки битые или нерабочии, то удаляю без сомнений!

    Ответить

    • Сергей Саранчин:

      Приветствую, Игорь!
      В принципе я в последнее время с такой же частотой писал статьи — одну в три дня, ничего нового. Но иногда бывают обстоятельства при которых затягивается написание той или иной статьи.
      А с ошибками я тоже также расправляюсь. Отлично помогают инструменты для вебмастеров))

      Ответить

      • Саня Сабегатулин:

        Вот и я поборол некоторые ошибки, которые вэбмастер показывал, и посещаемость поползла вверх.

        Ответить

  4. Саня Сабегатулин:

    Да…, а я раньше думал, что их нельзя выкинуть из индекса вручную. Думал, что поисковики только сами могут выкинуть страницу из индекса. А у меня кстати была одна страничка, которую хотел удалить. Надо бы только вспомнить какую.

    Ответить

  5. Alexandr:

    «Страница, которая не существует на блоге должна выдавать при ее запросе код 404″. Вы уверены в этом?

    Ответить


НАПИШИТЕ СВОЙ ПЕРВЫЙ КОММЕНТАРИЙ НА ЭТОМ БЛОГЕ И ПОЛУЧИТЕ ПОДАРКИ!

Нажимая кнопку "ОТПРАВИТЬ" комментарий, Вы принимаете пользовательское соглашение и подтверждаете, что ознакомлены и согласны с политикой конфиденциальности этого сайта.

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: