Robots.txt Запрещает может навредить SEO больше, чем помочь

  1. Сканировано и проиндексировано - это две разные вещи
  2. Что делать, если ваши заблокированные URL проиндексированы
  3. Другие удивительные способы индексации вашего URL
  4. Не блокируйте файлы Javascript и другие ресурсы с помощью robots.txt, запрещающего
  5. Когда использовать robots.txt запрещает
  6. Используйте robots.txt запретить экономно

Почему мой сайт не входит в рейтинг !!!

«Вы должны мне помочь, мой новый сайт нигде не показывается. Почему Google игнорирует меня? »

Я посмотрел и убедился, что файл robots.txt сайта был настроен так, чтобы запретить Google и другим поисковым системам сканировать весь сайт. К счастью, исправить это было легко. Я изменил файл из этого:
Пользователь-агент: *
Disallow: /
К этому:
Пользователь-агент: *
Disallow:
Задача решена.
(Вы также можете просто удалить файл.)

Я мог бы выйти на конечность здесь, но я видел больше проблем, вызванных неправильным использованием файла robots.txt, чем решено.

Одно из больших заблуждений о запретных директивах robots.txt заключается в том, что они являются надежным способом защиты страниц от индекса Google. Мало того, что это не так, но когда страницы индексируются - они индексируются практически без информации, добавляя в индекс много низкокачественного, почти дублирующего контента, что может снизить эффективность SEO вашего сайта.

Файл robots.txt существует уже много лет. В те первые дни пропускная способность была более ценной, и робот Google часто облагал налогом серверы, даже сбивая их, когда сканировал сайт. Поэтому использование директивы disallow для предотвращения сканирования Google страницами часто помогало поддерживать работу сайта. Эти проблемы являются далекой памятью сегодня.

Сканировано и проиндексировано - это две разные вещи

Когда вы добавляете директиву disallow в свой файл robots.txt, вы говорите роботу Googlebot и другим поисковым роботам не сканировать эту страницу или страницы в этом каталоге. Например, когда я изначально писал этот пост, мой robots.txt включает в себя:
Disallow: / wp-admin
Disallow: / *?

Первая директива запрещает любой URL-адрес, начинающийся с sitename.com / wp-admin, включая все, что находится в каталоге / wp-admin /. Второй запрещает любые URL, в которых есть знак вопроса (полезно, чтобы избежать сканирования исходной структуры? P = permalink). Одно из лучших объяснений различных шаблонов, которые вы можете использовать в robots.txt для разрешений и запрещений, можно найти в Информация для разработчиков Google на robots.txt ,

Но сообщение Google и другим ботам о том, что они не могут сканировать страницу, не обязательно мешает им проиндексировать страницу. Не сканировать и не индексировать это две разные вещи. Первое означает, что паук не будет посещать страницу вообще, второе означает, что Google или Bing не сделают страницу доступной в результатах поиска.

Это когда мы сталкиваемся с проблемами.

Тот факт, что ваш robots.txt предотвращает посещение страницы пауком, не означает, что Google или Bing не знают об этом. Поисковые системы могут узнавать о странице с внешних сайтов, ссылающихся на страницу, и даже с ваших внутренних ссылок (особенно если ссылка не имеет тега rel nofollow). Google, в частности, является маленьким жадным монстром и жадно индексирует все, на что ссылается - даже если он не может сканировать страницу. Таким образом, вы получите ссылки в индексе Google, в которых есть URL (а не заголовок страницы, потому что Google его не видит!) И фрагмент, который говорит следующее:

Описание этого результата недоступно из-за robots.txt этого сайта - узнайте больше.

Вы не хотите много из них в индексе Google.

Что делать, если ваши заблокированные URL проиндексированы

У вас есть три способа получить URL из индекса Google.

  1. Часто лучший способ - это добавить мета роботы noindex тег в раздел заголовка HTML вашей страницы. Это говорит паукам не помещать URL в их индекс. ВАЖНО: паук должен увидеть метку, чтобы обработать «noindex». Таким образом, вы ДОЛЖНЫ удалить директиву disallow из вашего файла robots.txt, чтобы позволить пауку попасть на страницу, чтобы он понимал, что должен удалить URL из индекса.
  2. Если страница была удалена, удалите запрет и позвольте роботу Googlebot и другим поисковым роботам сканировать и увидеть 404 (еще лучше использовать 410). Это не вредно, если на вашем сайте есть страницы Not Found или Gone, особенно если это страницы низкого качества. Это в конечном итоге выпадет из индекса.
  3. Другой способ - использовать инструмент удаления URL-адресов Google в своей учетной записи Инструментов Google для веб-мастеров (в Bing Webmasters также есть инструмент для удаления). При таком подходе вы хотите сохранить запрет на месте, так как это является требованием для удаления. Обратите внимание, что были некоторые сообщения о повторном появлении URL-адресов в индексе после 90-дневного периода, поэтому пробег может отличаться.

Другие удивительные способы индексации вашего URL

Входящие ссылки на страницу могут быть не единственным способом индексации URL, заблокированного robots.txt. Вот несколько удивительных:

Я также удалил бы любой Adsense на странице, которую вы намереваетесь исключить из индекса Google. У меня нет никаких доказательств того, что Google Adsense вызывает индексацию страницы, но я все равно удалил бы ее.

Не блокируйте файлы Javascript и другие ресурсы с помощью robots.txt, запрещающего

Раньше общепринятой практикой было использование robots.txt, запрещающего держать веб-сканеры вдали от файлов, отличных от HTML, таких как CSS, Javascript и файлы изображений. Однако 27 октября 2014 года Google обновил свое Техническое руководство для веб-мастеров, чтобы рекомендовать против этой практики, поскольку ее система индексации теперь больше похожа на современный браузер. в Октябрьское объявление Google заявляет: запрет на сканирование файлов Javascript или CSS в файле robots.txt вашего сайта напрямую влияет на то, насколько хорошо наши алгоритмы отображают и индексируют ваш контент, и может привести к неоптимальному ранжированию.

В консоли поиска Google (ранее известной как Инструменты Google для веб-мастеров) вы можете выбрать «Блокировать ресурсы» в разделе сканирования Google, чтобы дважды убедиться, что вы не блокируете ничего, что Google считает важным.

Когда использовать robots.txt запрещает

Я могу придумать два сценария, в которых запрет robots.txt по-прежнему полезен:

  1. Вы хотите быстро удалить сайт или раздел сайта: гораздо быстрее использовать запрет robots.txt и функцию удаления URL-адреса консоли поиска Google для удаления сайта или раздела сайта из индекса Google; чем добавление мета-робота noindex-тэга и ожидание того, что робот Google перемотает страницы и прислушается к noindex. У меня был клиент, который был поражен Пандой. Мы обнаружили, что у них был раздел их сайта, который в основном дублировался в их портфеле сайтов, когда мы удалили этот раздел из индекса Google с помощью запрета robot.txt и URL-адреса GSC Remove, трафик их сайтов восстановился в течение месяца. Другой распространенный сценарий - обнаружение того, что промежуточный сайт или сайт разработки проиндексирован (часто это поддомен), и его необходимо удалить из результатов поиска Google.
  2. Вы хотите сохранить свою пропускную способность. Обычный сценарий, который я вижу, это сайты, которые создают отдельный URL-адрес «обратного пути» каждый раз, когда пользователь нажимает на ссылку «Вход» для исходной страницы, на которой есть ссылка. Обычно я бы посоветовал просто добавить мета-роботы noindex на эту страницу входа (и все варианты), однако возможная проблема заключается в том, что сканирование этих страниц приводит к потере пропускной способности сканирования роботом Googlebot, выделенной вашему сайту. Я по-прежнему считаю, что мета-роботы noindex-тег - это путь, однако на больших сложных сайтах можно иметь фильтры и параметры, которые создают бесконечное количество страниц, которые робот Googlebot не должен сканировать. Запрет robots.txt может быть уместным в некоторых из этих случаев.

Также обновления файла robots.txt не обрабатываются мгновенно. Я видел случаи, когда Google сканировал несколько URL-адресов перед обработкой запретов. Поэтому добавьте свои запреты как минимум за 24 часа.

С помощью функции удаления URL-адресов консоли поиска Google вы можете удалить страницу, подпапку или весь сайт из индекса Google; пока сайт заблокирован файлом robots.txt или страница возвращает код состояния HTTP 404 Not Found. Вам необходимо иметь права администратора для отправки запросов на удаление. И имейте в виду, что удаление может быть временным. Дополнительную информацию о функции удаления URL можно найти Вот ,

Используйте robots.txt запретить экономно

Файл robots.txt устарел, и его полезность уменьшилась. Да, есть еще сценарии, в которых запреты полезны, но ими часто злоупотребляют.

Этот пост был первоначально опубликован 10 сентября 2012 года и обновлен 26 мая 2016 года.

Robots.tx документация

Изображение паука любезно предоставлено openclipart.org

Почему Google игнорирует меня?
Полезно, чтобы избежать сканирования исходной структуры?

ГОРЯЧАЯ ЛИНИЯ

(062) 348 60 00
(095) 210 57 42

Дед Мороз в офис Донецк

Дед Мороз на детском утреннике Донецк

Дед Мороз на дом Донецк

Новости

Телеканал Юнион в гостях у Морозко

Последние записи