Унамо | SEO Советы

  1. Поисковая система и файлы robots.txt
  2. robots.txt & Ошибки домена
  3. robots.txt и маркетинговая SEO-стратегия
  4. Нахождение файла robots.txt
  5. Причины использования файла robots.txt
  6. Создание robots.txt для вашего сайта
  7. Пример файла robots.txt
  8. Правильно созданный файл robots.txt важен

Файл robots.txt дает инструкции сканерам поисковых систем, сообщая им, что они могут или не могут индексировать на вашей странице . Зачастую robots.txt называется протоколом исключения роботов .

Прежде чем сканировать веб-сайт, сканеры прежде всего ищут файл robots.txt. Файл может указать сканеру вашу карту сайта или запретить сканирование определенных поддоменов. Если вы хотите, чтобы сканеры поисковых систем сканировали все (что является наиболее распространенным), создание файла robots.txt не требуется. Однако, если у вас есть вещи, которые вы не хотите индексировать, вы можете сделать это через robots.txt. Важно, чтобы файл robots.txt был правильно отформатирован, чтобы сканеры не проиндексировали вашу страницу.

Поисковая система и файлы robots.txt

Если сканер поисковой системы обнаруживает robots.txt и видит какой-то запрещенный URL, он не будет сканировать их; однако, это все еще может проиндексировать их. Это происходит потому, что даже если роботам не разрешено просматривать контент, они все равно могут запомнить текст привязки и / или обратные ссылки, которые указывают на запрещенный URL-адрес на сайте. Таким образом, из-за заблокированного доступа к ссылке, URL будет отображаться в поисковых системах, однако, без фрагментов.

Посмотрите пример того, как robots.txt был проиндексирован, но не просканирован:

txt был проиндексирован, но не просканирован:

Примечание. Хотя поисковые роботы соответствуют вашему файлу robots.txt. Однако другие сканеры (например, вредоносные программы, спам-боты и т. Д.) Могут не соответствовать инструкциям в вашем файле robots.txt. Не размещайте конфиденциальную информацию в Интернете.

robots.txt & Ошибки домена

В случае, если в вашем домене есть ошибка 404 (не найдено) или 410 (пропал), сканер будет сканировать ваш сайт, несмотря на наличие файла robots.txt, поскольку поисковая система предположит, что файл robots.txt не существует.

Другие ошибки, такие как 500 (Внутренняя ошибка сервера), 403 (Запрещено), тайм-аут или «недоступен», учитывают указания файла robots.txt, однако сканирование может быть отложено до повторного доступа к файлу.

robots.txt и маркетинговая SEO-стратегия

Если для вашей стратегии входящего маркетинга необходим файл robots.txt, это может позволить сканерам сканировать ваш сайт по вашему желанию. С другой стороны, если файл неверно отформатирован, это может привести к тому, что ваш веб-сайт не будет отображаться в результатах поиска.

Нахождение файла robots.txt

Ваш файл robots.txt является публичной информацией. Хотя поисковые системы не могут его отсканировать, вы можете увидеть robots.txt любого веб-сайта, зайдя на его домен и следуя за ним с помощью /robots.txt.

www.domain.com/robots.txt

Используя такой инструмент, как раздел «Оптимизация» в Unamo, вы также можете ввести любой домен, и он сообщит вам, существует ли файл robots.txt.

Причины использования файла robots.txt

Вам следует создать файл robots.txt, если:

  • у вас есть устаревший или конфиденциальный контент, который вы не хотите сканировать
  • Вы не хотите, чтобы изображения на вашем сайте были включены в результаты поиска изображений
  • Вы хотите, чтобы сканер легко указывал на карту вашего сайта
  • ваш сайт еще не готов, и вы не хотите, чтобы робот проиндексировал его до того, как он будет полностью готов к запуску

Помните, что информация, которую вы хотите, чтобы сканер избегал, была доступна каждому, кто вводит ваш URL. Не используйте этот текстовый файл, чтобы скрыть какие-либо конфиденциальные данные.

Facebook имеет много информации, которую они не хотят сканировать различными поисковыми системами. Их файл robots.txt довольно обширный, посмотрите:

txt довольно обширный, посмотрите:

Создание robots.txt для вашего сайта

У большинства программ CMS, таких как Wordpress, уже есть файл robots.txt. Проверьте их часто задаваемые вопросы, чтобы выяснить, как получить к нему доступ. Если вы сами создаете файл robots.txt, следуйте советам, перечисленным в этой статье.

Файл robots.txt должен быть:

  • написано строчными
  • используется с кодировкой UTF-8
  • сохранено в текстовом редакторе; поэтому он сохраняется в виде текстового файла (.txt)

Если вы делаете файл самостоятельно и не знаете, где его разместить, вы можете:

  • Обратитесь к поставщику программного обеспечения веб-сервера, чтобы узнать, как получить доступ к корню вашего домена.
  • Зайдите в консоль поиска Google и загрузите ее туда

С помощью Google Search Console вы также можете проверить, правильно ли выполнен ваш файл robots.txt, и проверить, какие сайты были заблокированы с использованием этого файла. Если вы отправите документ в Google Search Console, обновленный документ следует сканировать практически сразу.

Вы можете получить доступ к инструменту тестирования robots.txt Вот ,

Пример файла robots.txt

Базовый формат файла robots.txt следующий:

легенда robots.txt

# Вы можете добавлять комментарии, которые используются только в качестве заметок, чтобы держать вас в порядке, добавив к ним тег octothorpe (#). Эти комментарии будут игнорироваться сканерами, а также любые опечатки, которые вы делаете.

User-agent - сообщает, для какого сканера предназначены инструкции в файле robots.txt.

  • Добавление звездочки (*) - вы говорите всем сканерам, что инструкции предназначены для всех них
  • Указание бота (например, Googlebot, Baiduspider, Applebot и т. Д.) - вы говорите конкретному боту, что инструкции предназначены для него.

Disallow - Сообщает сканерам, какие части веб-сайта вы не хотите сканировать.

Некоторые запрещенные примеры:

  • Disallow: /
    Вы запрещаете ползать все
  • Disallow:
    Вы позволяете сканеру сканировать все
  • Disallow: / xyz /
    Вы запрещаете сканирование папки / xyz /
  • Disallow: / XYZ
    Вы запрещаете сканирование папки, которая начинается с букв «xyz», поэтому это могут быть / xyz /, / xyzabc /, / xyzabc_photo / etc
  • Disallow: /.xyz
    Вы запрещаете сканирование папок, начинающихся с .xyz
  • Disallow: /*.xyz
    Вы запрещаете сканирование папок, которые содержат .xyz
  • Disallow: /.xyz$
    Вы запрещаете сканирование папок, оканчивающихся на .xyz


Разрешить - сообщает сканерам, какие части только что запрещенного контента разрешено сканировать.

Разрешить пример:

  • Разрешить: /xyz/abc.html
    Crawler разрешено сканировать один из файлов в папке, здесь: file / abc / in folder / xyz /)

Карта сайта - сообщает всем сканерам, где можно найти URL-адрес вашей карты сайта. Это увеличивает скорость сканирования карты сайта. Добавлять это необязательно.

Пожалуйста, имейте в виду, что:

Имена папок чувствительны к регистру, т.е. / xyz / / XYZ /
/ xyz / более конкретен, чем / xyz, поэтому используйте первый, когда это возможно, чтобы быть как можно более точным.

Правильно созданный файл robots.txt важен

Файл robots.txt должен использоваться вместе с метатегом роботов. Не забудьте использовать их оба тщательно. В противном случае вы можете получить веб-сайт, который никогда не появится в поисковой выдаче.

ГОРЯЧАЯ ЛИНИЯ

(062) 348 60 00
(095) 210 57 42

Дед Мороз в офис Донецк

Дед Мороз на детском утреннике Донецк

Дед Мороз на дом Донецк

Новости

Телеканал Юнион в гостях у Морозко

Последние записи