Создание собственного скребка для анализа ссылок

  1. Решение первого вопроса
  2. Основы нашей цели
  3. Как пользоваться
  4. Поиск Блогов
  5. Другие применения для CMS
  6. Что еще вы можете сделать
  7. - Проверьте усыновление
  8. - Проверьте релевантность ссылок
  9. - Найти каталоги
  10. - Шахта для социальных аккаунтов
  11. - Мой для данных электронной почты
  12. - Проверьте на Adsense
  13. - Оценить штрафы
  14. - Составить список семян по ключевому слову
  15. - маскировка
  16. Куда дальше

Как SEO, я бы хотел ответить на множество вопросов, которые не имеют простых решений. Многие из них связаны с профилированием списка URL-адресов на основе информации, содержащейся в содержимом страницы. Используя доступные инструменты, я придумал идею используя систему пользовательского поиска Google (GCSE) , но это не было полным решением. Я хотел ответить на более сложные вопросы, используя метод, который выводил бы в удобном формате.

Некоторые решения, которые я хотел бы автоматизировать.

  • Майнинг для блогеров в определенной нише.
  • Поиск источников ссылок из определенных систем CMS.
  • Создание начального набора ключевых слов для исследования ключевых слов.
  • Оценка релевантности ссылочного URL.
  • Отслеживание использования встраиваемого контента (виджеты, инфографика, видео и т. Д.).
  • Разрушение сети связи.

Итак, в прошлые выходные вместе с моим другом разработчиком Мэтью Каллис , владелец Супер Фамиком Я решил разработать базовый скребок в качестве доказательства концепции для более сложного анализа ссылок.

Предостережения: этот инструмент является доказательством концепции, а не отполированным инструментом. Это требует некоторых технических и программных знаний, чтобы использовать. Он также не предназначен для масштабируемой эффективности, но его может расширить любой, кто занимается программированием. Все это на Github, с открытым исходным кодом и бесплатное использование.

Решение первого вопроса

Как создатель ссылок, я хотел бы разработать список блоггеров в той нише, которая может ссылаться на моих конкурентов. Это блоги, на которые я мог бы ориентироваться для гостевых блогов, подачи контента, комментирования блогов или социальных сетей. Инструмент как Открыть Site Explorer дает вывод ссылок доменов, но не конкретную информацию о содержимом этих доменов. Я мог бы упасть до 5000 из них в GCSE и выполнять расширенные поисковые запросы найти блоги. Тем не менее, это не автоматизировано и нет красивого экспорта.

Итак, сначала мы рассмотрели способ идентификации сайта. Есть много способов, и ни один из них не является абсолютно точным, но надежный сценарий может учитывать многие из них одновременно. Для этого инструмента мы сначала начали с вывода генератора, созданного многими основными CMS. При его создании мы добавили еще несколько проверок.

При его создании мы добавили еще несколько проверок

Поэтому мне нужен инструмент, который обрабатывал бы список ссылок и определял его CMS, а затем выводил эти данные обратно в CSV, сохраняя данные OSE в целости и сохранности.

Основы нашей цели

Наша цель проста.

Программа перейдет на каждый URL, кеширует его содержимое, а затем проанализирует код для всего, что я ищу. В этом примере это CMS, но это может быть широкий спектр информации, о которой я расскажу позже.

-> Получить Seemes на Gethub - Спасибо Мэтью за его работу над этим инструментом.

Кроме того: этот инструмент построен на PHP, который является языком, который я знаю, и его можно легко запустить с моего Mac. Вы можете запустить его в Windows, используя что-то вроде WAMP или на сервере. Вы также можете прочитать о установка PHP на Windows ,

Файлы:

  • custom.php - Простая оболочка командной строки для класса Seemes (seemes.php) на основе предоставленного command_line_example.php на GitHub
  • seemes.php - класс Seemes, который будет сканировать и анализировать наш CSV для данных, которые нам нужны.

Вы можете найти этот код на Github , Это довольно хорошо задокументировано для всех, кто интересуется копанием. Я рекомендую взглянуть на источник, потому что это действительно большая часть этого поста.

Как пользоваться

Если вы пользователь Mac, им легко пользоваться. Если нет, приобретите Mac или воспользуйтесь ссылками выше, чтобы установить его на свой компьютер с Windows.

Для начала я сначала изменил права доступа к файлам с помощью chmod 0777. Затем, чтобы запустить скрипт, передайте ввод и установите смещение.

./custom.php input.csv смещение output.csv

Вы можете указать имя выходного файла, но он по умолчанию использует output.csv, поэтому я не определил его в своем примере. Смещение указывает сценарию, с какой строки начинать. Поскольку Open Site Explorer выводит CSV, который начинает URL-адреса в строке 8, я установил смещение как 7.

Оттуда, это всего лишь вопрос ожидания сценария, чтобы сделать всю тяжелую работу.

Оттуда, это всего лишь вопрос ожидания сценария, чтобы сделать всю тяжелую работу

В OSE CSV для дистилляции .co.uk было 1156 корневых доменов. Сценарий занял 47 минут. В настоящее время сценарий кэширует содержимое страницы, что позволяет снова анализировать их содержимое без необходимости повторной загрузки. Эта информация также может быть передана в базу данных, но мы не создали эту функциональность для этого поста.

В настоящее время сценарий предназначен для извлечения информации о CMS и аналитике. Его можно настроить для проверки всех видов информации, о которой я расскажу позже, но давайте сначала разберемся с нашим примером.

Поиск Блогов

Наша базовая настройка позволяет нам легко находить блоги, ссылающиеся на Distilled.co.uk. Хотя это и не совсем точно (например, некоторые сайты удаляют тег генератора, а не все WP-сайты являются блогами), это хорошая отправная точка для открытия новых блогов.

Так что, если вы смотрите на нишу «SEO», вот хороший набор блогов для начала. Вы можете собрать результаты от нескольких конкурентов и даже перепроверить ссылки доменов, чтобы найти концентраторы ссылок в вашей нише. Это главные цели для охвата.

Другие применения для CMS

Мы использовали только ограниченное количество проверок для CMS, но есть ряд других следов, которые можно использовать для идентификации CMS. К ним относятся такие вещи, как определенные папки CMS (wp-admin / wp-content), страницы входа и темы. Можно было бы создать гораздо более надежную систему для идентификации CMS, на которой запущен сайт. Есть несколько причин, по которым я могу подумать, что это может быть полезно:

  • Поиск форумов - сообщества для участия, общения, обмена контентом и, возможно, удаления ссылок.
  • Найти социальную CMS. Примером может служить Pligg, на котором работает множество сайтов-клонов Digg.
  • CMS со страницами профиля - Может быть, шанс для ссылки.
  • CMS с dofollow - если вы знаете, что некоторые CMS имеют общие способы получения ссылки dofollow, вы можете добавить проверки для них.
  • Вики-сайты - Найти вики-сайты для создания ссылок и создания статей.

Что еще вы можете сделать

После того, как вы построили базовый скребок, вы можете в основном анализировать содержимое по вашему желанию.

- Проверьте усыновление

Если я рекомендую использовать лицензирование контента, встраивание, виджеты или инфографику в качестве тактики создания ссылок, я, возможно, захочу отследить эффективность этой кампании. В настоящее время способ отследить это можно через настройку оповещений, расширенный поиск или копание вручную через профиль ссылки.

Я могу настроить этот сценарий для проверки наличия элемента footprint, связанного с встраиваниями, такого как имя изображения или атрибут alt инфографики. Я могу сделать так, чтобы скрипт помечал все URL-адреса, где существует этот элемент.

- Проверьте релевантность ссылок

Выводы обратных ссылок из OSE дают мне основную информацию, такую ​​как URL и заголовок, но мало что касается релевантности. Я могу провести проверку содержимого страницы на предмет упоминания и использования конкретных ключевых фраз. Это может быть как простая проверка его использования. Он также может проверить количество использований или более сложные метрики. Я мог бы захотеть проанализировать обратные ссылки Distilled для каждого URL, который упоминает фразу «создание ссылок» в содержании тела, и посчитать количество раз, использованных для каждого URL

- Найти каталоги

Том написал пост на SEOmoz об использовании результатов OSE для поиска ссылок на каталог с помощью проверить заголовок и URL в Excel ,

Это отличная проверка, но зависит от использования каталога в URL и заголовка. Скребок позволит вам проверить содержимое страницы, следы каталогов и общий каталог CMS.

- Шахта для социальных аккаунтов

Вы можете легко проверить ссылки на страницы Twitter и Facebook и проанализировать такие элементы, как имена пользователей Twitter.

- Мой для данных электронной почты

Вы можете проверить соответствие шаблонов для адресов электронной почты. Проверьте наличие экземпляров URL-адресов about или contact, сохраните их, а затем очистите эти страницы в поисках электронной почты.

- Проверьте на Adsense

Причин этому много, но простой - найти сайты, которые пытаются монетизировать свой сайт. Рекламная возможность может быть ...

- Оценить штрафы

Вы можете использовать это для оценки качества ссылки.

Проверьте наличие примеров шаблонов спам-ссылок, таких как исходящие якоря, по списку ключевых слов высокой стоимости (платных ссылок?) И использования минус-слов.

- Составить список семян по ключевому слову

Составить список конкурентных сайтов; очистите их мета ключевые слова, мета описание и заголовок, чтобы создать начальный список для исследования ключевых слов.

- маскировка

Очистите содержимое с помощью различных пользовательских агентов, таких как Googlebot, а затем Chrome, и сравните содержимое. Если они не одинаковы, они делают некоторую форму маскировки, основанную на пользовательском агенте. Это также может быть автоматизировано до некоторой степени с помощью контрольной суммы и файлов сравнения.

Куда дальше

Этот скрипт не доработан, но помогает продемонстрировать ценность разработки базового скребка для более сложного анализа ссылок. Скрипт с открытым исходным кодом и бесплатен для использования, так что не стесняйтесь строить поверх него. Скорее всего, я буду продолжать работать с Мэтью над некоторыми из более сложных проверок, которые я обсуждал в этой статье. Есть много вещей, которые вы можете проверить, но я надеюсь, что этот пост поможет вам в правильном направлении.

Вы всегда можете найди меня в твиттере если вам интересно больше поговорить об анализе ссылок. Я буду говорить больше на эту тему на SMX West в марте ,

ГОРЯЧАЯ ЛИНИЯ

(062) 348 60 00
(095) 210 57 42

Дед Мороз в офис Донецк

Дед Мороз на детском утреннике Донецк

Дед Мороз на дом Донецк

Новости

Телеканал Юнион в гостях у Морозко

Последние записи