Создание собственного скребка для анализа ссылок

  1. Решение первого вопроса
  2. Основы нашей цели
  3. Как пользоваться
  4. Поиск Блогов
  5. Другие применения для CMS
  6. Что еще вы можете сделать
  7. - Проверьте усыновление
  8. - Проверьте релевантность ссылок
  9. - Найти каталоги
  10. - Шахта для социальных аккаунтов
  11. - Мой для данных электронной почты
  12. - Проверьте на Adsense
  13. - Оценить штрафы
  14. - Составить список семян по ключевому слову
  15. - маскировка
  16. Куда дальше

Как SEO, я бы хотел ответить на множество вопросов, которые не имеют простых решений. Многие из них связаны с профилированием списка URL-адресов на основе информации, содержащейся в содержимом страницы. Используя доступные инструменты, я придумал идею используя систему пользовательского поиска Google (GCSE) , но это не было полным решением. Я хотел ответить на более сложные вопросы, используя метод, который выводил бы в удобном формате.

Некоторые решения, которые я хотел бы автоматизировать.

  • Майнинг для блогеров в определенной нише.
  • Поиск источников ссылок из определенных систем CMS.
  • Создание начального набора ключевых слов для исследования ключевых слов.
  • Оценка релевантности ссылочного URL.
  • Отслеживание использования встраиваемого контента (виджеты, инфографика, видео и т. Д.).
  • Разрушение сети связи.

Итак, в прошлые выходные вместе с моим другом разработчиком Мэтью Каллис , владелец Супер Фамиком Я решил разработать базовый скребок в качестве доказательства концепции для более сложного анализа ссылок.

Предостережения: этот инструмент является доказательством концепции, а не отполированным инструментом. Это требует некоторых технических и программных знаний, чтобы использовать. Он также не предназначен для масштабируемой эффективности, но его может расширить любой, кто занимается программированием. Все это на Github, с открытым исходным кодом и бесплатное использование.

Решение первого вопроса

Как создатель ссылок, я хотел бы разработать список блоггеров в той нише, которая может ссылаться на моих конкурентов. Это блоги, на которые я мог бы ориентироваться для гостевых блогов, подачи контента, комментирования блогов или социальных сетей. Инструмент как Открыть Site Explorer дает вывод ссылок доменов, но не конкретную информацию о содержимом этих доменов. Я мог бы упасть до 5000 из них в GCSE и выполнять расширенные поисковые запросы найти блоги. Тем не менее, это не автоматизировано и нет красивого экспорта.

Итак, сначала мы рассмотрели способ идентификации сайта. Есть много способов, и ни один из них не является абсолютно точным, но надежный сценарий может учитывать многие из них одновременно. Для этого инструмента мы сначала начали с вывода генератора, созданного многими основными CMS. При его создании мы добавили еще несколько проверок.

При его создании мы добавили еще несколько проверок

Поэтому мне нужен инструмент, который обрабатывал бы список ссылок и определял его CMS, а затем выводил эти данные обратно в CSV, сохраняя данные OSE в целости и сохранности.

Основы нашей цели

Наша цель проста.

Программа перейдет на каждый URL, кеширует его содержимое, а затем проанализирует код для всего, что я ищу. В этом примере это CMS, но это может быть широкий спектр информации, о которой я расскажу позже.

-> Получить Seemes на Gethub - Спасибо Мэтью за его работу над этим инструментом.

Кроме того: этот инструмент построен на PHP, который является языком, который я знаю, и его можно легко запустить с моего Mac. Вы можете запустить его в Windows, используя что-то вроде WAMP или на сервере. Вы также можете прочитать о установка PHP на Windows ,

Файлы:

  • custom.php - Простая оболочка командной строки для класса Seemes (seemes.php) на основе предоставленного command_line_example.php на GitHub
  • seemes.php - класс Seemes, который будет сканировать и анализировать наш CSV для данных, которые нам нужны.

Вы можете найти этот код на Github , Это довольно хорошо задокументировано для всех, кто интересуется копанием. Я рекомендую взглянуть на источник, потому что это действительно большая часть этого поста.

Как пользоваться

Если вы пользователь Mac, им легко пользоваться. Если нет, приобретите Mac или воспользуйтесь ссылками выше, чтобы установить его на свой компьютер с Windows.

Для начала я сначала изменил права доступа к файлам с помощью chmod 0777. Затем, чтобы запустить скрипт, передайте ввод и установите смещение.

./custom.php input.csv смещение output.csv

Вы можете указать имя выходного файла, но он по умолчанию использует output.csv, поэтому я не определил его в своем примере. Смещение указывает сценарию, с какой строки начинать. Поскольку Open Site Explorer выводит CSV, который начинает URL-адреса в строке 8, я установил смещение как 7.

Оттуда, это всего лишь вопрос ожидания сценария, чтобы сделать всю тяжелую работу.

Оттуда, это всего лишь вопрос ожидания сценария, чтобы сделать всю тяжелую работу

В OSE CSV для дистилляции .co.uk было 1156 корневых доменов. Сценарий занял 47 минут. В настоящее время сценарий кэширует содержимое страницы, что позволяет снова анализировать их содержимое без необходимости повторной загрузки. Эта информация также может быть передана в базу данных, но мы не создали эту функциональность для этого поста.

В настоящее время сценарий предназначен для извлечения информации о CMS и аналитике. Его можно настроить для проверки всех видов информации, о которой я расскажу позже, но давайте сначала разберемся с нашим примером.

Поиск Блогов

Наша базовая настройка позволяет нам легко находить блоги, ссылающиеся на Distilled.co.uk. Хотя это и не совсем точно (например, некоторые сайты удаляют тег генератора, а не все WP-сайты являются блогами), это хорошая отправная точка для открытия новых блогов.

Так что, если вы смотрите на нишу «SEO», вот хороший набор блогов для начала. Вы можете собрать результаты от нескольких конкурентов и даже перепроверить ссылки доменов, чтобы найти концентраторы ссылок в вашей нише. Это главные цели для охвата.

Другие применения для CMS

Мы использовали только ограниченное количество проверок для CMS, но есть ряд других следов, которые можно использовать для идентификации CMS. К ним относятся такие вещи, как определенные папки CMS (wp-admin / wp-content), страницы входа и темы. Можно было бы создать гораздо более надежную систему для идентификации CMS, на которой запущен сайт. Есть несколько причин, по которым я могу подумать, что это может быть полезно:

  • Поиск форумов - сообщества для участия, общения, обмена контентом и, возможно, удаления ссылок.
  • Найти социальную CMS. Примером может служить Pligg, на котором работает множество сайтов-клонов Digg.
  • CMS со страницами профиля - Может быть, шанс для ссылки.
  • CMS с dofollow - если вы знаете, что некоторые CMS имеют общие способы получения ссылки dofollow, вы можете добавить проверки для них.
  • Вики-сайты - Найти вики-сайты для создания ссылок и создания статей.

Что еще вы можете сделать

После того, как вы построили базовый скребок, вы можете в основном анализировать содержимое по вашему желанию.

- Проверьте усыновление

Если я рекомендую использовать лицензирование контента, встраивание, виджеты или инфографику в качестве тактики создания ссылок, я, возможно, захочу отследить эффективность этой кампании. В настоящее время способ отследить это можно через настройку оповещений, расширенный поиск или копание вручную через профиль ссылки.

Я могу настроить этот сценарий для проверки наличия элемента footprint, связанного с встраиваниями, такого как имя изображения или атрибут alt инфографики. Я могу сделать так, чтобы скрипт помечал все URL-адреса, где существует этот элемент.

- Проверьте релевантность ссылок

Выводы обратных ссылок из OSE дают мне основную информацию, такую ​​как URL и заголовок, но мало что касается релевантности. Я могу провести проверку содержимого страницы на предмет упоминания и использования конкретных ключевых фраз. Это может быть как простая проверка его использования. Он также может проверить количество использований или более сложные метрики. Я мог бы захотеть проанализировать обратные ссылки Distilled для каждого URL, который упоминает фразу «создание ссылок» в содержании тела, и посчитать количество раз, использованных для каждого URL

- Найти каталоги

Том написал пост на SEOmoz об использовании результатов OSE для поиска ссылок на каталог с помощью проверить заголовок и URL в Excel ,

Это отличная проверка, но зависит от использования каталога в URL и заголовка. Скребок позволит вам проверить содержимое страницы, следы каталогов и общий каталог CMS.

- Шахта для социальных аккаунтов

Вы можете легко проверить ссылки на страницы Twitter и Facebook и проанализировать такие элементы, как имена пользователей Twitter.

- Мой для данных электронной почты

Вы можете проверить соответствие шаблонов для адресов электронной почты. Проверьте наличие экземпляров URL-адресов about или contact, сохраните их, а затем очистите эти страницы в поисках электронной почты.

- Проверьте на Adsense

Причин этому много, но простой - найти сайты, которые пытаются монетизировать свой сайт. Рекламная возможность может быть ...

- Оценить штрафы

Вы можете использовать это для оценки качества ссылки.

Проверьте наличие примеров шаблонов спам-ссылок, таких как исходящие якоря, по списку ключевых слов высокой стоимости (платных ссылок?) И использования минус-слов.

- Составить список семян по ключевому слову

Составить список конкурентных сайтов; очистите их мета ключевые слова, мета описание и заголовок, чтобы создать начальный список для исследования ключевых слов.

- маскировка

Очистите содержимое с помощью различных пользовательских агентов, таких как Googlebot, а затем Chrome, и сравните содержимое. Если они не одинаковы, они делают некоторую форму маскировки, основанную на пользовательском агенте. Это также может быть автоматизировано до некоторой степени с помощью контрольной суммы и файлов сравнения.

Куда дальше

Этот скрипт не доработан, но помогает продемонстрировать ценность разработки базового скребка для более сложного анализа ссылок. Скрипт с открытым исходным кодом и бесплатен для использования, так что не стесняйтесь строить поверх него. Скорее всего, я буду продолжать работать с Мэтью над некоторыми из более сложных проверок, которые я обсуждал в этой статье. Есть много вещей, которые вы можете проверить, но я надеюсь, что этот пост поможет вам в правильном направлении.

Вы всегда можете найди меня в твиттере если вам интересно больше поговорить об анализе ссылок. Я буду говорить больше на эту тему на SMX West в марте ,

Похожие

Как сделать технический анализ SEO?
... для создания технический SEO анализ это так называемый Screaming Frog SEO Spider Tool и в этом руководстве мы поможем вам получить базовые знания об инструменте, чтобы выполнить тот же анализ, что и в нашей повседневной работе. В этом руководстве мы основали наш собственный веб-сайт, где мы опишем основной рабочий процесс, включенный в такой анализ.
Основы SEO: оптимизация внутренних ссылок
... данных 12 000 городов и сообществ и 3500 отраслевых категорий, можно создать 42 миллиона (12000 x 3500) локализованных страниц категорий, которые имеют возможность ранжировать не менее 42 миллионов различных поисковых фраз (отрасль + название города). Имеет ли смысл разыгрывать все возможные комбинации, здесь не обсуждается. Но даже если вы обойдетесь без половины комбинаций, у вас все равно будет 21 миллион страниц категорий. От подробных страниц до примерно 4 миллионов компаний и включения
Создайте свою SEO кампанию с авторитетными каталогами
Когда в наши дни большинство людей думают о веб-каталогах, первое, что приходит в голову, это низкокачественные спам-ссылки, которые никогда не приведут ни одного посетителя на ваш сайт и на самом деле могут принести больше вреда, чем пользы вашей SEO-кампании. Хотя это верно для многих веб-каталогов, на самом деле есть еще много хороших авторитетных каталогов, которые определенно стоят времени и усилий, чтобы попасть в их список. Существуют специализированные каталоги, которые могут улучшить
Как создать контрольный список SEO
SEO является чрезвычайно важным инструментом, так как хорошо применяемое приложение способно оптимизировать и улучшить позиционирование веб-сайта на страницах с органическими результатами в поисковых системах. Чтобы этот инструмент был эффективным, мы разделили несколько советов о том, как создать контрольный список SEO.
Link Assistant и SEO Spyglass Review
Создание ссылок не сильно изменилось за последние несколько лет. Тем не менее, следующие концепции по-прежнему ценны с точки зрения того, как мы должны рассматривать создание ссылок как часть нашей стратегии онлайн-маркетинга: Вам нужно диверсифицировать ссылки - либо создаваемый вами актив, либо ваш продукт Вы должны поставить этот актив перед соответствующей аудиторией, которая имеет возможность поделиться им Вам нужна последовательность -
Как улучшить SEO с помощью обратных ссылок
... для SEO Использование обратных ссылок помогает пользователям перемещаться по сайту. Для успешной поисковой оптимизации (SEO) важен не только контент вашего собственного сайта, но и внешний вид сайта в других местах в Интернете. В предыдущем посте мы рассмотрели как повысить оптимизацию
Анализ SEO
... данных вручную, но адаптируем их индивидуально к вашим потребностям. В последние годы были показаны следующие формы: Классический SEO-анализ: один или два домена, которые находятся под пристальным вниманием во всех отношениях, особенно в области OnPage. Анализ сети: у вас уже есть большой портфель доменов. Именно здесь мы уделяем меньше внимания пространству на странице, сравниваем значения доменов, разрабатываем более сложные стратегии и помещаем ваши домены
Как рассчитать плотность ключевых слов
На уроке ABC Что такое плотность ключевых слов мы говорили о плотности ключевых слов и их полезности в SEO-активности на странице. Но как рассчитать плотность ключевых слов? В этом уроке мы видим два онлайн-инструмента. Этот инструмент (доступно здесь ) дает возможность рассчитать плотность ключевых слов, начиная
Что такое KEI в SEO?
KEI , или Индекс эффективности ключевых слов , является метрикой, очень важной на уровне веб-позиционирования, которая показывает, является ли ключевое слово оптимальным для работы на уровне SEO или нет. Этот показатель, KEI, также послужит нам для создания рекламы AdWords , поскольку он будет одинаково важен при рассмотрении соответствующих слов в SEM. KEI - это показатель, который получается из следующего расчета: (ежемесячный
Что такое SEO в цифровом маркетинге?
Сегодня, с каждым днем, в мире электронного бизнеса и рекламы слово SEO все больше звучит. Действительно, сегодня все задаются вопросом, что такое SEO в цифровом маркетинге. Многие люди говорят об этом, только повторяя то, что говорят другие, с понятиями позиционирования в сети, даже не зная значения их аббревиатур. В нескольких словах ... Что такое SEO? Слово SEO происходит от английского названия, поисковая оптимизация Если вы не совсем понимаете
Как выиграть в локальной SEO оптимизации через контент
... для ранжирования в Google, но одна надежная возможность ранжирования - через оригинальные, хорошо написанные локальные оптимизированные по ключевым словам целевые страницы. Если, например, кто-то должен был искать «сантехника для ванной комнаты в Атланте», хорошо написанная целевая страница из 800 слов для веб-сайта сантехника в Атланте, посвященная сантехнике в ванной комнате, могла бы стать вершиной результатов. Другие технические SEO-элементы, полезные по-своему, не приближаются

Комментарии

Как вы можете ожидать честных результатов, когда вы не честны в том, как вы ведете бизнес?
Как вы можете ожидать честных результатов, когда вы не честны в том, как вы ведете бизнес? То же самое можно сказать и о профессионалах SEO, которые не говорят правду и не понимают, какие типы тактик и стратегий используются в их плате за эффективность услуг SEO. Чтобы и клиенты, и профессионалы в области SEO были успешными, между сторонами должен быть уровень доверия. Обе стороны должны ставить интересы других перед своими собственными силами и делать все возможное, чтобы
Проблема в; если вы не знаете точно, что вы хотите, чтобы ваши посетители делали, как вы можете измерить успех или провал вашей SEO-кампании?
Проблема в; если вы не знаете точно, что вы хотите, чтобы ваши посетители делали, как вы можете измерить успех или провал вашей SEO-кампании? Как вы измеряете или даже оцениваете ROI? И как вы узнаете, предоставляете ли вы своим посетителям нужную информацию или опыт? Важно подвести итоги вашего сайта и точно определить, что вы хотите, чтобы пользователи делали и почему. Если вы считаете, что хотите, чтобы они просматривали определенное количество страниц или оставались на вашем
Но если вы использовали все обычные методы получения входящих ссылок, что вы можете сделать, чтобы ваш сайт - или сайт вашего клиента - получил преимущество в поиске?
Но если вы использовали все обычные методы получения входящих ссылок, что вы можете сделать, чтобы ваш сайт - или сайт вашего клиента - получил преимущество в поиске? В Брайтоне SEO в прошлую пятницу, мастер местный SEO Грег Гиффорд поделился некоторыми «праведными» советами
Зная, что вы узнали, как вы думаете, что будет делать эта строка кода?
Зная, что вы узнали, как вы думаете, что будет делать эта строка кода? preg_match ('/ (<div class = \ ”fsm fwn fcg \”>) (. *) (лайки ·) (. *) (об этом говорят <\ / div>) / i', $ handle, $ последователи) ; Если вы сказали «соответствуйте Facebook, как говорите», вы правы. Однако, если вы попробуете это, это не сработает. Зачем? Потому что Facebook тестирует агент пользователя, а скрипт не предоставляет его. Вот случай, когда вы можете вернуться к
Но что еще вы можете сделать?
Но что еще вы можете сделать? Согласно Мозу, существуют простые методы оптимизации, которые могут выиграть сильные локальные рейтинги: Оптимизируйте свои теги. Теги заголовков, заголовки H1, alt-теги и мета-описания являются важными компонентами в формуле SEO. Чтобы выиграть на местном уровне, одно простое дополнение ко всем этим тегам может оказать огромное влияние: добавить свой город и штат. Обратите внимание на URL. Там нет
Если вы вошли в комнату, полную гениальных ученых со степенью доктора наук, как вы думаете, вы могли бы перехитрить их всех?
Если вы вошли в комнату, полную гениальных ученых со степенью доктора наук, как вы думаете, вы могли бы перехитрить их всех? Нет. У Google есть сотни комнат, полных гениальных ученых со степенью доктора наук, и их работа состоит в том, чтобы работать 60 часов в неделю, чтобы убедиться, что вы не можете обмануть Google. Вы не можете перехитрить их. Когда-либо. Не обращайте внимания на советы по обману системы и сосредотачивайтесь на создании отличных веб-сайтов с отличным контентом, и ваши сайты
Как вы можете получить ваши товары, чтобы занять достаточно высокий рейтинг для потенциальных клиентов, чтобы найти их?
Как вы можете получить ваши товары, чтобы занять достаточно высокий рейтинг для потенциальных клиентов, чтобы найти их? Владельцы магазина Etsy могут чувствовать себя ошеломленными из-за огромного количества конкурентов и смущены всем распространенным жаргоном. SEO, ключевые слова, рейтинги ... что это значит в мире онлайн-торговли? И что они значат для продавцов Etsy в частности? Насколько они важны на самом деле? Мы поможем вам с этим прямо здесь. Давайте пройдемся по нему вместе.
Что вы можете сделать, чтобы ваш сайт занял более высокое место в поисковых системах?
Что вы можете сделать, чтобы ваш сайт занял более высокое место в поисковых системах? Сегодня мы пройдем ... Итак: начнем! Как работает SEO? Верьте или нет, есть более 200 разных переменных которые входят в алгоритм поиска Google. 200! Это означает, что попасть на главную страницу Google не так просто, как разместить ключевые слова на
Используете ли вы Google Analytics и знаете ли вы, как выглядит ваш текущий трафик на сайте и как ваши посетители используют ваш сайт?
Используете ли вы Google Analytics и знаете ли вы, как выглядит ваш текущий трафик на сайте и как ваши посетители используют ваш сайт? Как долго ваш домен зарегистрирован и как долго он истекает? Есть ли на вашем сайте постоянные перенаправления? Есть ли на вашем сайте несколько тегов H1 на страницу? Скорее всего, вы не можете ответить на эти вопросы, и вы все еще не решаетесь тратить деньги на профессиональную помощь SEO. Я часто сталкиваюсь с этим,
Что вы можете сделать со скоростью вашего сайта?
Что вы можете сделать со скоростью вашего сайта? Изображения являются узким местом для многих владельцев сайтов, когда речь заходит о скорости сайта. Убедитесь, что ваши изображения не слишком велики по размеру, это ненужные байты, которые замедляют работу вашего сайта. Используйте Google Page Speed ​​Tool чтобы узнать, верна ли скорость вашего сайта WordPress и что вы можете улучшить. Если вы еще не приняли во внимание
Как вы делаете маркетинговый рок своего стартапа и что сделало Moz успешным там, где другие потерпели неудачу?
Как вы делаете маркетинговый рок своего стартапа и что сделало Moz успешным там, где другие потерпели неудачу? Мы поговорили с суперзвездой SEO и основателем Moz Рэндом Фишкиным и попросили его рассказать о успехах и неудачах его компании. Если вы не знакомы с Мозом или Рэндом, вот краткое и важное вступление к компании Моз и Ранду, любителю восхитительных усов. Мос SaaS - компания, базирующаяся в Сиэтле, США, которая продает подписки на входящий

Платных ссылок?
Но как рассчитать плотность ключевых слов?
Что такое SEO?
Как вы можете ожидать честных результатов, когда вы не честны в том, как вы ведете бизнес?
Проблема в; если вы не знаете точно, что вы хотите, чтобы ваши посетители делали, как вы можете измерить успех или провал вашей SEO-кампании?
Как вы измеряете или даже оцениваете ROI?
И как вы узнаете, предоставляете ли вы своим посетителям нужную информацию или опыт?
Но если вы использовали все обычные методы получения входящих ссылок, что вы можете сделать, чтобы ваш сайт - или сайт вашего клиента - получил преимущество в поиске?
Зная, что вы узнали, как вы думаете, что будет делать эта строка кода?
Зачем?

ГОРЯЧАЯ ЛИНИЯ

(062) 348 60 00
(095) 210 57 42

Дед Мороз в офис Донецк

Дед Мороз на детском утреннике Донецк

Дед Мороз на дом Донецк

Новости

Телеканал Юнион в гостях у Морозко

Последние записи