Сбор данных программирования для SEO исследований

  1. Создать список файлов в каталоге
  2. Настройте среду PHP
  3. Извлечь содержимое с веб-страницы

В прошлом месяце я показывал вам три уловки, которые я использую при сборе данных на веб-сайтах , Я использовал эти методы для загрузки веб-страниц в локальную папку. Сами по себе эти процедуры не являются SEO; однако специалист по поисковой оптимизации, работающий на крупном или корпоративном веб-сайте, должен знать, как это сделать. В этой статье я покажу вам, как:

  1. Составьте список страниц внутри папки
  2. Настройте среду разработки
  3. Открывайте веб-страницы из скрипта и извлекайте данные

Если вы изучите эти процедуры, я уверен, что вы найдете законную возможность использовать каждый из них, вместе или в одиночку.

Создать список файлов в каталоге

Пользователи Mac могут задаться вопросом, почему я пытаюсь узнать, как взять список файлов в каталоге и превратить их имена в текстовый список. На Mac вам просто нужно:

  • Выберите все имена файлов в папке и нажмите Копировать
  • Создать пустой текстовый файл
  • В меню выберите «Правка», затем «Вставить и сопоставить стиль».

В Windows, с другой стороны, нет простого способа сделать это. Вот мой рецепт:

  • Создайте текстовый файл с именем dir.bat
  • В файл введите строку dir / b / o: en> dir.txt
  • Сохраните, закройте, а затем поместите этот файл в каталог, для которого вы хотите список файлов
  • Дважды щелкните файл, чтобы запустить скрипт
  • Файл .bat создаст новый текстовый файл со списком имен файлов

Теперь, когда у вас есть список файлов, давайте откроем один и найдем содержимое, которое вы ищете.

Настройте среду PHP

Если мысль о настройке среды PHP вас пугает, расслабьтесь. Все, что вам нужно, это размещенный веб-сайт или дисковод. Хостинг-аккаунт - это самый простой способ зайти сюда. Он включает в себя PHP, так что все, что вам нужно, это Программа FTP создать подпапку и загрузить файлы скриптов.

Например, я создал простой Привет, мир скрипт на одном из моих сайтов. Если у вас нет размещенного сайта, вы можете создать свою собственную среду Apache с PHP бесплатно с XAMPP , XAMPP устанавливает Apache, PHP, MySQL и некоторые другие программы, которые вместе создают среду разработки на вашем диске. Я держу XAMPP на флеш-накопителе, поэтому у меня всегда есть свои скрипты везде, где есть ПК с USB-портом. После установки XAMPP:

  • Посетите каталог XAMPP и запустите xampp-control.exe
  • Запустите Apache
  • В веб-браузере перейдите на http: // localhost

Пространства сайта помещаются в / xampp / htdocs / как подпапку; например, сценарии находятся в / xampp / htdocs / scripts /. Скопируйте и сохраните следующее как /xampp/htdocs/scripts/hello-world.php:

<? php echo «<html> <head> <title> Hello World </ title> </ head> <body> <p style = \» font-family: \ 'Segoe UI \', Tahoma, Geneva, Verdana, без засечек; размер шрифта: х-большой; цвет: #FFFFFF; цвет фона: # 8E8E17; margin-top: 250px; отступ: 25px 25px 25px 25px; выравнивание текста: center \ ”> Hello World. Сиэтл Зовет. </ p> <p style = \ ”font-family: \ 'Segoe UI \', Тахома, Женева, Вердана, без засечек; размер шрифта: х-большой; цвет: #FFFFFF; цвет фона: # 8E8E17; margin-top: 0px; отступы: 25px 25px 25px; выравнивание текста: center \ ”> Вы можете <a href=\vationjavascript:history.go(-1)\\>> [Вернуться назад] </a> сейчас. </ p> < / body> </ html>»; ?>

Чтобы запустить скрипт, посетите http: //localhost/scripts/hello-world.php. Помещаете ли вы подпапку в размещенную веб-учетную запись или устанавливаете XAMPP, либо вы будете работать в качестве среды разработки. Я предпочитаю XAMPP на моем флэш-накопителе, потому что я могу сохранять и выполнять файлы без необходимости загружать их.

Извлечь содержимое с веб-страницы

Введите этот скрипт в вашу среду разработки как twitter-follow.php.

<? php $ a [1] = 'http: //twitter.com/seomoz'; $ А [2] = 'HTTPS: //twitter.com/sengineland'; $ А [3] = 'HTTPS: //twitter.com/apple_worldwide'; $ А [4] = 'HTTPS: //twitter.com/microsoft'; $ А [5] = 'HTTP: //twitter.com/smartsheet'; foreach ($ a as $ objectURL) {$ handle = file_get_contents ($ objectURL); if (! $ handle) die («Не удается открыть устройство»); preg_match ('/ (<strong>) (. *) (<\ / strong> подписчики) / i', $ handle, $ последователи); эхо «\» ». $ objectURL. «\»; \ »». $ последователей [2]. «\» <br /> »; сон (0,5); }?>

Теперь запустите его: http: //localhost/scripts/twitter-followers.php или там, где находится ваша среда разработки. Он должен выводить файл с разделителями с каждым URL-адресом Twitter и количеством подписчиков в аккаунте. Вот что происходит в этом сценарии.

$ А [1] = 'HTTP: //twitter.com/seomoz';

Каждая из строк со 2 по 6 определяет переменную как адрес Twitter. Обратите внимание на [1], [2], [3] и т. Д. Это позволяет легко написать формулу в Excel, которая будет записывать строку кода PHP для каждого адреса Twitter. $ а [1] = 'HTTP: //twitter.com/seomox';

foreach ($ a as $ objectURL) {}

Это создаст цикл, который будет проходить через все переменные $ a [], которые вы создали. С каждым проходом он присваивает содержимое $ a [] $ objectURL.

$ handle = file_get_contents ($ objectURL);

Эта строка читает веб-URL и сохраняет разметку HTML в $ handle.

preg_match ('/ (<strong>) (. *) (<\ / strong> подписчики) / i', $ handle, $ последователи);

Здесь происходит волшебство. Это команда Perl Regular Expression Match.

    • Он проверяет разметку HTML в $ handle и записывает результаты в $ последователи
    • Он хранит что-либо между скобками () в $ последователей
    • Начало / и конец / - начало и конец теста
    • . * - это регулярное выражение, которое соответствует любому набору или длине символов, в данном случае между <strong> и </ strong> подписчиками.
    • Символ \ - это побег. Помещенный перед зарезервированным символом, таким как / или *, он сообщает PHP, что он должен воспринимать его как обычную или действительную букву, цифру или пунктуацию
    • Маленький i после второй / указывает соответствующей команде игнорировать регистр букв или не учитывать регистр

эхо «\» ». $ objectURL. «\»; \ »». $ последователей [2]. «\» <br /> »;

Эта строка печатает результаты. Обратите внимание на escape-символы перед напечатанными кавычками. Также обратите внимание на 2 в $ последователей [2]; это соответствует второму набору скобок.

Зная, что вы узнали, как вы думаете, что будет делать эта строка кода?

preg_match ('/ (<div class = \ ”fsm fwn fcg \”>) (. *) (лайки ·) (. *) (об этом говорят <\ / div>) / i', $ handle, $ последователи) ;

Если вы сказали «соответствуйте Facebook, как говорите», вы правы. Однако, если вы попробуете это, это не сработает. Зачем? Потому что Facebook тестирует агент пользователя, а скрипт не предоставляет его. Вот случай, когда вы можете вернуться к Первая часть , напишите макрос, который загрузит веб-страницы на ваш локальный компьютер, а затем получит нужные данные. В вашем скрипте просто измените URL-адреса на файлы.

$ А [1] = 'C: \ файл-1.html';

PHP прекрасно способен отправлять пользовательский агент; Однако вы можете попасть в ловушку по разным причинам. Другим примером является требование входа в свою учетную запись на таких сайтах, как Open Site Explorer.

preg_match ('/ (subdomain_mozrank \ ”:) (. *) (, \” subdomain_mozrank_raw) / i', $ handle, $ последователи);

Вместо изучения PHP для каждой ситуации iMacros, которой я поделился в прошлом месяце, сразу же поможет вам. Если вы хотите пойти дальше, прочитайте эти страницы и изучите регулярные выражения:

Существует целый мир обучения там. Это тоже не обязательно должен быть PHP. Python, Ruby, PERL и другие будут работать. Проведите исследование, просмотрите некоторые учебники и поговорите с друзьями-разработчиками. Сделайте выбор, который подходит именно вам.

Предостережение: некоторые прямые цитаты могут быть заменены на умные. Обязательно используйте прямые кавычки в своей кодировке.

Мнения, выраженные в этой статье, принадлежат автору гостя и не обязательно относятся к Search Engine Land. Штатные авторы перечислены Вот ,


Об авторе

ГОРЯЧАЯ ЛИНИЯ

(062) 348 60 00
(095) 210 57 42

Дед Мороз в офис Донецк

Дед Мороз на детском утреннике Донецк

Дед Мороз на дом Донецк

Новости

Телеканал Юнион в гостях у Морозко

Последние записи