Парсинг вордстат


Команда проекта запустила новый экспертный инструмент: «Получение данных из Яндекс.Вордстат». Логика его работы — достаточно простая, доступно множество настроек, что позволяет собрать большое семантическое ядро для проекта в пару кликов, задав:

  • Регион сбора частот / фраз.

  • Глубину парсинга Wordstat в страницах.

  • Получение точной и общей частоты по запросам.

  • Сбор правой колонки (запросы, похожие на «фраза»).

  • Получение частот на мобильных устройствах.

  • Список стоп-слов (для исключения нецелевых запросов по маске).

  • Удаление НЧ-фраз (если требуется, отсечка — по частоте).

  • Дополнительная обработка: спецсимволы, запросы с нулевой точной или общей частотой, очень длинные/короткие фразы, условные дубли.

Парсинг Вордстат

Итоговый файл будет сформирован в облаке (никаких КАПЧ (!) и банов по IP) за несколько минут, а скаченный CSV будет содержать и дополнительные колонки, удобные для дальнейшей работы с семантикой:


  • Отношение частот (Точная / Общая).

  • Доля мобильного спроса.

  • Колонка Wordstat: Левая / Правая.

  • Число слов в запросе.

  • Тип фразы (кириллическая, на латинице, с числами, смешанная и т.д.).

Один лимит «Пиксель Тулс» расходуется на парсинг двух страниц с запросами и/или двух точных частот. Истории проверок (парсинга) хранятся в облаке.

Данный инструмент очень хорошо гармонирует с другими источниками семантики:

  • Парсинг подсказок в Яндексе.

  • Парсинг подсказок в Google.

  • Список запросов из Яндекс.Вебмастера.

Сбор семантического ядра

История проверок в облаке

Удачи в быстром сборе семантического ядра для проектов!

tools.pixelplus.ru

Как правильно парсить в Вордстат: обзор программ для анализа поисковой выдачи


Парсинг выдачи Яндекса – это процесс сбора поисковых запросов по заданной тематике (с помощью базовых маркеров). С Yandex Wordstat Assistant можно легко получить основную информацию для формирования семантического ядра – поисковые запросы, количество показов в месяц по каждой фразе, а также схожие по тематике слова, помогающие расширить охват целевой аудитории. Парсер Wordstat позволяет получить информацию по словам и по регионам, при этом система ориентируется именно на сайты.

Если хотите выполнить расширенный поиск, включающий не только Яндекс, но и социальные сети и другие поисковые системы, необходимо воспользоваться универсальными инструментами, например, A-Parser. Этот программный продукт отличается удобством в работе, но для эффективной работы с ним нужно купить прокси для парсинга.

В какой среде бы Вы ни работали, используйте универсальную схему сбора семантического ядра:

  • формирование базового списка маркеров (запросов, однозначно релевантных сайту);
  • сбор ключевых слов;
  • удаление «мусора» — ненужных и случайно попавших в список запросов;
  • кластеризация ключевиков по разделам сайта или тематикам.

Рассматриваем основной алгоритм работы с Вордстат и парсим Яндекс для сбора семантики на примере сайта агентства недвижимости. Допустим, нам нужно составить перечень релевантных ключевых запросов, соответствующих базовому маркеру «аренда квартир».


  1. Вводим базовый маркер в поисковую строку Яндекс Вордстат.
  2. При необходимости устанавливаем регион для более точного отбора запросов (например, Москва или Санкт-Петербург).
  3. В полученных результатах поиска используем значок «+» для выгрузки в таблицу Excel.Как правильно парсить в Вордстат
  4. Выгружаем полученные данные через буфер обмена (инструмент «A-Z»).

Совет! Обращайте внимание на подсказки типа «вместе с этим ищут» в соседнем поле выдачи результатов парсинга – это поможет вам охватить больше аудитории при составлении SEO-контента.

Чтобы облегчить себе задачу по ручному парсингу, используйте операторы Яндекс. Например, поставив в конце поисковой фразы знак «!», вы зафиксируете окончание поискового запроса, и система будет искать слова именно в этой словоформе. Оператор «-» (минус) позволит убрать лишние слова, а квадратные скобки «[ ]» — зафиксировать порядок слов в запросе.

Советы и рекомендации по использованию программ для парсинга

Специалисты советуют сочетать ручной и автоматический выбор запросов для составления семантического ядра, особенно для новичков. Пользуясь штатным инструментом Яндекс Вордстат Ассистент, вы нарабатываете навыки интуитивного подбора поисковых фраз, которые приводят на сайт целевых клиентов с помощью средне- и низкочастотных ключей. Высокочастотные фразы не всегда работают, особенно в конкурентной нише.


Если у вас нет времени на ручной парсинг в Яндекс Вордстат, используйте специальные инструменты. В интернете можно найти различное программное обеспечение, но большинство русскоязычных специалистов по SEO-оптимизации делают парсинг выдачи Яндекса с помощью Key Collector.

Это десктопный продукт, позволяющий создавать и хранить в локальной памяти компьютера проекты для каждого сайта, загружать и сохранять файлы и делать парсинг ключевых слов в соответствии с региональными настройками. Программа требует привязки к аккаунту. Для работы с ключевыми поисковыми запросами в Кей Коллекторе имеются пиктограммы основных поисковых систем в Рунете (в нашем случае это Yandex-парсер, хотя можно выбрать Google, Bing и другие).

Советы по использованию программ для парсинга

Среди других полезных сервисов для SEO такие:

  • Serpstat – многофункциональная платформа для профессионалов, имеющая триальную версию с ограниченным функционалом, а также платную подписку от 19 до 299$ в месяц;
  • Ahrefs – веб-сервис с множеством полезных опций, включая мониторинг ниши, анализ конкурентов и улучшение индексации сайта. Для сбора семантического ядра предусмотрен инструмент Keywords Explorer. Протестировать его можно от 7$ в неделю;
  • Semrush — аналог Ahrefs по части функционала, более дорогой по тарифам (от 99$ и выше).

Специалисты утверждают, что Кей Коллектор – это самая удобная и функциональная программа, позволяющая значительно облегчить жизнь оптимизатора. У нее есть множество полезных опций для точной настройки параметров парсера Yandex (например, глубины поиска, избирательного поиска запросов по базовой частотности и т.п.).

Но у программы есть нюанс – она платная. Стоимость лицензии составляет 1800-1900 рублей по электронному и безналичному расчету соответственно.

Совет! Если по какой-то причине вы не хотите пользоваться этим продуктом, можете попробовать его бесплатный аналог «Словоёб». Подойдет и более простой вариант — Букварикс – бесплатный сервис для сбора ключевых слов и формирования семантического ядра.

Парсинг Яндекс Вордстат можно делать самостоятельно и с помощью специальных программ. Ручной сбор посредством инструмента Wordstat Assistant оправдывает себя в том случае, если ваша ниша имеет узкую направленность и мало конкурентов, а перечень поисковых запросов относительно невелик. При больших объемах работ рекомендуется пользоваться специальными программами для парсинга и аналитики.

proxy-sale.com

Часть 2. Доработка скрипта для Yandex Wordstat


Wordstat.yandex показал себя с хорошей стороны, и мой скрипт в wordstat работал на УРА, впрочем он от него не сильно и зависит. Но когда я пришел за другой компьютер, то выяснилась ужасная проблема. Дома все работало на УРА, а на другой машине преобразование русской фразы произошло коряво. Это видимо связано  с тем что тут стоит Windows 7, других проблемм просто не вижу.

Копирование в Буфер  cd = %clipboard% происходит ужасно.

Поэтому я переписал скрипт полностью, и к счастью мне это удалось, я решил фразу не копировать и не обрабатывать регуляркой, а прямо на месте отредактировать клавишами, на то он и AutoHotKey. В итоге я получил отличный преобразователь фраз для парсинга Wordstat Yandex.

Ну и показываю этот уникальный скрипт:

Замена простой строки для поиска точного вхождения для Wordstat.yandex.ru #SingleInstance force

F2::
Send {LCtrl}
Send {Home}»{End}»{Home}{Right}
Send +1{}^{Right}{Right}
Send +1{}^{Right}{Right}
Send +1{}^{Right}{Right}
Send +1{}^{Right}{Right}
Send +1{}^{Right}{Right}
Send {Ctrl down}{Shift down}{Left}{Right}{Ctrl up}{Right}{Del}{Shift up}
return


Как можно догадаться у этого исходника есть небольшое ограничение, он может обработать фразы не более чем из 5 слов, чтобы увеличить это значение, просто надо скопировать строчку

Send +1{}^{Right}{Right}

столько раз сколько вам нужно, вообще я тот еще писака на скриптах, но все же оптимизировал немного и получилось вот что:

Замена простой строки для поиска точного вхождения для Wordstat.yandex.ru #SingleInstance force

F2::
Send {LCtrl}
Send {Home}»{End}»{Home}{Right}
Loop 20
{
Send +1{}^{Right}{Right}
}
Send {Ctrl down}{Shift down}{Left}{Right}{Ctrl up}{Right}{Del}{Shift up}
return

Кто напишет меньше ?

А вот и видео о том как узнать сколько в месяц происходит запросов по нужной фразе, как это преобразование работает на практике:

Удачи

Обновление 30 января 2012

теперь я не пользуюсь AutoHotKey, потому что пользуюсь ComfortKeys, а там все делается в 1000 раз прощще. Это моя любимая программа для автоматизации разных действий. и конечно же я прилагаю вам скрипт для преобразования фразы в точное вхождение, т.е. добавление «!

<KEY Home>»!<KEY Ctrl+Right>!<KEY Ctrl+Right>!<KEY Ctrl+Right>!<KEY Ctrl+Right>!<KEY Ctrl+Right>!<KEY Ctrl+Shift+Left><KEY Ctrl+Shift+Right><KEY Del>»


Вот как все просто, меньше, красивее, удачнее. Кстати Почему я перешел еще на Comfort, потому что Chrome сменил алгоритм передвижения курсора в тексте и мой скрипт на AutoHotKey перестал работать корректно. В принципе его можно немного поменять и все, конечно же AHK намного гибче, но Comfort тоже не шиком лыт и умеет JavaScript !, поэтому я не люблю отдельные программки для каждых действий а делаю все в Комфорте. Кстати Много Хитростей я привожу на сайте http://goryachieklavishi.ru

jkeks.ru

Парсер Яндекс Wordstat

Один из наиболее популярных модулей в Rush Analytics – парсер Яндекс Вордстат, и это не случайно. При сборе семантического ядра необходимо точно знать частотность собранных запросов, чтобы правильно расставить приоритеты по продвижению и избавится от «мусорных» и нулевых запросов. Часто стоит задача пробить несколько десятков тысяч запросов на частотность в Яндексе, но это не совсем простая задача для самописных парсеров Вордстата и десктопных программ, и вот почему:

  1. Yandex Wordstat имеет хорошую защиту от парсинга, например бан IP-адресов с которых осуществляется парсинг и выбрасывание капчи в ответ на запросы от ботов. Чтобы эффективно собирать данные с Wordstat, нужен эффективный алгоритм подключения IP-адресов и другие хитрости

  2. Для парсинга большого количества данных с помощью десктопных программ понадобится много IP-адресов (прокси), которые Яндекс с легкостью банит при неоптимальном алгоритме подключения, а прокси – удовольствие недешевое
  3. Так же для парсинга понадобится автоматическое введение большого количества капчи (например подключение Antigate для этой задачи). Данный фактор, при неоптимальном алгоритме парсинга, может сделать сам парсинг нерентабельным, так как стоимость капчи будет чрезмерно высока
  4. Большинство десктопных программ не имеют защиты от потери данных при сборе. Так, например, собрав половину данных и потратив на это деньги, при сбое в парсере, вы рискуете не только не получить оставшиеся данные, но и потерять уже собранные

Парсинг Яндекс Вордстат в Rush Analytics

Учитывая все трудности которые могут возникнуть при парсинге Вордстата, мы сделали свой парсер Wordstat максимально быстрым, удобным и устойчивым к максимальному количеству проблем, связанных с парсингом:

  • Никаких прокси и капчи! Вам больше не нужно думать о бане ваших прокси или огромном количестве капчи, которую выдает Яндекс. Просто создайте проект, загрузите ключевые слова и ждите готовый файл с результатом
  • Высокая скорость парсинга. Наши алгоритмы используют оптимальную схему подключения IP-адресов и другие хитрости, чтобы сделать скорость парсинга феноменально высокой – вы и не заметите, как ваш проект будет выполнен!

  • Сохранность данных. Создавая проект в нашем парсере, вы можете быть уверены, что он будет успешно завершен и доступен для скачивания в любое время и из любой точки мира – все данные хранятся в облаке!
  • Поддержка всех регионов Яндекса. У многих пользователей есть потребность определять частотность запросов в Яндексе не только по региону «Москва» или «Россия», но и по другим, включая «Украину» и «Беларусь». В Rush Analytics вы сможете определить частотность запросов по любому региону, который поддерживает Яндекс на данный момент.

Парсинг вордстат

  • Сбор всех частотностей. С помощью нашего парсера вы сможете собрать все частотности: поисковый запрос, «поисковый запрос», «!поисковый !запрос».

Парсинг вордстат

  • Сбор левой колонки Wordstat. Помимо проверки частотности запросов, доступен сбор ключевых слов из левой колонки Wordstat с настройкой глубины парсинга от одной страницы до сбора всех имеющих в левой колонке страниц.
  • Сбор правой колонки Wordstat. Доступен сбор ключевых слов из правой колонки Wordstat.

Если вам нужен скоростной сбор частотностей Яндекс Wordstat – Rush Analytics лучшее решение, особенно если вам нужно собирать большие объемы данных. Для пользователей с потребностью сбора боле 100 000 запросов в месяц предусмотрены индивидуальные условия, просто напишите в нашу поддержку на support@rush-analytics.ru

www.rush-analytics.ru

How it use

Install phantomjs [http://phantomjs.org/download.html]

<?php   use RubtsovAVYandexWordstatParserParser;  use RubtsovAVYandexWordstatParserQuery;  use RubtsovAVYandexWordstatParserYandexUser;  use RubtsovAVYandexWordstatParserCaptchaInterface;  use RubtsovAVYandexWordstatParserBrowserReactPhantomJs;  use RubtsovAVYandexWordstatParserProxyHttp as HttpProxy;   $yandexUser = new YandexUser('test12345678902017', 'test1234567890', __DIR__ . '/storage');  $proxy = new HttpProxy('1.179.198.17', 8080);    $browser = new ReactPhantomJs();  $browser->setProxy($proxy); // optional  $browser->setTimeout(60); // in seconds (120 by default)  $browser->setCaptchaSolver(function($captcha) {  $image = file_get_contents($captcha->getImageUri());  file_put_contents(__DIR__ . '/captcha.jpg', $image);  file_put_contents(__DIR__ . '/captchaAnswer.txt', '');   echo "The captcha image was save to captcha.jpg. Write the answer in captchaAnswer.txtn";  $answer = '';  while (!$answer) {  $answer = file_get_contents(__DIR__ . '/captchaAnswer.txt');  $answer = trim($answer);  sleep(1);  }  echo "The captcha answer is '$answer'n";  $captcha->setAnswer($answer);  return true;  });   $parser = new Parser($browser, $yandexUser);   $query = new Query('купить диван');  $result = $parser->query($query);   print_r($result->toArray());  

Output

Array (  [impressions] => 652525  [includingPhrases] => Array  (  [0] => Array  (  [impressions] => 652525  [words] => купить диван  )   [1] => Array  (  [impressions] => 105444  [words] => купить диван недорого  )   [2] => Array  (  [impressions] => 79061  [words] => купить угловой диван  )   [3] => Array  (  [impressions] => 70062  [words] => купить диван +в москве  )   [4] => Array  (  [impressions] => 45905  [words] => купить диван кровать  )   [5] => Array  (  [impressions] => 45824  [words] => купить диван +в спб  )   [6] => Array  (  [impressions] => 26833  [words] => купить диван +от производителя  )   [7] => Array  (  [impressions] => 25078  [words] => купить диван недорого +в москве  )   [8] => Array  (  [impressions] => 23786  [words] => купить диван дешево  )   [9] => Array  (  [impressions] => 21915  [words] => купить диван +в магазине  )   [10] => Array  (  [impressions] => 20965  [words] => где купить диван  )   [11] => Array  (  [impressions] => 20343  [words] => купить диван распродажа  )   [12] => Array  (  [impressions] => 20336  [words] => купить диван бу  )   [13] => Array  (  [impressions] => 19286  [words] => купить чехол +на диван  )   [14] => Array  (  [impressions] => 18754  [words] => купить диван цена  )   [15] => Array  (  [impressions] => 17924  [words] => купить диван +в интернете  )   [16] => Array  (  [impressions] => 16862  [words] => диван купить +в интернет магазине  )   [17] => Array  (  [impressions] => 16817  [words] => купить диван +на авито  )   [18] => Array  (  [impressions] => 16603  [words] => купить диван аккордеон  )   [19] => Array  (  [impressions] => 16347  [words] => кресло диван купить  )   [20] => Array  (  [impressions] => 16131  [words] => купить диван +от производителя недорого  )   [21] => Array  (  [impressions] => 15518  [words] => купить диван б +у  )   [22] => Array  (  [impressions] => 14161  [words] => купить диван недорого распродажа  )   [23] => Array  (  [impressions] => 12859  [words] => купить диван со  )   [24] => Array  (  [impressions] => 11796  [words] => купить диван +в спб недорого  )   [25] => Array  (  [impressions] => 11736  [words] => купить детский диван  )   [26] => Array  (  [impressions] => 11686  [words] => купить угловой диван недорого  )   [27] => Array  (  [impressions] => 11598  [words] => купить спальный диван  )   [28] => Array  (  [impressions] => 11365  [words] => купить диван +в минске  )   [29] => Array  (  [impressions] => 11168  [words] => купить кожаный диван  )   [30] => Array  (  [impressions] => 10760  [words] => купить диван +в екатеринбурге  )   [31] => Array  (  [impressions] => 10721  [words] => диван книжка купить  )   [32] => Array  (  [impressions] => 10403  [words] => купить диван спальным местом  )   [33] => Array  (  [impressions] => 10176  [words] => купить диван еврокнижка  )   [34] => Array  (  [impressions] => 9771  [words] => мебель купить диван  )   [35] => Array  (  [impressions] => 9456  [words] => купить диван трансформер  )   [36] => Array  (  [impressions] => 9247  [words] => купить диван +в москве распродажа  )   [37] => Array  (  [impressions] => 8978  [words] => купить диван +на кухню  )   [38] => Array  (  [impressions] => 8954  [words] => купить диван +с доставкой  )   [39] => Array  (  [impressions] => 8781  [words] => диван недорого купить +в магазине  )   [40] => Array  (  [impressions] => 8726  [words] => купить ортопедический диван  )   [41] => Array  (  [impressions] => 8708  [words] => купить диван со спальным местом  )   [42] => Array  (  [impressions] => 8386  [words] => купить раскладной диван  )   [43] => Array  (  [impressions] => 8214  [words] => купить прямой диван  )   [44] => Array  (  [impressions] => 8160  [words] => купить диван распродажа производителя  )   [45] => Array  (  [impressions] => 8152  [words] => купить диван +в спб +от производителя  )   [46] => Array  (  [impressions] => 8129  [words] => купить диван недорого +в интернет  )   [47] => Array  (  [impressions] => 8002  [words] => купить диван +в интернет магазине недорого  )   [48] => Array  (  [impressions] => 7845  [words] => купить угловой диван +в москве  )   [49] => Array  (  [impressions] => 7814  [words] => купить кухонный диван  )   )   [phrasesAssociations] => Array  (  [0] => Array  (  [impressions] => 166393  [words] => недорогой диван  )   [1] => Array  (  [impressions] => 334155  [words] => угловой диван  )   [2] => Array  (  [impressions] => 50658  [words] => дешевый диван  )   [3] => Array  (  [impressions] => 5583  [words] => диван hoff  )   [4] => Array  (  [impressions] => 38596  [words] => диван еврокнижка  )   [5] => Array  (  [impressions] => 70738  [words] => диван распродажа  )   [6] => Array  (  [impressions] => 261011  [words] => мягкий мебель  )   [7] => Array  (  [impressions] => 41784  [words] => диван прямой  )   [8] => Array  (  [impressions] => 170507  [words] => диван цена  )   [9] => Array  (  [impressions] => 61144  [words] => диван аккордеон  )   [10] => Array  (  [impressions] => 824487  [words] => шкаф купе  )   [11] => Array  (  [impressions] => 55671  [words] => диван производитель  )   [12] => Array  (  [impressions] => 650078  [words] => купить кровать  )   [13] => Array  (  [impressions] => 186016  [words] => диван кровать  )   [14] => Array  (  [impressions] => 474379  [words] => много мебель  )   [15] => Array  (  [impressions] => 19722  [words] => недорогой угловой диван  )   [16] => Array  (  [impressions] => 134886  [words] => диван москва  )   [17] => Array  (  [impressions] => 37230  [words] => диван книжка  )   [18] => Array  (  [impressions] => 140283  [words] => диван каталог  )   [19] => Array  (  [impressions] => 141  [words] => угловой ортопедический диван кровать  )   )   [lastUpdate] => 1531094400  [nextPageExists] => 1 )  

github.com

// вбиваем ключевое слово, по которому хотим парсить $key = “бабло”; $key = urlencode($key); // открываем бесконечный цикл, когда слова кончатся мы его прервём for ($k = 0; $k > -1; $k = $k+50) { $url = “http://direct.yandex.ru/stat/wordsstat.pl?checkboxes=0 //перенёс строчку, сбивается разметка &key=&pg=$k&regions=&rpt=ppc&shw=1&text=$key&tm=”; sleep (2); // задержка в секундах, чтобы особо не палиться // дальше функции для работы с Curl, описывать не буду каждую // гугл в помощь $ch = curl_init (); curl_setopt ($ch , CURLOPT_URL , $url); curl_setopt ($ch , CURLOPT_USERAGENT , “Mozilla/5.0 (Windows; U; Windows NT 5.1; ru-RU; rv:1.7.12) Gecko/20050919 Firefox/1.0.7″); curl_setopt ($ch , CURLOPT_RETURNTRANSFER , 1 ); $content = curl_exec($ch); // здесь загруженная страница curl_close($ch); // на всякий случай для правильной кодировки echo “<meta http-equiv=’Content-Type’ content=’text/html; charset=utf-8′ />”; // а вот тут самое интересное: если на странице нет точного “>следующая” // то значит у Яшки кончился словарный запас и он нам больше нафиг не нужен // выходим из цикла // а если нет вхождения, то парсим дальше if (!stristr($content,”>следующая”)) { // preg_match_all — используем регулярные выражения и выдираем нужное // Если не забьёте на это дело, то ОБЯЗАТЕЛЬНО разберитесь // как они работают // офигенно мощный и незаменимый инструмент // $matches[1][$i] — все ключи //$matches[2][$i] — частота слов preg_match_all(”/<td><a href=”.*”>(.*)</a></td>.*<td align=”right”>(.*)</td>/isU”, $content, $matches, PREG_PATTERN_ORDER); //выводим массив с ключами for ($i = 0; $i < count($matches[1]); $i++) { echo $matches[1][$i].”<br>”; } echo “Все, слова кончились и выходим”; break; } else { preg_match_all(”/<td><a href=”.*”>(.*)</a></td>.*<td align=”right”>(.*)</td>/isU”, $content, $matches, PREG_PATTERN_ORDER); for ($i = 0; $i < count($matches[1]); $i++) { echo $matches[1][$i].”<br>”; } } } 

www.seoded.ru

Бан wordstat

Злоупотребление сервисом, который изначально был создан для пользователей рекламной площадки «директ», приводит к бану по IP. На такие меры сотрудники Yandex были вынуждены пойти ещё в 2012 году, однако сейчас их злость разрослась — даже использование XML методов уже не спасает. В результате появляется следующая ошибка:
Запрет на использование wordstat парсинге

Кстати, забугорный Google также весьма ревностно относится к излишнему внимаю к своим ресурсам:
Блокировка сервиса Google

Правильный парсинг частотностей

Ситуации бывают разные — иногда нужно в короткие сроки узнать популярность довольно большого количества ключевых слов. Если делать это с стандартными настройками большинства программ — бан обеспечен. Ниже я приведу несколько способов, которые позволят дышать свободнее при работе с вордстатом.

Уменьшение количества запросов

У Яндекса существуют критерии частоты обращения, по которым он и определят реальный человек пользуется сервисом, или все же автоматическая программа. Во внимание берется промежуток в час, а также суточное время и количество секунд между самими действиями. Естественно, что максимальные планки не открыты, однако методом проб и ошибок удалось выявить более оптимальные:
Количество потоков — 1
Задержка между запросами — от 15 до 21 секунды
Такие простые на первый взгляд функции помогут весьма сэкономить ваши нервы. Если же в используемом софте этих возможностей нет, тогда предлагают почитать информацию ниже.

Получение данных в обход вордстата

Существует платный сервис APIShops, который весьма облегчит работу парсинга. Во первых — высокая скорость, во вторых — актуальность информации. Но есть одно НО — вы сможете узнать частоту слов без учета региональности. Некоторые программные скрипты также напрямую могут работать с указанной системой.

Прокси сервера

Пожалуй один из самых старейших способов обхода санкций как в SEO (белая технология и серая оптимизация сайтов), так и в спаме. Суть в том, что информация посылается со сторонних IP адресов — это делает ваше прибывание в интернете незаметным. Есть два метода взаимодействия с proxy: Бесплатный (малая скорость, небольшое время действия) и Платный (дорого, быстро, стабильно). Можно поискать услуги у фрилансеров, либо у компаний — цены разнятся в десятки раз. Способ требует наличие спец софта для взаимодействия технологии. Также существует проект seo-proxy.ru , который выполняет все автоматически (нужна синхронизация в программе), но платно и не совсем стабильно — в связи с обновлениями поисковых алгоритмов возможна неработоспособность.

Словили бан — пишем Платону

Ничего и никогда вас на 100% не застрахует от санкции. Если же вам таковую наложили, то есть верный способ — написать письмо в тех поддержку по адресу block.yandex.ru/possiblereasons.shtml . Многие советуют подождать — но лучше все же действовать, что бы не потерять время.

Содержание письма может быть следующим:
Добрый день,
Мой компьютер был заражен вирусами. Возможно, их действие как раз и вызвало многочисленные запросы к сервисам Яндекс.
На данный момент компьютер полностью проверен на вирусные угрозы, все вредоносные программы были удален.
Прошу разблокировать доступ к сервисам Яндекс.
Спасибо за программу «Касперский от Яндекса», которой и удалось избавиться более чем от 100 различных угроз.
В дальнейшем постараюсь уделить большее внимание к защите компьютера.
С уважением, TekSeo

Ответы технической поддержки Yandex

Однажды я запустил программу на сканирование более чем 500 ключевых слов в вордстате. После этого мне был вынесен бан. На вопрос о причине ограничения доступа сотрудники поисковой системы мне ответили следующее:
«С IP-адреса xx.xx.xxx.xx было зафиксировано большое количество автоматических запросов к сервисам Яндекса.
Отправка автоматических запросов противоречит Лицензии на использование поисковой системы Яндекса ( rules.yandex.ru/termsofuse.xml ). Поэтому доступ к поиску для адреса xx.xx.xxx.xx был временно заблокирован.
После устранения роботной активности доступ к поиску будет автоматически восстановлен.»

Аналогичный ответ другого сотрудника:
«С Вашего компьютера к поиску Яндекса было зафиксировано большое количество поисковых запросов служебного характера и/или с частотой, недоступной человеку.
Возможно, Вы используете программное обеспечение или дополнительные плагины к браузерам, производящие автоматические запросы к поиску, что противоречит Лицензии на использование поисковой системы Яндекса ( http://rules.yandex.ru/termsofuse.xml ). В этом случае, чтобы снова использовать поиск Яндекса, Вам необходимо отключить программное обеспечение, плагины, тулбары и т.д., которые могут задавать такого рода запросы нашему поиску, а также ограничить количество производимых вручную служебных запросов.
Если же Вы не задавали запросов такого рода, то, пожалуйста, проверьте Ваш компьютер антивирусом, поскольку они могут задаваться каким-либо плагином к браузеру или иной программой без Вашего ведома.»

XML нынче не тот

Ранее оптимизаторы справлялись с проблемами большого количества обращений при помощи сервиса XML, однако нынче он утрачивает своё влияние. Сотрудники Яндекса все чаще указывают обратить внимание на «API Директ»:
«Добрый день!
Благодарим Вас за обращение!
В настоящее время доступ к сервису «Подбор слов» для Вас восстановлен. Проверьте, пожалуйста.
Напоминаем, что в соответствии с нашей политикой, массовое использование сторонних программ автоматизации запрещено.
Мы рекомендуем использовать API Директа (методы запросов к Подбору слов).
Если у Вас возникнут дополнительные вопросы, Вы можете задать их ответным письмом или по телефонам службы поддержки. Мы будем рады Вам помочь!»

То, что ранее было бесплатно планируется монетизировать. Возможно это произойдет ещё и не скоро, но явные предпосылки к этому имеются. На вопрос и неработоспособности вордстата Яндексоид об этом пряма и сказал:
«Вы можете использовать API Яндекс.Директа (http://api.yandex.ru/direct/) для
работы со статистикой сервиса подбора слов. Объем обрабатываемой информации
ограничен только количеством баллов на Вашем логине. Количество баллов
рассчитывается автоматически исходя из бюджета заказа, количества и
эффективности фраз, а также многих других факторов.»

Подытожим

Поисковая система позволяет найти информацию в контенте миллионов сайтов. При этом, чем быстрее вы найдете реферат, фильм, музыку, фирму или другие данные, тем более качественным считается механизм алгоритма работы скриптов. Оптимизаторы же выводят в ТОП те проекты, владельцы которых выделяют бюджеты на SEO, но при этом сами ресурсы могут не соответствовать искомым фразам. Это засоряет выдачу и увеличивает время на нахождение желаемого. В этом случае оправданы действия специалистов Яндекса и Гугла по вынесению бана wordstat, которые лишний раз пытаются затруднить работу SEOшников. Помните — все изменения делаются для пользователей. Старайтесь следовать правилам белого продвижения и вы будете вознаграждены достигнутыми целями и избежите всевозможных санкций.

tekseo.su

Понятно, что перед тем как продвигать сайт, нужно определиться с ключевиками. Подбор ключевых слов это не сложный, но кропотливый труд. Для того же чтоб найти что-то стоящее, нужно перелопатить кучу данных. Поэтому здесь не обойтись без средств автоматизации процесса. В данной заметке я хочу остановиться на создании PHP парсера данных с wordstat Яндекс.

Бесплатный PHP парсер wordstat Яндекс

И так. Основная проблема при парсинге данных с сервиса статистики ключевых слов wordstat Яндекс заключается в наличии капчи. Обойти ее не так уж и сложно. Достаточно передать в запросе куку fuid01, генерируемую при обработки капчи. Другими словами, вам понадобится зайти на сервис, сделать запрос, указав символы с картинки и получить содержание требуемой куки.

Как получить содержание куки fuid01 в браузере Firefox?

Т.к. я не собираюсь замахиваться на эпосы и прочие великие труды человечества, то опишу лишь процесс получения содержания куки fuid01 в браузере Firefox (использую версию 8.0). В общем, запускаем Firefox. Считаем, что запрос в wordstat уже сделан и кука создана. Жмем кнопку «Firefox» в левом верхнем углу окна браузера. В меню выбираем: Настройки > Настройки (я ничего не путаю).

Firefox Настройки

В открывшемся окне «Настройки», переходим на вкладку «Приватность». Здесь нас интересует блок «История». Выбираем в списке Firefox «будет использовать ваши настройки хранения истории» и жмем появившуюся кнопку «Показать куки…».

Firefox Показать куки...

В окне «Куки», в поле «Поиск» введите имя интересующей нас куки, т.е. «fuid01». В списке должно отобразиться найденное. Выберите одну из предложенных кук и в поле информации, выделите и скопируйте ее «Содержимое».

Firefox копируем Содержимое куки

Как работать с PHP парсером wordstat Яндекс

Бесплатно скачать PHP парсер wordstat Яндекс можно здесь. Сразу скажу, что это лишь пример, работа которого заключается в парсинге ключевых слов и выводе их на экран, но все по порядку.

Первое, что вам надо понять – все данные представлены в кодировке UTF-8. Так что если что не забудьте сконвертировать данные. Более того, на некоторых серверах с этим может возникнуть проблема, подробней читайте тут. Следующий нюанс заключается в том, что для работы скрипта понадобится поддержка cURL. В остальном все достаточно просто.

Содержание куки fuid01 мы присваиваем переменной $fuid01. По сути, это значение задается в curl_setopt() через CURLOPT_COOKIE, но для удобства я вывел его отдельно. Далее нас интересует массив $params — это переменные, передаваемые в запросе к wordstat Яндекс. В качестве примера я ограничился простейшим вариантом, так что обошлось без динамики. В частности, парсится только первая страница выдачи: 'page' => 1, значение text получается через GET, ну а для региона выбрана Москва: 'geo' => 1.

Понятно, что идентификатор региона, в случае если нужен другой, придется уточнять. Для этого заходим на wordstat Яндекс, кликаем ссылку «Уточнить регион…» и выбираем требуемое.

Выбор региона в wordstat Яндекс

Сделав запрос, в URL надо посмотреть значение требуемого параметра. Следует отметить, что если выбрано более одного региона, их идентификаторы будут перечислены через запятую.

Дальше идет запрос к сервису статистики и парсинг данных wordstat Яндекс. Последнее имеет один небольшой нюанс. Дело в том, что wordstat Яндекс выводит статистику в виде двух таблиц: «что искали со словом…» и «что еще искали люди, искавшие…» — я же использовал только первую. Впрочем, там нет ничего сложного. Регулярные выражения достаточно простые. Думаю, разберетесь. Удачи!

wmas.msk.ru


You May Also Like

About the Author: admind

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.