Парсер yandex


Написание парсеров сайтов — мое любимое занятие. Вот решил поделиться своими знаниями и с читателями. Написал за 15 минут простейший парсер поисковой выдачи Яндекса.

Сразу объясняю некоторые моменты:

Дело в том, что для парсинга я буду использовать DOM и xpath, но библиотека libxml не понимает современный способ обозначения кодировки страницы в стиле html5, но кодировку нам указать необходимо, чтобы DOM адекватно «вытащил» русский текст.

Теперь, собственно, немного кода, который и даст нам нужный результат.

Теперь все три куска кода можете положить в один файл и запустить.
Дальше вы сами уже можете и с пейджингом разобраться и придумать как обходить защиту Яндекса.

Для того, чтобы доработать парсер до какого-то внятного вида, вам хорошо бы разобраться с cURL и xpath.


Кроме того, если у Яндекса верстка валидная и нам не нужно ее чистить, то для приведения верстки к адекватному виду перед парсингом других сайтов рекомендую использовать tidy.

Напоминаю — код писал на коленке, для примера. Если есть какие-то вопросы, то прошу в комментарии, я с удовольствием на них отвечу.

Для удобства весь код положил в один файлик.

UPD. 22.11.2013: чтобы за один заход брать больше позиций, то надо немного подправить запрос к яндексу.
Итог:

UPD. 21.01.2013: Яндекс обновил немного верстку, поэтому пришлось подправить пару xpath запросов:
1. Было: $serp_items = $xpath->query(‘//li[@class=»b-serp-item»]’);
Стало: $serp_items = $xpath->query(‘//li[contains(@class, «b-serp-item»)]’);
Будет немного медленней работать из-за использования функции contains.

2. Было: $header_obj = $xpath->query(‘./div/h2’, $item)->item(0);
Стало: $header_obj = $xpath->query(‘./h2’, $item)->item(0);

UPD. 27.08.2014: Выдача яндекса изменилась, изменились и xpath запросы. Тестировать довольно сложно, ибо яндекс капчу выдает практически сразу, так что код несет больше академический интерес, нежели практический смысл. Для адекватной работы надо делать постраничный парсинг, учет капчи и прочие плюшки. Спасибо mari за комментарий.


Код в файле обновил. Если вдруг заметите, что возвращается пустой массив или появляются другие ошибки — напишите коммент, пожалуйста, с указанием тестируемого запроса и вашим регионом в Яндексе, если он отличен от Москвы (213). Так я смогу поддерживать в актуальном состоянии парсер Яндекса и другие читатели смогут использовать рабочий код.

glebov-gin.blogspot.com

Часто возникает необходимость собрать контакты по ключевым словам. Для этой цели сделан наш парсер выдачи Яндекса по ключевым словам. Он собирает контакты, которые выдает Яндекс прямо в сниппетах результатов поиска. Кроме того, парсер может заходить на сайты, и искать там электронную почту (email). Ключевые слова можно задавать списком, и парсер будет последовательно обходить все заданные ключевые слова по заданным регионам.

Результат работы программы: база email и телефонов, сегментированная по запросам и регионам.

Предлагаемая нами программа-парсер базы емейл и телефонов из Яндекса, позволяет собирать следующую информацию:

  • Запрос (ключевое слово)
  • Регион
  • Ссылка на сайт
  • Домен из ссылки
  • Адрес электронной почты (email) с сайта
  • Адрес компании
  • Код телефона
  • Номер телефона
  • Номер позиции
  • Номер страницы

Программа умеет работать с сервисом автоматического распознавания капчи для разгадки выдаваемых Яндексом картинок. Вам необходимо иметь аккаунт в этом сервисе для пользования парсером. Программа позволяет задать интервал между запросами к сервису, для снижения интенсивности появления капчи. Кроме того, имеется возможность регулировать количество выгружаемых страниц выдачи для каждого ключевого слова.

Программа умеет заходить на сайты, и искать там адреса электронной почты. Вы можете задать лимит страниц, которые будут загружаться на каждом сайте (по умолчанию программа просмотрит 10 страниц). Для того, чтобы страницы контактов с большей вероятностью попали в заданный лимит, и были просканированы, сделан список приоритетных маркеров, которые программа ищет в ссылках. Например, если в ссылке программа найдет слово «контакты», она передвинет ссылку в начало списка найденных ссылок (без этого, ссылка может оказаться на 11м месте, и при лимите в 10 ссылок, она не будет просмотрена). Посмотреть и изменить список приоритетных маркеров можно в файле prioritymarkers в папке программы. Для того, чтобы сэкономить время на сканировании бесполезных с точки зрения поиска ящиков сайтов (например VK.com), есть список блокируемых доменов, на которых сканирование почты не производится. Посмотреть и изменить список таких доменов можно в файле stopdomains в папке программы.
Функция поиска электронной почты на сайтах является подключаемой — установите галочку сканирования, чтобы программа заходила на сайты.
В результате, при выгрузке данных в режиме сканирования почты на сайтах, Вы получаете список ящиков Email по нужным Вам запросам.


После завершения работы программы файл с результатами автоматически открывается в Excel (если установлен MS Office) или Calc (если установлен OpenOffice). Файл имеет имя вида results-***.csv. Результатом сбора являются такие файлы: пример файла с выгрузкой контактов из выдачи Яндекса.

 

Программа очень проста в использовании и имеет интуитивно понятный интерфейс.

Скриншот парсера поисковой выдачи Яндекса

Скачать демо-версию парсера выдачи Яндекса по запросам
 

Программа умеет приостанавливать свою работу, и продолжать её. Паузу можно включать вручную, а если отключится интернет — программа поставит себя на паузу автоматически. Если во время сбора на сайте возникнет ошибка, и программа не сможет получить данные — она поставит себя на паузу на некоторое время, затем автоматически проснется и сделает еще несколько попыток получить те же данные.

Два индикатора показывают ход выполнения работы. Синий показывает прогресс по списку заданных регионов, зеленый индикатор показывает прогресс по списку заданных ключевых слов.

Стоимость парсера сегодня: 5.0003.000р!


100% безопасности!

Чтобы приобрести нашу программу для выгрузки контактов из поисковой выдачи Яндекса по заданному списку запросов и регионов, укажите в данной форме имя, email, и способ оплаты (Webmoney / ЯД / Paypal / Liqpay / Qiwi / Visa / Mastercard / наличные / другое). После нажатия кнопки «Заказать!» вы получите на указанный ящик ДЕМО-версию и все подробности об условиях приобретения программы, о процедуре оплаты, о техподдержке и обновлениях.

 

Хотите заказать подобную программу для других сайтов —  закажите у нас создание парсера.

Заказать разработку парсера!

soksaitov.ru

Что такое Яндекс.XML

Яндекс.XML — сервис, позволяющий отправлять запросы к поисковой базе Яндекса и получать ответы в формате XML.

 

Полезные ссылки :

  1. Официальная документация Яндекс.XML
  2. Новые правила использования Яндекс.XML
  3. Яндекс.XML: автоматизация получения данных о часовых ограничениях

Сервис является бесплатным и позволяет:


  • организовать поиск по сайту или порталу;
  • создать приложение, которое использует возможности поиска, например — определение позиций вашего сайта, анализ поисковой выдачи и тд.

Для того чтобы воспользоваться сервисом Яндекс.XML необходимо перейти по адресу: https://xml.yandex.ru/settings/ и ввести в форме авторизации данные вашей учетной записи в поисковой системе, проще говоря — доступы от почтового ящика. После авторизации, вы окажитесь в разделе «Настройка».

Интерфейс сервиса интуитивно понятен и вам не составит труда разобраться в нём. Обратите внимание на пункт «URL для запросов». В нем вы можете увидеть следующие параметры:

  • «user» — имя пользователя, которые вы ввели при авторизации;
  • «key»  —  система автоматически сгенерирует этот параметр.

Каждый раз при отправке запросов, вам необходимо будет указывать эти параметры.

Поле «Основной IP-адрес» — вводим IP, с которого будут отправляться запросы. Например: IP-адрес домена сайта.

Яндекс.XML предоставляет доступы к трем типам поиска:

  • русскому;
  • турецкому;
  • мировому.

В отличие от прямого парсинга страницы поиска, Яндекс.XML предотвращает различные запреты поисковой системы в виде капчи, но существуют лимиты на запросы.

 

Яндекс.XML лимиты

Лимит Яндекс.XML — ограничение на количество запросов к базе поисковой системы. Каждому подтвержденному в вебмастере сайту поисковая система выделяет определенное количество лимитов, это число зависит от качества сайта.

Обращаем ваше внимание, если право на управление сайтом подтвердили несколько пользователей, лимиты получает только первый владелец сайта.

Перейдем в раздел «Лимиты». Здесь можно увидеть общее количество лимитов в день, а также количество лимитов по подтвержденным сайтам.

Также существует ограничение по количеству отправляемых запросов в сутки. Внизу страницы представлена диаграмма, в которой указано количество лимитов, которое можно потратить каждый час.

 

Как пользоваться Яндекс.XML: парсер поисковой выдачи Яндекс


Каждый день SEO-специалист анализирует большой объем информации с совершенно разных источников: это могут быть как сайты конкурентов, так и результаты выдачи поисковых систем и тд. Использование Яндекс.XML  в своей работе может значительно упростить процесс анализа выдачи.

Для того чтобы понять принципы использования Яндекс.XML на практике мы реализуем простое и популярное приложение «Парсер подсветок сниппета», но помните — все зависит от ваших целей, поэтому анализировать выдачу можно по совершенно различным критериям.

Для реализации парсера (кроме Яндекс.XML и основ знаний по языку PHP) необходимо будет скачать библиотеку PHP Simple HTML DOM Parser. А также нам нужен домен и место на хостинге, на котором будут хранится файлы скриптов. И так, приступим.

Этап 1. Яндекс.XML: настройка

Сначала пройдите авторизацию. Для этого переходим в сервис xml.yandex.ru, нажимаем на кнопку «Начать работу» и вводим свои доступы.

Переходим в раздел «Настройки». В поле «Основной IP-адрес» вводим IP сайта с которого будут отправляться запросы,  поле «Тип поиска» выбираем «русский», ставим галочку «Я принимаю условия Лицензионного соглашения» и нажимаем на кнопку «Сохранить».

2 Этап. Формирование тестового запроса

Переходим в раздел «Тестовый запрос». Формируем значения  параметров и получаем конечный запрос.

В примере, мы будем использовать запрос вида: https://yandex.ru/search/xml?user=Login&key=Api-key&query=Test&lr=193

где:


  • Login — имя пользователя;
  • Api-key— API-ключ;
  • Test— текст поискового запроса;
  • Идентификатор страны/региона поиска — по умолчанию будем использовать 193 (Воронеж).

Сформированный запрос уже можно использовать, для этого достаточно вставить его в строку браузера. Кстати, если воспользоваться данным запросом с другого IP, мы получим следующий результат:

Этап 3. Создание страницы

В папке на вашем хостинге создаем страницу (yandex.php). Для удобства пользования предусмотрим 2 поля:

  • поля ввода поискового запроса;
  • список для выбора региона поиска (в нашем случае их два: Москва и Воронеж).

Код страницы, который можно просто скопировать:

Этап 3. Подключение парсера

Далее в эту папку необходимо закинуть файл парсера (simple_html_dom.php), а также создать вторую страницу(yandex-result.php), ниже приложен код с комментариями (надеюсь, вопросов не возникнет).

Код страницы, который можно просто скопировать:

Этап 3. Результат

В итоге на хостинге в папке должны находиться следующие файлы:

  • yandex.php
  • simple_html_dom.php
  • yandex-result.php

Далее обращается к файлу на вашем хостинге с именем yandex.php, вводим необходимый поисковой запрос и выбираем регион:

После нажатия на кнопку «Отправить», в текстовом поле отобразиться результат поисковой выдачи только в формате XML:

Если мы проанализируем полученный результат мы увидим, что:

  • ссылка на сайт содержится в тегах <url>;
  • заголовок сниппета содержится в теге <title>;
  • описание сниппета содержится в теге <passage>;
  • а необходимые нам слова из подсветок содержаться в теге <hlword>.

И вот теперь нам нужен парсер, который поможет получить необходимые нам значения из этих тегов. Дописываем код на нашей странице (yandex-result.php), которая будет парсить только слова в тегах <hlword>.

Код страницы, который можно просто скопировать:

Вновь запускаем страницу yandex.php с теми же параметрами:

Теперь мы можем считать, что результат достигнут, мы реализовали с вами «Парсер подсветок в поисковой системе Яндекс». Для ленивых прикладываю архив со скриптами (скачать бесплатно).

Для того чтобы улучшить результат, можно привести слова к начальной форме с помощью алгоритма phpMorphy , а также исключить повторяющиеся слова.

Удачи!

semantica.in

Создаем шаблон парсера Яндекс Маркет за 30 минут. Быстрый старт для новичка.

Всё начинается с создания нового проекта, далее нам необходимо добавить действие перехода на страницу, а точнее категорию товаров, данные которых мы будем собирать.
Ссылку на категорию мы будем указывать во входящих настройках при запуске шаблона. Создаём InputSettings и добавляем туда текстовое поле.

Парсер yandex

Но перед тем, как продолжить нам необходимо изучить пациента и выстроить логику работы. Для примера возьмём каталог мобильных телефонов.
Зайдя на страницу, первое на что я обратил внимание – это количество отображаемых позиций: 12. Их определённо необходимо увеличить.
Сделать это мы можем с помощью переключателя:

Парсер yandex

Так же мы видим 2 варианта перехода на следующую страницу:

  • Подгрузка данных
  • Классический постраничный листинг

Я выбираю второй вариант т.к. если выбрать первый, в процессе работы браузер может начать тормозить или вовсе зависнуть от большого количества данных с которым Ваш ПК не справится.

И, пожалуй, изменим вид отображения так как нам нужны ещё и краткие характеристики товара.

Парсер yandex

Стоит заметить, что при клике на иконку, изменился URL нашей страницы. Появился параметр: viewtype=list

Парсер yandex

И вместо того, чтобы эмулировать нажатие иконки для смены вида отображения, мы просто подставим данную конструкцию в URL изначально.

Добавляем действие перехода на страницу, где в качестве ссылки мы указываем:

Сразу выполняем этот кубик и продолжаем работу прямо во внутреннем браузере Project Maker. Теперь нам необходимо добавить 2 действия клика для смены кол-ва видимых позиций.
Парсер yandex
Исследуем элемент выпадающего списка и пробегаем по его свойству и древу в целом.
Парсер yandex
Наша задача – определить параметр(ы) для поиска нужного нам элемента на странице. Желательно чтобы в найденных отображался только он. Я остановился на таких значениях:
Парсер yandex
Жмём кнопку “Добавить в проект”. Далее делаем тоже самое для выпадающего списка, пункта “Показывать по 24”.
Парсер yandex
При таком раскладе у нас находится 2 элемента, а нам нужен один. Поэтому я решил добавить ещё параметр поиска. Для этого так же жмём “Добавить в проект” и щелкаем 2 раза левой кнопкой мыши по ново-созданному кубику.

И в условиях я указал:

  • Группа: 0
  • Атрибут: innerHtml
  • Тип поиска: regexp
  • Значение: 24
  • Номер совпадения: 0

Парсер yandex

А для нашего первого условия поменял номер совпадения с 0 на “0-end”. Это было сделано для того, чтобы если вдруг изменится набор пунктов, поиск проходил не только по первой позиции, а по всем пунктам от начала и до конца. Подробнее о диапазонах читайте здесь: https://zennolab.com/wiki/ru:ranges

О правильном поиске элементов Вы можете прочитать в одной из конкурсных статей: Правильный поиск элементов на странице и работа с ними! Основы и хитрости! Должен знать каждый!

Переходим непосредственно к парсингу. В рамках данной статьи собирать данные мы будем только со сниппетов карточек товаров т.е. не переходя на саму страницу.

А именно: Наименование, Цена, Категория и подкатегория, Характеристики (краткие), Фотография и Ссылка на товаров в Я.М.

Из всего набора данных один из параметров является статичным, поэтому его нужно будет спарсить только один раз – это (под)категория.

Расположение которой находится в самом вверху и именуется, как “Хлебные крошки”. Чтобы удобнее было распарсить всё это дело, предлагаю положить фрагмент этого HTML кода в отдельную переменную, путём исследования элемента по условиям:

  • Группа: 0
  • Атрибут: id
  • Тип поиска: text
  • Значение: n-breadcrumbs
  • Номер совпадения: 0

И действием GET, где атрибут outerhtml.

Парсер yandex

Если мы не изменим переменную назначения, данные попадут в автоматически созданную. Теперь нам необходимо получить названия ссылок и отправить их в переменную “cat”.

Делать мы это будем с помощью регулярных выражений. Если Вы не умеете с ним работать, рекомендуем ознакомиться с этими статьями:

  • Регулярные выражения, что это такое и с чем их едят?
  • ZennoLab Wiki: Регулярные выражения

Так же в ProjectMaker есть удобный конструктор регулярных выражений, где Вы можете просто заполнить соответствующие поля и регулярка сформируется автоматически.
Добавляем кубик обработки текста, а в опциях выбираем Regex.
Итоговое регулярное выражение:

Парсер yandex

 

Так как нужна вся иерархия, забираем “Все” и кладем в список.
Следующим шагом объединяем в переменную “cat” и очищаем список.
А куда мы будем складывать данные? Пора создать файл сделать привязку.
Создаём таблицу “Файл экспорта” и делаем, как на скриншоте:
Парсер yandex
Отлично! Добавляем действие -> Таблицы –> Операции над таблицей, в опциях выбираем «Привязать к файлу».
Путь:

Где последний тег – это время.
Файл будет выглядеть примерно следующим образом: Электроника-Телефоны и аксессуары к ним-Мобильные телефоны[03-11-17].csv
Как насчёт заголовков в нашем CSV файле?
Парсер yandex

Между 2-мя этими кубиками следует добавить паузу секунд на 5, чтобы файл успел создаться.

Мы будем парсить по одному сниппету, а далее в цикле разбирать его по косточкам. Вновь возвращаемся к нашему любимому занятию – исследование элемента с GET’ом на атрибут outerhtml. А после жмём по кубику правой кнопкой мыши и выбираем пункт “Повторить в цикле”.

У нас появилась авто-переменная counter0, её необходимо будет добавить в номер совпадения, чтобы по итогу у нас получилось так:

  • Атрибут: class
  • Тип поиска: regexp
  • Значение: n-snippet-card2 b-zone i-bem
  • Номер совпадения: {-Variable.Counter0-}

Парсер yandex

А всё, что попало в {-Variable.0-}, мы кладём в список “Карточки товаров”.

Вот, что у нас получилось:

Парсер yandex

Откуда взялось {count}, спросите Вы. Вместо него должно быть число 24 так как именно столько товарных позиций будет на каждой странице. Но может, например, сломаться селект или что-то не прогрузится и их кол-во не изменится, поэтому имеет смысл сделать программную проверку.

Создадим C# кубик и расположим его перед синим кубиком со скриншота. Его содержимое:

Чтобы его не потерять, выделите код в кубике и нажмите правую кнопку мыши, а далее по пункту “Сохранить в C# сниппет”. Теперь, если появится необходимость в подсчёте элементов, достаточно будет кликнуть «Вставить C# сниппет».

Результат кладём в переменную “count”.
А минус -1 в конце потому, что «машинный счёт” идёт с 0, а не 1. Можно, конечно, построить цикл по-другому или вообще отказаться от него, но об этом в другой раз.
Как только все элементы будут обработаны, можем приступать ко второму циклу – парсингу значений по мини-карточкам товаров, которые сейчас находятся в списке “Карточки товаров”.

Протягиваем красную стрелку от кубика логики к «Получению строки из списка с удалением», которую будем класть в переменную data. А дальше начинается разрабор данные с помощь регулярок.

Название

Цена

После нам необходимо убрать в цене лишние пробелы, чтобы было не так 6 990,  так 6990.
Делаем это с помощью замены текста по Regex, а конкретно {-String.Space-} (пробел) на пустую строку.
Парсер yandex
Характеристики

Но здесь нам необходимо получить все совпадения, а не первое. Поэтому кладём результат в список «Временные данные» и после объединяем элементы в переменную char. По завершению удаляем данные из списка.
Изображение

Ссылка на карточку в Я.М.

В ссылке может быть HTML-сущность, которую необходимо заменить на обычный символ.
Парсер yandex
В переменную yam_link упадёт относительная ссылка. Если же нам нужна абсолютная, добавьте кубик обработки переменных со значением:

Парсер yandex
Финальным шагом мы добавляем полученные данные в нашу таблицу «Файл экспорта», которая привязана к файлу.
Добавить действие -> Таблицы -> Операции над таблицами -> Добавить строку
Далее считаем сколько осталось строк в списке “Карточек товаров” и кубиком логики проверяем, чтобы это значение было > 0. Цикл будет продолжать, пока не будут обработаны все данные.
Парсер yandex
Как только все товары со страницы будут обработаны, пора переходить к следующему листу, протянув красную стрелку к следующему блоку:
Парсер yandex
Первым кубиком мы выводим оповещение в лог.
Далее плюсуем 1 ед. к переменной по подсчёту обработанных страниц.
Щелкаем по кнопке вперёд, как это сделать, я думаю Вы уже знаете, но если у Вас возникнут сложности, в конце статьи будут шаблоны, где Вы сможете подсмотреть решение.

А далее в случае успеха мы переходим к кубику “Считаем кол-во товаров на странице”, продолжая цикл, пока не обработаем все страницы, либо к оповещению о завершении проекта, если элемент не будет найден.

Парсер Яндекс Маркет с помощью XPath для продвинутых пользователей.

Выше описанный вариант – это не единственный способ написания шаблона, но второй способ, что будет изложен ниже, требует определённых навыков, как например знание HTML разметки и базовое понимание C# кода.

XPath —  Это гибкий и мощный язык запросов к элементам xml или (x)html документа и xslt преобразований по DOM, который является стандартом консорциума W3C.

Для тех, кто хочет познакомиться с ним ближе: http://zennolab.com/wiki/ru:xpath

В нашем продвинутом варианте мы заменим все кубики распарса сниппета по регулярным выражениям на поиск значений через XPath. Начнём, пожалуй, с поиска категории по хлебным крошкам.

Где мы забираем все элементы <a> принадлежащие идентификатору n-breadcrumbs в коллекцию.
Далее в цикле получаем каждый элемент и записываем его в переменную «cat«.

Переходим к парсингу характеристик. В данной конструкцию мы избавляемся складирования сниппетов карточек товара в список и производим парсинг в момент обращения к элементу.

// Инициализируем счётчик  int i = Convert.ToInt32(project.Variables["Counter0"].Value);    // ID товара  string itemID = instance.ActiveTab.FindElementByXPath(".//*[contains(@data-id, 'model-')]", i).GetAttribute("data-id").Replace("model-", "");    // Наименование товара  var name = instance.ActiveTab.FindElementByXPath(".//*[contains(@data-id, 'model-"+itemID+"')]//div[contains(@class, '_title')]/a[contains(@class, 'link')]",0);  project.Variables["name"].Value = name.GetAttribute("innertext");    // Цена  var price = instance.ActiveTab.FindElementByXPath(".//*[contains(@data-id, 'model-"+itemID+"')]//div[contains(@class, 'main-price')]/a/*[contains(@class, 'price')]",0);  project.Variables["price"].Value = Regex.Match(price.GetAttribute("innertext"), @"[ds]+").Value.Replace(" ", ""); // Убираем в цене лишнее. Оставляем только цифры.    // Характеристики  project.Variables["char"].Value = string.Empty;  var chars = instance.ActiveTab.FindElementsByXPath(".//*[contains(@data-id, 'model-"+itemID+"')]/div//ul/li");  // Перебериаем коллекцию элементов  foreach(HtmlElement item in chars) {  	project.Variables["char"].Value = string.Format(@"{0}{2}{1}", project.Variables["char"].Value, item.FindChildByXPath(".", 0).InnerText, System.Environment.NewLine);  }  // Удаляем лишние пробелы и отступы  project.Variables["char"].Value = project.Variables["char"].Value.Trim();    // Ссылка на карточку товара в Я.М.  var url = instance.ActiveTab.FindElementByXPath(".//*[contains(@data-id, 'model-"+itemID+"')]//div[contains(@class, '_title')]/a[contains(@class, 'link')]",0);  project.Variables["yam_link"].Value = url.GetAttribute("href");    // Фотография  var photo = instance.ActiveTab.FindElementByXPath(".//*[contains(@data-id, 'model-')]//div/a[contains(@class, '_image')]/img",0);  project.Variables["img"].Value = photo.GetAttribute("src");

Сначала мы получаем кол-во товаров на странице, а далее в цикле прогоняем наш код, где первым делом мы получаем ID товара и подставляем его в каждый запрос, для более точного нахождения элементов. По завершению работы кубика, все данные будут разложены по переменным.

Данная часть написана с целью демонстрации возможностей ZennoPoster для общего понимания, поэтому сложные С# конструкции при написании шаблонов не были использованы.
Если Вы хотите подробнее узнать о базовых C# приемах или XPath — оставьте свой комментарий в обсуждении к данной теме.

Итог

Как Вы видите, с помощью ZennoPoster можно написать шаблон любой сложности при использовании инструментов, как из стандартного набора, так и при применении собственного кода. И необязательно быть программистом.

blog.zennolab.com

Доступные парсера Яндекса:

Парсер Яндекс Маркета
Один из самых популярных парсеров у наших клиентов. Собирает описание товаров из Яндекс Маркета. В качестве входных данных можно задать название нужных товаров, ссылку на категорию или ссылку с параметрами пользовательского фильтра. Парсер соберет описание найденных товаров, их технические характеристики и изображения. Подробнее

Парсер продавцов Маркета
Этот парсер мы разработали для владельцев интернет-магазинов, а также для дропшипперов, которые ищут товар по самой низкой цене. Укажите нужный список товаров, ссылку на интересующую вас категорию товаров или бренд и после запуска парсера вы получите полную информацию о ценах конкурентов или потенциальных поставщиках нужных товаров. Подробнее

Парсер Яндекс Карт
Если вы работаете с конкретным регионом, то наверняка заинтересуетесь парсером Яндекс Карт. Ведь он позволяет собрать информацию об организациях, включая их контакты, в заданной категории. Соберите базу потенциальных клиентов или партнеров всего за 10 минут. Подробнее

Парсер выдачи Яндекс
Когда ищут парсер Яндекса, чаще всего имеют в виду парсер поисковой выдачи. Ведь Яндекс в первую очередь это поисковая система. И среди наших парсеров вы найдете парсер поисковой выдачи, который собирает ссылки и сниппеты выдачи Яндекса по заданному ключевому слову. Настройки программы позволяют настроить сбор выдачи до нужной глубины, а также запуск следующей кампании, которая в качестве входных данных возьмет результаты текущей. Подробнее

Парсер ключевых слов
Незаменимая настройка для маркетологов и seo-шников, с которой начинается создание любого сайта или рекламной кампании. Позволяет собрать прогноз показов по заданному ключевому слову или списку слов. Полученные данные можно обработать сразу после сбора с помощью плагинов или позже, предварительно сохранив результаты в Excel. Подробнее

Парсер Яндекс Каталога
Парсер Яндекс Каталога соберет сайты из заданной категории. Помимо названия сайта и ссылки на него вы получите описание сайта из Яндекс Каталога, установленную для него картинку и тематический индекс цитирования (тИЦ). Подробнее

Парсер сниппетов Яндекса
В отличии от парсера поисковой выдачи Яндекса, парсер сниппетов соберет только снппет из поисковой выдачи, и запрос, по которому этот сниппет был получен. Инструмент пригодится при внутренней оптимизации сайта, улучшению CTR страницы в поисковой выдачи и повышения релевантности. Подробнее

web-data-extractor.net


You May Also Like

About the Author: admind

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.