

скачать/обновить программу Ver 11.1.0000727 (03.04.2019)
просмотреть весь лог изменений
экспресс-курс
Лицензионное соглашение (рекомендуем ознакомиться!)
скачать демо-версию
Если интернет – ваша работа, то Content Downloader должен стать вашими руками ©




Пожалуйста, посмотрите демонстрационное видео (не забыв выбрать качество HD в плеере):
Описание универсального парсера Content Downloader:
Content Downloader – профессиональная программа, предназначенная для парсинга любой информации с любых сайтов (где это вообще возможно)
Content Downloader может применяться для:
– Парсинга товаров интернет-магазина в таблицу CSV (с любым требуемым набором столбцов на выходе)
– Парсинга статей с картинками и файлами (например, файлами торрентов, флеш-игр или рефератов) в txt или htm форматы
– Парсинга телефонных номеров, e-mail адресов или любой другой контактной информации (в CSV, txt или html, как вам угодно)
– Парсинга скрытой информации, доступной только после клика, например, на кнопку “показать номер” или “показать контактные данные” (для этого требуется тип лицензии ULTIMATE, включающий в себя приложение WBApp, которое и будет имитировать клики по кнопкам)
– Парсинга скрытой информации, доступной после авторизации;
– Парсинга любых, удовлетворяющих заданным фильтрам, ссылок с сайта (до 1 миллиона)
– Парсинга любых частей кода WEB-документов и их вывод в нужном для вас формате
– Парсинга XML-карт сайтов
Парсер является универсальным! Перечислять полный список его областей применений можно очень долго, так как он ограничен лишь воображением…
Принцип работы Content Downloader очень удобен, эффективен и прост: вы указываете программе (в HTML-коде страницы), с каких частей веб-страниц брать данные, и в каком формате их выводить. Если вы хотите ознакомиться с этим более детально – пожалуйста кликните сюда.
Некоторые дополнительные возможности парсера:
– Многопоточность
– Авторизация через передачу cookies из IE или через POST-Запрос
– Возможность задать любые cookies
– Возможность задавать любой user agent (даже менять их при парсинге)
– Возможность использовать список прокси (в том числе и SOCKS с авторизацией)
– Возможность задавать паузу между запросами и изменять количество потоков
– Возможность обработки данных непосредственно в процессе парсинга
– Загрузка файлов и картинок на ваш FTP-сервер прямо при парсинге контента
– Автоматическая загрузка результирующего CSV-файла на FTP-сервер после процедуры парсинга контента
– Возможность парсить разом огромное количество характеристик товаров (только для ULTIMATE-версий)
– Возможность отправки данных в базу MySQL сразу при парсинге
– Возможность подключения собственных PHP-скриптов для обработки данных при парсинге контента
– Возможность парсить через Internet Explorer (DOM) (с поддержкой выполнения различных скриптов);
Варианты сохранения данных:
– В один файл/в несколько файлов
– Расширения: CSV (с любыми заданными столбцами), htm, txt, php, MySQL
Поддерживаемые кодировки парсинга: Windows-1251, koi, utf-8
Поддерживаемые кодировки сохранения контента: Windows-1251, utf-8, utf-8 без BOM
Также в программе есть возможность создать xml файл импорта для WordPress из файлов htm или txt с диска компьютера.
Для более углубленного ознакомления с универсальным парсером Content Downloader вы всегда можете просмотреть материалы системы помощи.
С уважением к вам, администрация сайта…
sbfactory.ru
Вам надоело, искать сайты и покупать базы? Тогда вы точно пришли по адресу. Новая уникальная программа WebParser предназначена для поиска сайтов любой CMS в многопоточном режиме, все что необходимо это задать поисковую фразу, состояющую из любого слова, категории, названия новости в сочетании с именем автора и в данном случае программа найдет все сайты на которых данный автор опубликовал свою новость, или при поиске по другой поисковой фразе программа быстро найдет список сайтов релевантных вашему запросу. В программе WebParser предусмотрен поиск зарубежных сайтов, а также использование списка прокси серверов и полное автосохранение всех настроек. Работает с Google, Yandex, Metabot Google&Yahoo Search API.
Программа отлично ищет DLE, WordPress, Joomla, uCoz, phpBB и многие другие движки, которые вы с легкостью можете добавить в программу. Также можно искать список всех ссылок по указанному URL и анализировать их. Программа работает очень быстро. В полной версии вы можете использовать генератор ключевых фраз по дате и макропеременным. В программе ведется лог активности. Наглядный, дружественный, удобный и понятный интерфейс. Имеется возможность сворачивания программы в трей.
В программе предусмотрено множество настроек режимов парсинга, например таких опций, как:
- парсинг доменов, парсинг доменов с папками — что полезно при поиске форумов phpBB, т.к. они часто расположены в определенной папке
- парсинг полных ссылок в таком виде в каком они были найдены в выдаче поисковой системы или на указанном сайте
- опции сбора всех ссылок с поисковой системы без анализа или с анализом ссылок, с проверкой или без проверки на работоспособность ссылки и включение и отключение проверки на дубликаты
- настраиваемая глубина поиска, язык искомых сайтов, количсетво ссылок на странице поисковой системы, парсинг DOM элементов или парсинг страницы как текста, например при поиске ссылок в JSON или XML
- настройка максимального времени отклика анализируемого сайта
- интеграция модуля антикаптча, для автоматического разгадывания каптч.
- добавление своих поисковых систем и анализаторов, для поиска различных CMS выполняется в 2 шага.
Данные хранятся в Базе Данных, сайты добавляются в таблицу либо в указанный файл, если включен режим работы с файлами, автоматическое отсеивание дубликатов сайтов В парсер встроен модуль чекер-прокси, возможность парсинга с использование списка прокси, также если для прокси появляется каптча, есть возможность автоматической её деактивации на установленное время и обработка того же URL уже под другой прокси, в парсер встроена автоматическая проверка прокси на работоспособность. Есть возможность печати данных, а также экспорт базы в различные форматы такие как CSV, XML, TXT, возможность кодирования данных напрямую в другую БД. Автоматическое обновление программы на новую версию и модификация БД одним кликом в меню. Все это и многое другое в программе WebParser Веб-Парсер.
Программа парсингует поисковые системы на ссылки и находит ссылки на сайты написанные на той CMS, которую вы укажите при парсинге. Работает в неограниченном, настраиваемом количестве потоков. Работает через список прокси и без него. В программе предусмотрен ввод каптчи гугла и яндекса. Если сайт — является дублем — его анализ даже не будет запущен и добавлен в список.
В полной версии вы можете использовать:
- прокси сервер
- список ключевых фраз
- неограниченное количество потоков
- парсинг любой CMS
- автосохранение всех данных
- исключение дубликатов сайтов
- поиск зарубежных сайтов
- поиск SQL-инъекций методом посдстановки указанных симвоов
- поиск SQL-инъекций методом сравнения страниц
- авторегистрация
- автоподтверждение почты
- отправка комментариев на DLE сайты
- проверка ТИЦ и PR, AlexaRank
- проверка количества страниц в индексе Яндекса и Google
- автоматический сбор поисковых фраз
Ниже приведена ссылка для просмотра описания СЕО версии Webparser Plus SEO
В версии Plus SEO можно спамить по комментариям DLE, автоматически регистрироваться и подтверждать почту, отсекать nofollow и noindex сайты, а также искать не заспамленные новости и добавлять в них комментарий, критерии отбора новостей вы устанавливаете сами, как количество внешних ссылок в комментариях к новости и количество комментариев к новости.
Описание WebParser + С.Е.О.
В разделе Загрузки вы можете
Скачать последнюю версию программы WebParser
Программа для Сбора баз addnews DLE PhpBB и др.
Полное описание и как пользоваться программой смотрите на странице:
Веб-Парсер полное описание
Полное описание изменений в последней версии WebParser смотрите в блоге на странице:
Последние изменения в новой версии WebParser
Сравнение версий WebParser и детальное описание различий в функционале
Универсальный парсер поисковых систем WebParser. Программа для парсинга поисковой выдачи Yandex, Google, Yahoo, Google&Yahoo Search API бесплатно. Базы WordPress, DLE, phpBB, uCoz, Joomla, Drupal. WebParser. FreeWare.
cybermake.ru
Добрый день. Хотелось бы несколько пожеланий высказать и задать пару вопросов.
-(Основная информация – переменные – изменить/удалить переменные). Не работают кнопки «Создать» и «Клонировать». А если поставить галку «Скрытая» и сохранить изменения, то, при снятии галки в дальнейшем, переменные не становятся видимыми, помогает только удаление переменной.
-(Действия – Проверка и сравнение – Проверка на выполнение условия). «5: Проверять другое значение» и «6: Другое проверяемое значение». Названия вводят в заблуждение. Много дней прибывал в полной уверенности, что здесь задается дополнительное значение, на которое также проверяются имеющиеся в исходном значении данные, после проверки значения в пункте 2, т.е. если проходит по пункту 2, потом пункту 6, то производится действие. Даже не сомневался, что именно так и работает, пока случайно не наткнулся в демо парсере на пример использования этой функции с задействованными 5 и 6 пунктами. Крайне удобная функция, но, полагаю, что многие ей не пользуются по тем же причинам, что не пользовался и я.
— «3: Действие при выполнении условия (Вернуться к действию). Катастрофически не хватает возможности, чтобы в момент введения номера строки, на которую следует вернуться/перескочить, шла привязка к действию в этой строке, а не к самой строке – если не по умолчанию так, то хотя бы опционально (может быть галку «привязка к действию»). Я понимаю, что когда знаешь вдоль и поперек парсер, то нет острой необходимости что-то переделывать на ходу, вставлять строки, возвращаться, менять алгоритм, но когда ты новичок, а один уровень парсера состоит из нескольких десяток строк с ветвящимися условиями и переходами по всему уровню взад и вперед, то любая вставка новой строки оборачивается просто трагедией с перестановкой всех номеров в «Вернуться к действию».
— Также очень сильно не хватает комментариев или хоть какой-то возможности визуально разграничить строки на отдельные блоки и подписать их. Или просто отделить пустой строкой с комментарием, или дополнительно изменять фон строк. Сейчас я пользуюсь костылями — вставляю строку в начале блока строк, отключаю ее и пишу в ней комментарий, что хоть и помогает улучшить восприятия больших парсеров, но недостаточно. Эти две проблемы (вместе с «Вернуться к действию»), которые наиболее старательно вставляют палки в колеса при создании больших, многозадачных, разветвленных парсеров.
— Отключенные строки при копировании/перемещении в буфер обмена становятся невидимыми.
— Не хватает кнопки, которую можно нажимать, находясь на любом подуровне, чтобы сработали «Парсер Старт» и все предыдущие подуровни. Иногда очень неудобно прыгать от «Набора Действий» или «Вывода на лист» к энному подуровню через «Парсер Старт» и все предыдущие подуровни, и так много раз к ряду. Если бы можно было в «Наборе действий» иметь такую же кнопку, было бы совсем хорошо, т.е. чтобы в «Набор действий» приходил первый результат оттуда, где вставлен этот «Набор действий». А уж если бы «Набор действий» знал, сколько раз он вставлен в парсер, с возможностью указания его порядкового номера в парсере и получения оттуда данных, было вообще круто, но это я уже расфантазировался.
-(Вывод на лист – Список столбцов для вывода – Формат – Примечание). Не хватает возможности убрать красный треугольник примечания у ячейки, если само примечание поступает из переменной пустое.
И пару вопрос:
— Может ли парсер определять размер файлов, в частности ПДФ? Сейчас для сравнения актуальности скачанного с сайта файла с хранящимся на компьютере, приходится каждый открывать через IE, копировать текстовое содержимое и только потом сравнивать.
— Как обратиться к гиперссылке, не зная заранее номер столбца? К сожалению, не работают переменные такого вида: {=B2@} или {B2@} и соответственно {={ColumnLetter}{row}@} или {{ColumnLetter}{row}@}, только по номеру столбца типа {1@}. При этом переменные такого вида, но без гиперссылки, работают исправно.
Спасибо.
excelvba.ru
Парсер сайтов — введение.
Многие web мастера гоняются за контентом для наполнения своих сайтов, некоторым нужен копипаст (статья — о копипасте и борьбы с плагиатом), другим уникальный (рерайт или копирайт, об уникальности текста писал тут и тут).
Раньше на создании низкокачественных сайтах можно было заработать деньги, например продажа ссылок на сателлитах приносил прибыль и сайты чувствовали себя хорошо.
Хорошо индексировались (проблем с индексацией сайта не было), хорошо раскупались ссылки, капали денежки на счет. Но поисковые системы боролись с такими сайтами и выдвигали все больше новых фильтров (о фильтрах Яндекс и фильтрах Google).
Сейчас, парсеры сайтов, используются больше для получения огромных баз информации, например с сайтов кампаний и т.д.
Рабочие парсеры сайтов.
Парсер сайтов от SJS.
В 2010 году я писал о универсальном парсере контента SJS, я до сих пор пользуюсь этим парсером и получаю любой контент с любого сайта.
Данный парсер — НИГДЕ не продается, его можно найти в открытом доступе в интернете (достаточно поискать).
SJS является универсальным парсером, т.е. он не заточен под какой-то один вид сайтов (например сайты на WordPress, Joomla, DLE). В настройках достаточно написать шаблон парсинга и получить готовый контент по шаблону.
Работать с парсером, очень просто (всегда все просто, когда уже делал что-то):
- Настраиваете шаблон для парсинга ссылок.
- Парсите ссылки.
- Настраиваете шаблон для парсинга контента.
- Парсите контент.
Достаточно добавить контент в любую CMS (статья — Cms для сайта визитки) и у вас появился готовый сайт для продажи ссылок. Также можно спарсить, например базы всех фирм в городе, для чего либо.
Вот вам видео по пользованию данным парсером:
Парсер сайтов — Content Downloader.
В одно время был достаточно покупаемой программой. Является универсальным парсером контента. Делает все тоже самое, что и SJS парсер (я написал о нем выше), а именно:
- Сбор ссылок.
- Сбор картинок.
- Сбор текстовых статей.
- Парсинг с закрытых сайтов, требующих авторизации.
Поработать с официальной версией программы мне не доводилось, доводилось работать с ломанной версией. Программа, очень похожа на программу SJS, но все таки имеет ряд интересных функций (достаточно посмотреть на функцию парсинга с закрытых сайтов).
Парсер можно купить или найти в ломанном виде, достаточно поискать в поисковых системах.
Видео по работе с парсером сайтов:
Парсер сайтов — Datacol.
Datcol — парсер контента по ключевым словам. Парсер является бесплатным и очень удобным для некоторых случаев
Принцип работы парсера прост:
- Вводится ключевое слово.
- Парсится URL из выдачи Google по ключевому слову.
- Далее идет сбор контента по спарсенным URL.
Скачать и найти дополнительную информацию можно тут.
Также выкладываю видео, по работе с Datacol:
С этими тремя парсерами я работал и работаю, парсеры сайтов проверены мной лично и еще одной двумя тысячами web мастеров, они доказали свою работоспособность и необходимость.
Посмотрите похожие посты:
webbomj.ru
Как работает Бесплатный парсер сайтов Catalogloader
Бесплатный парсер сайтов Catalogloader работает в облаке, не требуется установка никакого дополнительно программного обеспечения на компьютер, работает на любой операционной системе. Достаточно иметь только браузер. Вам предоставляется доступ в личный кабинет, где происходит управление парсером. Вы сможете:
- указывать категории сайта-донора, которые нужно выгружать;
- изменять названия категорий, вложенность, объединять категории для загрузки на свой сайт или в файл;
- делать наценки;
- выбирать формат экспорта в файл;
- запускать процесс руками или настроить расписание запусков;
- смотреть запуски, скачивать результат (если настроена выгрузка в файл);
- забирать данные по API в свое программное обеспечение для дальнейшей обработки информации.;
- выгружать (объединять) данные из нескольких сайтов-доноров (парсеров) в один файл или на один сайт;
Бесплатный парсер сайтов Catalogloader выгружает следующие данные
- артикул;
- название товара;>
- описания (полное, краткое);
- все фото (названия фото, ссылки на фото, сами фото);
- производитель;
- характеристки;
- комбинации (варианты товара: разные цветы, размеры и т.п.);
Окончательный список параметров, которые будут выгружаться, обсуждается индивидуально для Вашей задачи в техническом задании.
Экспорт из парсера выполняется в файлы
- Excel;
- CSV;
- XML. Документация на XML здесь;
- JSON.
Выгрузка в интернет-магазин
Кроме экспорта в стандартные файлы можно выгрузить в шаблоны файлов для импорта в следующие cms:
Стоимость
кол-во товаров | выгрузка в файл Excel, csv, xml или на сайт |
до 10 тыс ежедневно* | 5400 руб/мес |
до 30 тыс ежедневно* | 7650 руб/мес |
до 50 тыс ежедневно* | 12000 руб/мес |
до 100 тыс ежедневно* | 22500 руб/мес |
* — если скорость выгрузки позволяет делать это ежедневно.
Заказать парсер
Укажите исходные данные в форме ниже и обсудим Вашу задачу. Спасибо!
catalogloader.com
Парсер – это программа для автоматизации процесса парсинга, то есть обработки информации по определенному алгоритму. В этой статье я приведу несколько примеров программ-парсеров и в двух словах опишу их назначение и основные функции.
Как мы уже определились, парсинг – это процесс синтаксического и лексического анализа, разбора и преобразования какого-либо документа или выбора из этого документа, интересующих нас данных. Это могут быть и трансляторы языков программирования, переводчики с одного языка на другой. Я думаю, что интерпретаторы скриптов тоже используют алгоритмы парсинга.
Но поскольку парсеры нас интересуют применительно к интернету и его приложениям, то мы вернемся к описанию использования парсеров для этой тематики. Выделю два наиболее популярных вида парсинга в интернете:
— парсинг контента
— парсинг результатов выдачи поисковых систем
Некоторые программы совмещают эти функции, плюс обрастают дополнительными функциями и возможностями.
Итак приступим
Универсальный парсер Datacol
Парсер Datacol представляет собой универсальный инструмент для сбора информации в интернете. Текущая версия программы — Datacol5.
На настоящий момент этот парсер является несомненным лидеров в Рунете по своим возможностям и функционалу.
Этот инструмент позволяет собирать в интернете данные следующего типа:
- Результаты поисковой выдачи
- Сбор контента с заданных сайтов
- Сбор внутренних и внешних ссылок для интернет сайта
- Сбор графической информации, аудио контента, видео материалов
- Парсинг СЕО показателей сайтов с различных сервисов
- И много много самой различной информации с различных интернет ресурсов
Вся полученная информация сохраняется в удобном для пользователя виде для дальнейшего анализа и использования.
Более подробное описание парсера Datacol5 находится на этой странице — web-data-extractor.net.
Программа Content Downloader
Представляет собой универсальную программу. Обладает очень широким функционалом и представляет собой целый набор парсинг-функций, вот перечень основных из них:
- Парсер товаров
- Парсер интернет-магазинов
- Парсер картинок
- Парсер видио
- RSS парсер
- Парсер ссылок
- Парсер новостей
И это еще неполный перечень всех функций. Программа платная, продается несколько вариантов, в зависимости от функционала колеблется и стоимость. Подробнее ознакомиться можно здесь.
Парсер контента X-Parser
Основные функции программы также состоят их нескольких программных блоков.
- Парсер вылачи любых поисковых систем по ключевым запросам
- Парсер контента с любого сайта
- Парсер контента по ключевым запросам из выдачи любой поисковой системы
- Парсер контента по списку URLов
- Парсер внутренних ссылок
- Парсер внешних ссылок
Довольно многофункциональная программа, более подродно узнать всю информацию, вплоть до цены можно перейдя по ссылке.
Программа WebParser
Парсер WebParser представляет собой универсальную программу. основная функция которой — парсинг поисковых систем. Работает с ПС Google, Яндексом, Рамблером, Yahoo и некоторыми другими. анализирует движки (CMS) сайтов. Совместима со всеми версиями Windows, начиная с W2000. Болле полную информацию можно получить здесь.
Плагин WP Uniparser
Не забудем и плагин для WordPress WP Uniparser. О нем можно больше узнать, пройдя по этой ссылке.
Парсер «Магадан»
Парсер ключевых слов c романтическим названием «Магадан» создан именно для целевой обработки ключевых слов Яндекс.Директа. Полезен при составлении семантического ядра, подготовке рекламных компаний и для сбора и анализа информации.
В завершение стоит упомянуть о языке программирования для создания сайтов Parser, созданного на студии Артемия Лебедева и служащего для разработки сайтов. Этот язык будет несколько посложнее, чем обыкновенный HTML, но не требующий такой основательной подготовки, как, например, язык PHP.
inetmkt.ru
Программа представляет собой простой бесплатный универсальный парсер, который можно использовать для решения широкого круга задач.
В левом окне программы «Url grab» вводим url для парсинга, по одной в строчку или загружаем из файла. В поле «От» вводим данные, с которых будем начинать парсинг, в поле «До» вводим данные, которыми парсинг заканчиваем. Т.е. сохраняться будет только то, что находиться между «От» и «До». В правом окне программы можно наблюдать результаты парсинга.

Перейдем, например на эту страницу http://otvet.mail.ru/question/77740375/. Посмотрим исходный код страницы. Находим первый e-mail адрес, видим, что он расположен между «id=»user:» и «»». В поле «От» вводим «id=»user:» в поле «До» вводим «»». Нажимаем «Grab» и видим результаты парсинга в правом окне программы. Результаты парсинга автоматически сохраняются в файле Rez_Parse.txt. Будьте осторожны, при следующем парсинге старые результаты будут заменены новыми.

Парсинг прокси.
Переходим по ссылке http://cool-proxy.ru/france-proxy-list-15-09-12.html. Проделываем действия аналогичные при парсинге e-mail адресов. Получаем значение «От» — «<br /», «До» — «<br /». Получаем результат:

Скачать универсальный парсер.
freelancers-tools.com
1. Google Spreadsheet
С помощью таблиц Google можно вытянуть из сайта простые элементы для сравнения и компонирования малых объемов. Это title, description, h1, keywords, заголовки, артикулы, цены, тексты, таблицы данных. Этот бесплатный инструмент подходит для точечных, малообъемных задач. Например, создать файл с отслеживанием текста и заголовков страницы.
Существуют две простые функции:
1. =importhtml — для импорта данных из таблиц или списков.
2. =importxml — для импорта данных из документов в форматах XML, HTML, CSV, TSV, RSS, ATOM XML.
Для работы с функцией =importxml потребуется знание XPath. Но если не хотите тратить время на изучение документации, используйте отладчик браузера.
Чтобы запустить отладчик, кликните на нужном элементе страницы правой кнопкой мышки и выберите «Посмотреть код», или нажмите F12.
В отладчике пройдите по пути: Copy — Copy XPath. Скопированный XPath вставляйте в функцию =importxml.
Минусы
С каждым месяцем все хуже и хуже обрабатывается функция =importxml. Раньше можно было без проблем парсить данные сразу же для ~500 URL-адресов, сейчас с трудом обрабатываются 50 URL.
Плюсы
- автоматическое обновление при входе;
- можно настроить автоматическое обновление по времени (минута, час, день);
- при парсинге данных прямо в таблицу можно осуществлять преобразование данных и сразу же делать готовые отчеты, примеры, визуализации.
Какие задачи решает?
С помощью функции =importxml можно собирать в режиме реального времени данные о мета тегах и, например, о количестве комментариев к интересующим статьям.
В колонке A — ячейки с ссылкой на страницу. Тег title для ячейки A2 подтягивается с помощью запроса =IMPORTXML(A2;»//title»).
Метатег description: =IMPORTXML(A2;»//meta[@name=’description’]/attribute::content»).
Тег H1 — с помощью запроса: =IMPORTXML(A2;»//h1″).
Автор поста: =IMPORTXML(A2;»//a[@class=’author-name’]»).
Дата публикации: =IMPORTXML(A2;»//div[@class=’footer’]/span»).
Количество комментариев к посту: =IMPORTXML(A2;»//span[@class=’regular’]»).
С помощью функции =importhtml также можно подтянуть много интересных данных, например, основную информацию из Википедии об интересующих объектах.
2. Netpeak Spider
Десктопная программа для сканирования сайта, которая направлена на поиск SEO-ошибок, и включает возможности парсинга данных из HTML-страниц.
SEO-специалисту при обычном сканировании сайта иногда не хватает данных для анализа. С помощью Netpeak Spider можно, например, найти на сайте страницы с 404 ошибкой, страницы без тега Title и дополнительно спарсить цены на страницах товаров.
Таким образом можно обнаружить товары без цены и далее уже принять адекватное решение — оставить, убрать, закрыть их для сканирования/индексации.
Также можно вытянуть все тексты, которые размещены на страницах, задав определенный CSS-селектор или класс, в рамках которого они размещаются.
Стоимость программы — $14 в месяц или $117 в год (со скидкой 30%).
Минусы
- нет привязки по API;
- нет возможности обновлять данные по сценарию.
Плюсы
- существует возможность как добавить готовый список URL для парсинга данных, так и удобно просканировать весь сайт;
- одновременно можно запускать до 15 парсеров с уникальными настройками;
- можно отфильтровать страницы, на которых не были найдены искомые данные;
- показываются все уникальные вхождения, их количество и длина;
- кроме парсера данных, получаем также инструмент для комплексного SEO-анализа сайта.
Какие задачи решает?
Парсинг цен
Задача: необходимо узнать стоимость ноутбуков.
Список URL:
http://rozetka.com.ua/asus_x555lj_xx1465d/p11201236/
http://rozetka.com.ua/asus_x555sj_xo001d/p6596109/
http://rozetka.com.ua/asus_n551jb_xo127d/p10727833/
http://rozetka.com.ua/asus_e502sa_xo014d/p9155171/
http://rozetka.com.ua/asus_e502sa_xo001d/p10677881/
Решение. Для начала необходимо определить, какой элемент нужно вытянуть — в данном случае будем вытаскивать метатег «itemprop» со значением «price»:
Далее переходим в настройки сканирования Netpeak Spider на вкладку «Поиск» и включаем галочку «Использовать пользовательский поиск»:
Теперь необходимо задать настройки поиска — в качестве примера будем использовать XPath: //meta[@itemprop=»price»]
А в дополнительных настройках поиска выберем «Извлечение данных» — «Значение атрибута» — «content»:
Что в результате?
1. На четырёх страницах Spider нашел цены — отчёт открывается при выборе нужного поиска и нажатии на кнопку «Результаты извлечения»:
2. На одной странице не была найдена цена — на этой странице (http://rozetka.com.ua/asus_e502sa_xo001d/p10677881/) мы видим сообщение, что товар снят с производства:
Проверка внедрения GTM
Задача: проверить интеграцию кода GTM на страницах и ответить на два вопроса.
- Установлен ли код в принципе?
- Код установлен с правильным идентификатором?
Список URL:
http://netpeak.net/ru/blog/category/seo/
http://netpeak.net/ru/blog/category/ppc/
http://netpeak.net/ru/blog/category/web-analytics/
http://netpeak.net/ru/blog/category/marketing/
Решение. Аналогично, сначала нужно определить, какой элемент отвечает за код GTM, — в данном случае будем вытягивать GTM ID с помощью
В Netpeak Spider переходим в «Аналогичные настройки сканирования» и задаём поиск по регулярному выражению: [‘»](GTM-w+)[‘»]
Что в результате?
Видим, что код установлен и идентификатор правильный.
Чтобы узнать больше примеров использования Netpeak Spider, читайте подробный обзор этой функции в блоге Netpeak Software.
3. Web Scraper
Web Scraper — бесплатное браузерное расширение для Chrome. Вы можете настроить план обхода сайтов, то есть задать логику для перемещения краулера и указать данные, которые будут извлечены. Web Scraper будет проходить через сайт в соответствии с настройкой и извлекать соответствующие данные. Это позволяет экспортировать извлеченные данные в CSV.
Минусы
- нет возможности интеграции по API, то есть для обновления данных Web Scraper нужно запускать самостоятельно и ждать, пока завершится сканирование. Благо, проекты сохраняются в браузере, существует возможность сохранить проект в формате Json.
- также есть ограничение в один поток. 2 000 страниц парсятся больше часа.
- работает только в Chrome.
Плюсы
- удобный, простой и интуитивно понятный инструмент.
- может извлекать данные из динамических страниц, которые используют Javascript и Ajax.
Какие задачи решает?
Спарсить информацию о карточке товара
План обхода сайта показывает логику парсинга:
Элементы для парсинга:
После завершения парсинга информация будет отображена в таком виде:
Обучающие материалы:
- видео;
- документация.
4. Google Spreadsheet + Google Apps Script
Google Apps Script — язык программирования, основанный на JavaScript. Позволяет создавать новые функции и приложения для работы с Google Docs, Google Sheets и Google Forms. Настроить связку можно бесплатно.
Минусы
Нужно знание языка программирования JavaScript.
Плюсы
Потратив определенное время на настройку отчетов, можно оперативно реагировать на изменения данных.
Какие задачи решает?
С помощью связки Google Spreadsheet и Google Apps Script можно получать и обновлять данные в режиме реального времени, а это полезно, чтобы следить за конкурентами и настраивать оповещение при изменениях, например, тегов title. Также можно настроить мониторинг цен и получать уведомления при изменении показателей.
Пример скрипта для отслеживания цен.
Выводы
Для гибкого и эффективного использования бесплатных инструментов парсинга сайтов необходимо как минимум знать, что такое XPath, а оптимально — еще и владеть основами JavaScript. Да и платные решения, вроде Netpeak Spider, предлагают все более интересные возможности, вроде одновременной настройки 15 потоков парсинга.
Многие вопросы, связанные с автоматизацией, раньше решал
Пишите в комментариях, какие инструменты вы используете для парсинга, и какие задачи решаете с их помощью.
netpeak.net