Недавно мой арсенал seo программ пополнился ещё одним замечательным софтом.
Datacol – это универсальное средство, с помощью которого можно собирать данные с любых сайтов в сети Интернет.
Сразу после того, как программа скачана и установлена Вы получаете доступ к множеству готовых парсеров, которые умеют:
- — парсить выдачу Google и Яндекс;
- — парсить интернет магазины (ebay.com, focalprice.com, Яндекс.Маркет и др.);
- — собирать контактные данные (2ГИС, Яндекс.Карты);
- — парсить доски объявлений (avito.ru, irr.ru и др.);
- — парсить контент с популярных сайтов (kinopoisk.ru, rutracker.org, youtube.com);
- — собирать и снабжать в реальном времени работающую кампанию-парсер прокси серверами;
- — парсить ВКонтакте;
- — парсить форумы;
- — и многое другое.
А универсальным данный софт называют за то, что по помимо готовых парсеров контента Вы за считанные минуты можете сделать свой индивидуальный парсер, который будет собирать данные с нужного Вам вебресурса.
Для примера я решил сделать небольшой парсер, который будет собирать отзывы о товарах на сайте fotomag.com.ua
Что было сделано:
Создал новую компанию — Fotomag.par, заморачиваться с парсингом всего сайта пока не стал, а просто указал список url с которых нужно собрать отзывы (Вкладка Навигация -> Стартовые URL).
Во вкладке Сбор данных -> Поля данных создал 3и поля данных в которые будет записываться нужная информация (url страницы с отзывами о товаре, название товара и сами отзывы).
Первое поле: title_product;
Тип данных: обычное поле;
Строки вырезания:
С помощью данного регулярного выражения получаем данные стоящие между тегами h1, а именно — название товара.
В остальных вкладках ничего не менял.
Второе поле: products_reviews;
Тип данных: статическое поле;
Строки вырезания:
С помощью данного регулярного выражения получаем данные стоящие между тегом div с классом text и тегом a с классом reply, а именно — отзыв о товаре.
Во вкладке Дополнительно установил галочку в Поле обязательное, чтоб в случае, если на странице не будет найдено отзывов, группа данных текущего диапазона не сохранялась.
Во вкладке Статические, по умолчанию оставил выбор всех значений, а в качестве строки объединения задал точку с запятой. Собственно особенность статического поля в том, что можно получить не только первое найденное значение (первый отзыв), а собрать все либо указать нужный диапазон данных.
Третье поле: url;
Тип данных: спец поле.
Во вкладке Спец значения, по умолчанию оставил выбранным URL.
Во вкладке Экспорт -> Базовые выбрал произвольный формат экспорта и экспортировать в потоковом режиме.
Во вкладке Экспорт -> Форматы экспорта указал путь для сохранения собранных данных, записывать решил в текстовый файлик, а в качестве формата выбрал следующий:

После запуска, в области показа новостей и результатов можно увидеть группы данных собранные в процессе работы парсера.
Работать с программой очень просто, главное на начальном этапе уделить несколько часов и ознакомиться с имеющейся справкой, в которой подробно расписан весь имеющийся функционал. Кроме того, на YouTube полно обучающих роликов по созданию парсеров на базе Datacol. Думаю со временем, когда сам больше поднатаскаюсь в создании парсеров тоже запишу какое-нибудь обучающее видео.
С помощью Datacol можно не только парсить любые данные, в программе есть функция экспорта данных в WordPress c помощью которой можно легко наполнять армию Ваших блогов. Базовый функционал Datacol также позволяет наполнять интернет магазины на Webasyst, Opencart и Virtuemart.
Отдельно можно приобрести плагины для экспорта данных в другие популярные движки: DLE, Joomla, Blogspot, Livejournal и др. С полным перечнем доступных платных и бесплатных плагинов можно ознакомиться на странице — Плагины Datacol.
Довольно важным моментом является и то, что разработчики Datacol занимаются поддержкой своего проекта и регулярно выпускают обновления, в которых устраняют найденные баги и добавляют новый функционал.
На текущий момент цена одной лицензии составляет 59$ (вместо 89$), на офф. сайте программы написано, что стоимость была снижена на период новогодних праздников, так что не исключено, что со временем снова подорожает. Если за время прочтения данного поста у Вас тоже появились мысли о том, как можно использовать данный софт в своей работе, ещё есть возможность сделать себе новогодний подарок и приобрести Datacol по сниженной цене.
seogrot.com
Программа представляет собой простой бесплатный универсальный парсер, который можно использовать для решения широкого круга задач.
В левом окне программы «Url grab» вводим url для парсинга, по одной в строчку или загружаем из файла. В поле «От» вводим данные, с которых будем начинать парсинг, в поле «До» вводим данные, которыми парсинг заканчиваем. Т.е. сохраняться будет только то, что находиться между «От» и «До». В правом окне программы можно наблюдать результаты парсинга.

Перейдем, например на эту страницу http://otvet.mail.ru/question/77740375/. Посмотрим исходный код страницы. Находим первый e-mail адрес, видим, что он расположен между «id=»user:» и «»». В поле «От» вводим «id=»user:» в поле «До» вводим «»». Нажимаем «Grab» и видим результаты парсинга в правом окне программы. Результаты парсинга автоматически сохраняются в файле Rez_Parse.txt. Будьте осторожны, при следующем парсинге старые результаты будут заменены новыми.

Парсинг прокси.
Переходим по ссылке http://cool-proxy.ru/france-proxy-list-15-09-12.html. Проделываем действия аналогичные при парсинге e-mail адресов. Получаем значение «От» — «<br /», «До» — «<br /». Получаем результат:

Скачать универсальный парсер.
freelancers-tools.com
Как работает Бесплатный парсер сайтов Catalogloader
Бесплатный парсер сайтов Catalogloader работает в облаке, не требуется установка никакого дополнительно программного обеспечения на компьютер, работает на любой операционной системе. Достаточно иметь только браузер. Вам предоставляется доступ в личный кабинет, где происходит управление парсером. Вы сможете:
- указывать категории сайта-донора, которые нужно выгружать;
- изменять названия категорий, вложенность, объединять категории для загрузки на свой сайт или в файл;
- делать наценки;
- выбирать формат экспорта в файл;
- запускать процесс руками или настроить расписание запусков;
- смотреть запуски, скачивать результат (если настроена выгрузка в файл);
- забирать данные по API в свое программное обеспечение для дальнейшей обработки информации.;
- выгружать (объединять) данные из нескольких сайтов-доноров (парсеров) в один файл или на один сайт;
Бесплатный парсер сайтов Catalogloader выгружает следующие данные
- артикул;
- название товара;>
- описания (полное, краткое);
- все фото (названия фото, ссылки на фото, сами фото);
- производитель;
- характеристки;
- комбинации (варианты товара: разные цветы, размеры и т.п.);
Окончательный список параметров, которые будут выгружаться, обсуждается индивидуально для Вашей задачи в техническом задании.
Экспорт из парсера выполняется в файлы
- Excel;
- CSV;
- XML. Документация на XML здесь;
- JSON.
Выгрузка в интернет-магазин
Кроме экспорта в стандартные файлы можно выгрузить в шаблоны файлов для импорта в следующие cms:
Стоимость
кол-во товаров | выгрузка в файл Excel, csv, xml или на сайт |
до 10 тыс ежедневно* | 5400 руб/мес |
до 30 тыс ежедневно* | 7650 руб/мес |
до 50 тыс ежедневно* | 12000 руб/мес |
до 100 тыс ежедневно* | 22500 руб/мес |
* — если скорость выгрузки позволяет делать это ежедневно.
Заказать парсер
Укажите исходные данные в форме ниже и обсудим Вашу задачу. Спасибо!
catalogloader.com
1. Google Spreadsheet
С помощью таблиц Google можно вытянуть из сайта простые элементы для сравнения и компонирования малых объемов. Это title, description, h1, keywords, заголовки, артикулы, цены, тексты, таблицы данных. Этот бесплатный инструмент подходит для точечных, малообъемных задач. Например, создать файл с отслеживанием текста и заголовков страницы.
Существуют две простые функции:
1. =importhtml — для импорта данных из таблиц или списков.
2. =importxml — для импорта данных из документов в форматах XML, HTML, CSV, TSV, RSS, ATOM XML.
Для работы с функцией =importxml потребуется знание XPath. Но если не хотите тратить время на изучение документации, используйте отладчик браузера.
Чтобы запустить отладчик, кликните на нужном элементе страницы правой кнопкой мышки и выберите «Посмотреть код», или нажмите F12.
В отладчике пройдите по пути: Copy — Copy XPath. Скопированный XPath вставляйте в функцию =importxml.
Минусы
С каждым месяцем все хуже и хуже обрабатывается функция =importxml. Раньше можно было без проблем парсить данные сразу же для ~500 URL-адресов, сейчас с трудом обрабатываются 50 URL.
Плюсы
- автоматическое обновление при входе;
- можно настроить автоматическое обновление по времени (минута, час, день);
- при парсинге данных прямо в таблицу можно осуществлять преобразование данных и сразу же делать готовые отчеты, примеры, визуализации.
Какие задачи решает?
С помощью функции =importxml можно собирать в режиме реального времени данные о мета тегах и, например, о количестве комментариев к интересующим статьям.
В колонке A — ячейки с ссылкой на страницу. Тег title для ячейки A2 подтягивается с помощью запроса =IMPORTXML(A2;»//title»).
Метатег description: =IMPORTXML(A2;»//meta[@name=’description’]/attribute::content»).
Тег H1 — с помощью запроса: =IMPORTXML(A2;»//h1″).
Автор поста: =IMPORTXML(A2;»//a[@class=’author-name’]»).
Дата публикации: =IMPORTXML(A2;»//div[@class=’footer’]/span»).
Количество комментариев к посту: =IMPORTXML(A2;»//span[@class=’regular’]»).
С помощью функции =importhtml также можно подтянуть много интересных данных, например, основную информацию из Википедии об интересующих объектах.
2. Netpeak Spider
Десктопная программа для сканирования сайта, которая направлена на поиск SEO-ошибок, и включает возможности парсинга данных из HTML-страниц.
SEO-специалисту при обычном сканировании сайта иногда не хватает данных для анализа. С помощью Netpeak Spider можно, например, найти на сайте страницы с 404 ошибкой, страницы без тега Title и дополнительно спарсить цены на страницах товаров.
Таким образом можно обнаружить товары без цены и далее уже принять адекватное решение — оставить, убрать, закрыть их для сканирования/индексации.
Также можно вытянуть все тексты, которые размещены на страницах, задав определенный CSS-селектор или класс, в рамках которого они размещаются.
Стоимость программы — $14 в месяц или $117 в год (со скидкой 30%).
Минусы
- нет привязки по API;
- нет возможности обновлять данные по сценарию.
Плюсы
- существует возможность как добавить готовый список URL для парсинга данных, так и удобно просканировать весь сайт;
- одновременно можно запускать до 15 парсеров с уникальными настройками;
- можно отфильтровать страницы, на которых не были найдены искомые данные;
- показываются все уникальные вхождения, их количество и длина;
- кроме парсера данных, получаем также инструмент для комплексного SEO-анализа сайта.
Какие задачи решает?
Парсинг цен
Задача: необходимо узнать стоимость ноутбуков.
Список URL:
http://rozetka.com.ua/asus_x555lj_xx1465d/p11201236/
http://rozetka.com.ua/asus_x555sj_xo001d/p6596109/
http://rozetka.com.ua/asus_n551jb_xo127d/p10727833/
http://rozetka.com.ua/asus_e502sa_xo014d/p9155171/
http://rozetka.com.ua/asus_e502sa_xo001d/p10677881/
Решение. Для начала необходимо определить, какой элемент нужно вытянуть — в данном случае будем вытаскивать метатег «itemprop» со значением «price»:
Далее переходим в настройки сканирования Netpeak Spider на вкладку «Поиск» и включаем галочку «Использовать пользовательский поиск»:
Теперь необходимо задать настройки поиска — в качестве примера будем использовать XPath: //meta[@itemprop=»price»]
А в дополнительных настройках поиска выберем «Извлечение данных» — «Значение атрибута» — «content»:
Что в результате?
1. На четырёх страницах Spider нашел цены — отчёт открывается при выборе нужного поиска и нажатии на кнопку «Результаты извлечения»:
2. На одной странице не была найдена цена — на этой странице (http://rozetka.com.ua/asus_e502sa_xo001d/p10677881/) мы видим сообщение, что товар снят с производства:
Проверка внедрения GTM
Задача: проверить интеграцию кода GTM на страницах и ответить на два вопроса.
- Установлен ли код в принципе?
- Код установлен с правильным идентификатором?
Список URL:
http://netpeak.net/ru/blog/category/seo/
http://netpeak.net/ru/blog/category/ppc/
http://netpeak.net/ru/blog/category/web-analytics/
http://netpeak.net/ru/blog/category/marketing/
Решение. Аналогично, сначала нужно определить, какой элемент отвечает за код GTM, — в данном случае будем вытягивать GTM ID с помощью
В Netpeak Spider переходим в «Аналогичные настройки сканирования» и задаём поиск по регулярному выражению: [‘»](GTM-w+)[‘»]
Что в результате?
Видим, что код установлен и идентификатор правильный.
Чтобы узнать больше примеров использования Netpeak Spider, читайте подробный обзор этой функции в блоге Netpeak Software.
3. Web Scraper
Web Scraper — бесплатное браузерное расширение для Chrome. Вы можете настроить план обхода сайтов, то есть задать логику для перемещения краулера и указать данные, которые будут извлечены. Web Scraper будет проходить через сайт в соответствии с настройкой и извлекать соответствующие данные. Это позволяет экспортировать извлеченные данные в CSV.
Минусы
- нет возможности интеграции по API, то есть для обновления данных Web Scraper нужно запускать самостоятельно и ждать, пока завершится сканирование. Благо, проекты сохраняются в браузере, существует возможность сохранить проект в формате Json.
- также есть ограничение в один поток. 2 000 страниц парсятся больше часа.
- работает только в Chrome.
Плюсы
- удобный, простой и интуитивно понятный инструмент.
- может извлекать данные из динамических страниц, которые используют Javascript и Ajax.
Какие задачи решает?
Спарсить информацию о карточке товара
План обхода сайта показывает логику парсинга:
Элементы для парсинга:
После завершения парсинга информация будет отображена в таком виде:
Обучающие материалы:
- видео;
- документация.
4. Google Spreadsheet + Google Apps Script
Google Apps Script — язык программирования, основанный на JavaScript. Позволяет создавать новые функции и приложения для работы с Google Docs, Google Sheets и Google Forms. Настроить связку можно бесплатно.
Минусы
Нужно знание языка программирования JavaScript.
Плюсы
Потратив определенное время на настройку отчетов, можно оперативно реагировать на изменения данных.
Какие задачи решает?
С помощью связки Google Spreadsheet и Google Apps Script можно получать и обновлять данные в режиме реального времени, а это полезно, чтобы следить за конкурентами и настраивать оповещение при изменениях, например, тегов title. Также можно настроить мониторинг цен и получать уведомления при изменении показателей.
Пример скрипта для отслеживания цен.
Выводы
Для гибкого и эффективного использования бесплатных инструментов парсинга сайтов необходимо как минимум знать, что такое XPath, а оптимально — еще и владеть основами JavaScript. Да и платные решения, вроде Netpeak Spider, предлагают все более интересные возможности, вроде одновременной настройки 15 потоков парсинга.
Многие вопросы, связанные с автоматизацией, раньше решал
Пишите в комментариях, какие инструменты вы используете для парсинга, и какие задачи решаете с их помощью.
netpeak.net
Парсер – это программа для автоматизации процесса парсинга, то есть обработки информации по определенному алгоритму. В этой статье я приведу несколько примеров программ-парсеров и в двух словах опишу их назначение и основные функции.
Как мы уже определились, парсинг – это процесс синтаксического и лексического анализа, разбора и преобразования какого-либо документа или выбора из этого документа, интересующих нас данных. Это могут быть и трансляторы языков программирования, переводчики с одного языка на другой. Я думаю, что интерпретаторы скриптов тоже используют алгоритмы парсинга.
Но поскольку парсеры нас интересуют применительно к интернету и его приложениям, то мы вернемся к описанию использования парсеров для этой тематики. Выделю два наиболее популярных вида парсинга в интернете:
— парсинг контента
— парсинг результатов выдачи поисковых систем
Некоторые программы совмещают эти функции, плюс обрастают дополнительными функциями и возможностями.
Итак приступим
Универсальный парсер Datacol
Парсер Datacol представляет собой универсальный инструмент для сбора информации в интернете. Текущая версия программы — Datacol5.
На настоящий момент этот парсер является несомненным лидеров в Рунете по своим возможностям и функционалу.
Этот инструмент позволяет собирать в интернете данные следующего типа:
- Результаты поисковой выдачи
- Сбор контента с заданных сайтов
- Сбор внутренних и внешних ссылок для интернет сайта
- Сбор графической информации, аудио контента, видео материалов
- Парсинг СЕО показателей сайтов с различных сервисов
- И много много самой различной информации с различных интернет ресурсов
Вся полученная информация сохраняется в удобном для пользователя виде для дальнейшего анализа и использования.
Более подробное описание парсера Datacol5 находится на этой странице — web-data-extractor.net.
Программа Content Downloader
Представляет собой универсальную программу. Обладает очень широким функционалом и представляет собой целый набор парсинг-функций, вот перечень основных из них:
- Парсер товаров
- Парсер интернет-магазинов
- Парсер картинок
- Парсер видио
- RSS парсер
- Парсер ссылок
- Парсер новостей
И это еще неполный перечень всех функций. Программа платная, продается несколько вариантов, в зависимости от функционала колеблется и стоимость. Подробнее ознакомиться можно здесь.
Парсер контента X-Parser
Основные функции программы также состоят их нескольких программных блоков.
- Парсер вылачи любых поисковых систем по ключевым запросам
- Парсер контента с любого сайта
- Парсер контента по ключевым запросам из выдачи любой поисковой системы
- Парсер контента по списку URLов
- Парсер внутренних ссылок
- Парсер внешних ссылок
Довольно многофункциональная программа, более подродно узнать всю информацию, вплоть до цены можно перейдя по ссылке.
Программа WebParser
Парсер WebParser представляет собой универсальную программу. основная функция которой — парсинг поисковых систем. Работает с ПС Google, Яндексом, Рамблером, Yahoo и некоторыми другими. анализирует движки (CMS) сайтов. Совместима со всеми версиями Windows, начиная с W2000. Болле полную информацию можно получить здесь.
Плагин WP Uniparser
Не забудем и плагин для WordPress WP Uniparser. О нем можно больше узнать, пройдя по этой ссылке.
Парсер «Магадан»
Парсер ключевых слов c романтическим названием «Магадан» создан именно для целевой обработки ключевых слов Яндекс.Директа. Полезен при составлении семантического ядра, подготовке рекламных компаний и для сбора и анализа информации.
В завершение стоит упомянуть о языке программирования для создания сайтов Parser, созданного на студии Артемия Лебедева и служащего для разработки сайтов. Этот язык будет несколько посложнее, чем обыкновенный HTML, но не требующий такой основательной подготовки, как, например, язык PHP.
inetmkt.ru
(оценок: 243, средний балл: 4.55)
Loading…
скачать/обновить программу Ver 11.1.0000727 (03.04.2019)
просмотреть весь лог изменений
экспресс-курс
Лицензионное соглашение (рекомендуем ознакомиться!)
скачать демо-версию
Если интернет – ваша работа, то Content Downloader должен стать вашими руками ©




Пожалуйста, посмотрите демонстрационное видео (не забыв выбрать качество HD в плеере):
Описание универсального парсера Content Downloader:
Content Downloader – профессиональная программа, предназначенная для парсинга любой информации с любых сайтов (где это вообще возможно)
Content Downloader может применяться для:
– Парсинга товаров интернет-магазина в таблицу CSV (с любым требуемым набором столбцов на выходе)
– Парсинга статей с картинками и файлами (например, файлами торрентов, флеш-игр или рефератов) в txt или htm форматы
– Парсинга телефонных номеров, e-mail адресов или любой другой контактной информации (в CSV, txt или html, как вам угодно)
– Парсинга скрытой информации, доступной только после клика, например, на кнопку “показать номер” или “показать контактные данные” (для этого требуется тип лицензии ULTIMATE, включающий в себя приложение WBApp, которое и будет имитировать клики по кнопкам)
– Парсинга скрытой информации, доступной после авторизации;
– Парсинга любых, удовлетворяющих заданным фильтрам, ссылок с сайта (до 1 миллиона)
– Парсинга любых частей кода WEB-документов и их вывод в нужном для вас формате
– Парсинга XML-карт сайтов
Парсер является универсальным! Перечислять полный список его областей применений можно очень долго, так как он ограничен лишь воображением…
Принцип работы Content Downloader очень удобен, эффективен и прост: вы указываете программе (в HTML-коде страницы), с каких частей веб-страниц брать данные, и в каком формате их выводить. Если вы хотите ознакомиться с этим более детально – пожалуйста кликните сюда.
Некоторые дополнительные возможности парсера:
– Многопоточность
– Авторизация через передачу cookies из IE или через POST-Запрос
– Возможность задать любые cookies
– Возможность задавать любой user agent (даже менять их при парсинге)
– Возможность использовать список прокси (в том числе и SOCKS с авторизацией)
– Возможность задавать паузу между запросами и изменять количество потоков
– Возможность обработки данных непосредственно в процессе парсинга
– Загрузка файлов и картинок на ваш FTP-сервер прямо при парсинге контента
– Автоматическая загрузка результирующего CSV-файла на FTP-сервер после процедуры парсинга контента
– Возможность парсить разом огромное количество характеристик товаров (только для ULTIMATE-версий)
– Возможность отправки данных в базу MySQL сразу при парсинге
– Возможность подключения собственных PHP-скриптов для обработки данных при парсинге контента
– Возможность парсить через Internet Explorer (DOM) (с поддержкой выполнения различных скриптов);
Варианты сохранения данных:
– В один файл/в несколько файлов
– Расширения: CSV (с любыми заданными столбцами), htm, txt, php, MySQL
Поддерживаемые кодировки парсинга: Windows-1251, koi, utf-8
Поддерживаемые кодировки сохранения контента: Windows-1251, utf-8, utf-8 без BOM
Также в программе есть возможность создать xml файл импорта для WordPress из файлов htm или txt с диска компьютера.
Для более углубленного ознакомления с универсальным парсером Content Downloader вы всегда можете просмотреть материалы системы помощи.
С уважением к вам, администрация сайта…
sbfactory.ru
Добрый день. Хотелось бы несколько пожеланий высказать и задать пару вопросов.
-(Основная информация – переменные – изменить/удалить переменные). Не работают кнопки «Создать» и «Клонировать». А если поставить галку «Скрытая» и сохранить изменения, то, при снятии галки в дальнейшем, переменные не становятся видимыми, помогает только удаление переменной.
-(Действия – Проверка и сравнение – Проверка на выполнение условия). «5: Проверять другое значение» и «6: Другое проверяемое значение». Названия вводят в заблуждение. Много дней прибывал в полной уверенности, что здесь задается дополнительное значение, на которое также проверяются имеющиеся в исходном значении данные, после проверки значения в пункте 2, т.е. если проходит по пункту 2, потом пункту 6, то производится действие. Даже не сомневался, что именно так и работает, пока случайно не наткнулся в демо парсере на пример использования этой функции с задействованными 5 и 6 пунктами. Крайне удобная функция, но, полагаю, что многие ей не пользуются по тем же причинам, что не пользовался и я.
— «3: Действие при выполнении условия (Вернуться к действию). Катастрофически не хватает возможности, чтобы в момент введения номера строки, на которую следует вернуться/перескочить, шла привязка к действию в этой строке, а не к самой строке – если не по умолчанию так, то хотя бы опционально (может быть галку «привязка к действию»). Я понимаю, что когда знаешь вдоль и поперек парсер, то нет острой необходимости что-то переделывать на ходу, вставлять строки, возвращаться, менять алгоритм, но когда ты новичок, а один уровень парсера состоит из нескольких десяток строк с ветвящимися условиями и переходами по всему уровню взад и вперед, то любая вставка новой строки оборачивается просто трагедией с перестановкой всех номеров в «Вернуться к действию».
— Также очень сильно не хватает комментариев или хоть какой-то возможности визуально разграничить строки на отдельные блоки и подписать их. Или просто отделить пустой строкой с комментарием, или дополнительно изменять фон строк. Сейчас я пользуюсь костылями — вставляю строку в начале блока строк, отключаю ее и пишу в ней комментарий, что хоть и помогает улучшить восприятия больших парсеров, но недостаточно. Эти две проблемы (вместе с «Вернуться к действию»), которые наиболее старательно вставляют палки в колеса при создании больших, многозадачных, разветвленных парсеров.
— Отключенные строки при копировании/перемещении в буфер обмена становятся невидимыми.
— Не хватает кнопки, которую можно нажимать, находясь на любом подуровне, чтобы сработали «Парсер Старт» и все предыдущие подуровни. Иногда очень неудобно прыгать от «Набора Действий» или «Вывода на лист» к энному подуровню через «Парсер Старт» и все предыдущие подуровни, и так много раз к ряду. Если бы можно было в «Наборе действий» иметь такую же кнопку, было бы совсем хорошо, т.е. чтобы в «Набор действий» приходил первый результат оттуда, где вставлен этот «Набор действий». А уж если бы «Набор действий» знал, сколько раз он вставлен в парсер, с возможностью указания его порядкового номера в парсере и получения оттуда данных, было вообще круто, но это я уже расфантазировался.
-(Вывод на лист – Список столбцов для вывода – Формат – Примечание). Не хватает возможности убрать красный треугольник примечания у ячейки, если само примечание поступает из переменной пустое.
И пару вопрос:
— Может ли парсер определять размер файлов, в частности ПДФ? Сейчас для сравнения актуальности скачанного с сайта файла с хранящимся на компьютере, приходится каждый открывать через IE, копировать текстовое содержимое и только потом сравнивать.
— Как обратиться к гиперссылке, не зная заранее номер столбца? К сожалению, не работают переменные такого вида: {=B2@} или {B2@} и соответственно {={ColumnLetter}{row}@} или {{ColumnLetter}{row}@}, только по номеру столбца типа {1@}. При этом переменные такого вида, но без гиперссылки, работают исправно.
Спасибо.
excelvba.ru
Парсер — программа, реализующая процесс сбора необходимой информации из заданных источников.
Парсинг данных — одно из направлений автоматизации процессов в интернете, которым мы занимаемся.
Для парсинга — мы разрабатываем собственных ботов, которым доверяем эту трудоёмкую и монотонную работу. Мы разрабатываем и простые и сложные парсеры — от сбора email адресов, до вычисления объёмов продаж позиций.
Вы можете заказать — ботов — и запускать их самостоятельно, либо заказать парсинг — как услугу — и получить данные.
Для парсинга с популярных ресурсов, чаще всего достаточно скачать парсер — запустить и через некоторое время у Вас будет файл со всеми необходимыми данными.
Дело в том, что не под все необходимые задачи существуют уже готовые парсеры, либо работоспособность парсера уже на нуле — в виду того, что на необходимом ресурсе может поменяться вёрстка, а в программный код парсера не внесены изменения.
Новичкам в этом вопросе, конечно хотелось бы скачать универсальный парсер, который сможет парсить везде и всё — такой себе парсер яндекс, ключевых слов, почты (email), телефонов, слов, текста, цен, адресов, товаров, каталогов, google, объявлений, соц сетей — vk, одноклассники, facebook — и чтобы всё запускалось нажатием одной кнопки, но в текущее время — качество парсинга достигается за счёт индивидуально разработанных парсеров под конкретную задачу.
Стоимость парсинга данных складывается из стоимости разработки парсера и затрат на мощности для парсинга, а так же в некоторых случаях затрат на прокси.
Если Вам необходим парсинг для наполнения сайта актуальной информацией и продвижения в поисковых системах, то рекомендуем так же обратить внимание на бота, который способен влиять на привлечение траффика из поисковой системы яндекс — Termidroid — раскрутка сайта за счёт управления поведенческим фактором.
1. PYW — парсер yandex wordstat
2. MMP — парсер email участников групп соц сети «Мой Мир»
3. ContactBase — парсер email и телефонов с сайтов по заданному списку ключевых слов из поисковой системы google.
avtozenno.blogspot.com