Практически все задачи по парсингу решаются с помощью Content Downloader, но могут быть сложности с изначальным освоением функционала (так как программа универсальная и имеет огромное количество функций). Поэтому, если у вас возникнут проблемы с освоением демо или с парсингом сайта, вы без стеснения можете задавать вопросы на форуме или по Whatsap +79833813211 (Сергей) для получения бесплатной консультации и мы с радостью вам поможем разобраться в продукте =)
Содержание
4) Размещение заданных границ парсинга в шаблоне вывода (для создания столбцов таблицы CSV)
5) Обработка данных при парсинге
6) Предпросмотр результатов парсинга и запуск парсинга
Дополнительно
7) Парсинг названий рубрик товара
9) Парсинг характеристик товаров
Для возврата к содержанию вы можете использовать клавишу home
Для ознакомления с основными возможностями программы рекомендуется изучить эти видео материалы и пошаговую инструкцию, расположенную ниже на этой странице.
Также обратите внимание на:
страницу описания основных возможностей Content Downloader
На систему помощи (где описаны практически все возможности)
экспресс-курс (для более простого и быстрого изучения основ работы с программой)
Пошаговая инструкция по парсингу товаров интернет магазинов
Так как одна из основных задач программы — парсить товары интернет магазинов в таблицу CSV, то далее давайте рассмотрим пошаговую инструкцию по парсингу одного из интернет магазинов (на примере Эльдорадо).
1) Создание нового проекта для парсинга
Перед настройкой Content Downloader необходимо создать новый проект (чтобы сбросить все настройки на заводские). Если парсите товары интернет магазина, то выберите главное меню -> файл -> создать новый проект для парсинга в CSV (shift+ctrl+n). Если парсите статьи или другие данные (не в CSV), то выберите главное меню -> файл -> создать новый проект (ctrl+n).
В любой момент вы можете сохранять или загружать проекты парсинга с помощью главное меню -> файл.
К содержанию
2) Парсинг ссылок на товары
Примечание: Чтобы сразу перейти к главному — парсингу контента, очень рекомендуем вам пропустить сбор ссылок с сайта и приступить сразу к парсингу товаров в CSV. Для этого достаточно в главном окне программы перейти во вкладку «Контент» (открыта по умолчанию) и добавить одну или несколько ссылок на товар(ы) вручную, скопировав их из браузера. Для добавления URL в список ссылок из буфера нажмите F8 (находясь в программе).
Для парсинга ссылок в Content Downloader есть множество инструментов. Вы можете детально ознакомиться с методами сбора ссылок в этом разделе системы помощи.
Если у вас есть трудности со сбором ссылок, можете задавать вопросы на форуме и мы вам постараемся помочь.
К содержанию
3) Задание границ парсинга
Для того, чтобы указать программе, какие части WEB страниц нужно спарсить (наименование, описание, цену, рубрики, картинки, характеристики и прочее) необходимо задать границы парсинга.
В программе существуют 20 обычных границ парсинга (для взятия одиночных блоков из HTML) и 5 повторяющихся (для взятия повторяющихся блоков, например, нескольких картинок товара).
Для задания одной или нескольких границ выделите нужную (как показано на скриншоте) и нажмите соответствующую кнопку или ctrl+f1.
Перед вами появится инструмент для задания границ парсинга.
A — форма поиска по коду WEB документа
B — поле для задания имени выбранной границы парсинга
C — выпадающий список для выбора других границ парсинга для задания (что позволяет без закрытия инструмента задавать несколько разных границ парсинга и перемещаться между ними)
D, E, F, G — значения границ парсинга (об этом немного ниже)
H — нажмите эту кнопку для закрытия инструмента и применения настроек (когда все границы парсинга заданы)
I (поле с кодом WEB документа) — это тот код, который программа получила при запросе к WEB документу
K (браузер для навигации по коду) — встроенный браузер Chromium, который отдельным запросом загружает WEB страницу и служит для навигации по коду (для поиска в коде нужных данных)
Следует отметить, что по умолчанию программа отправляет обычный GET запрос к URL для загрузки данных. Нужно знать, что при отправке такого запроса программа получит ответ сервера в виде HTML кода страницы. При этом никакие скрипты на WEB странице не будут выполняться. Если на странице есть подгружаемые скриптами данные (например, дополнительные изображения или характеристики товаров), то их можно подгрузить дополнительными GET/POST запросами или парсить страницы с использованием движка Chromium в оболочке WBAppCEF. Хоть и отсутствие всех нужных данных в HTML коде — явление не такое уж и частое, но если у вас возникла подобная проблема, создайте тему на форуме с указанием URL страницы и мы поможем подобрать решение для подгрузки нужных данных.
Чтобы задать границы парсинга нужно найти нужные данные в HTML коде документа (определить, где они расположены).
a) Определяем расположение данных в коде с помощью браузера навигации, который расположен в нижней части.
Например, нужно задать границу парсинга для взятия заголовка товара. Помещаем курсор над заголовком в браузере и нажимаем F4. После нажатия F4 в форму поиска по коду (A на скриншоте выше) должно вставиться нужное вхождение. При этом, в нижней правой части появится окно с атрибутами элемента и окно со списком всех найденных вхождений найденной поисковой фразы.
Если после нажатия F4 ничего не происходит, поместите фокус в браузер (кликнув по пустому месту WEB страницы левой кнопкой мыши) и снова нажмите F4.
Таким образом, перемещаясь по списку найденных вхождений или по списку атрибутов без труда удается найти нужные данные в HTML коде.
Также будет полезно посмотреть это видео.
b) После того, как в коде найдены нужные данные задаем для них начало и конец парсинга.
Выделяем уникальное начало парсинга и нажимаем F1 (таким образом задается начало парсинга).
Выделяем конец парсинга и нажимаем F2 (таким образом задается конец парсинга).
Все, что между началом и концом парсинга будет извлекаться этой границей.
Поиск начала парсинга производится от начала HTML кода документа.
Поиск конца парсинга производится от места найденного начала парсинга.
Обратите внимание на поля D и F (на первом большом скриншоте выше). При задании начала и конца парсинга они высчитываются автоматически. Они обозначают, сколько таких вхождений было пропущено до места в коде, где вы выделили начало и конец парсинга и нажали F1 или F2 (соответственно).
Ниже несколько примеров задания границ парсинга.
После задания всех границ парсинга не забываем нажать кнопку ГОТОВО
К содержанию
4) Размещение макросов заданных границ парсинга в шаблоне вывода (для создания столбцов результирующей таблицы CSV)
После того, как вы задали границы парсинга добавьте их в шаблон вывода.
Также в шаблон вывода можно перетаскивать границы парсинга мышкой (из списка слева) или вставлять их двойным кликом.
В шаблоне вывода, в строке заголовка и в настройке повторяющихся границ парсинга для обозначения разделителей ячеек CSV используются специальные операторы:
[CSVCS] — оператор разделителя ячеек CSV (хоткей F3)
[CSVLB] — оператор разделителя строк CSV (хоткей F4)
Обратите внимание и на расширенный редактор шаблона вывода.
К содержанию
5) Обработка данных при парсинге
В парсере Content Downloader X1 реализовано множество функций и макросов для обработки данных при парсинге, например:
— Удаление лишних HTML тегов
— Гибкие функции поиск замены с возможностью использовать регулярные выражения
— Множество макросов шаблона вывода для обработки и подгрузки данных
И так далее…
К содержанию
6) Предпросмотр результатов парсинга и запуск парсинга
На всех стадиях настройки вы можете выполнять предпросмотр результатов парсинга.
После выполнения всех настроек вы можете запустить парсинг для сбора данных со всех URL.
Также обратите внимание на лог парсинга.
В логе парсинга есть возможность открывать CSV с результатами во встроенном редакторе.
К содержанию
7) Парсинг названий рубрик товара
Задаем, например, границу парсинга 7 для извлечения из HTML кода, который выводит на WEB странице рубрики товара.
Названия рубрик товаров можно парсить как и границами парсинга, так и макросом шаблона вывода [BREADCRUMBS]. Данный макрос извлечет из HTML кода названия рубрик и выведет их в нужном формате. Также в макросе есть параметры для обрезки определенного количества рубрик от начала и от конца (например, можно отсечь лишние: главная -> каталог).
В результате получим.
К содержанию
8) Парсинг картинок товаров
URL адреса картинок парсятся обычными или повторяющимися границами. Если нужно скачать картинку на диск и на месте ее URL адреса оставить путь к ее файлу на локальном диске, возьмите URL картинки в макрос шаблона вывода DOWNLOADFILE.
Если нужно парсить несколько картинок товаров, используйте повторяющиеся границы для извлечения URL адресов всех картинок. Вставьте в ячейку с картинками макрос повторяющейся границы (как показано на скриншоте), а DOWNLOADFILE вставьте уже не в шаблон вывода, а в шаблон повторяющейся границы с URL адресами картинок.
Если нужно переименовать файлы при их сохранении на диск, используйте макрос DFN с параметром ALL и разместите его перед повторяющейся границей в шаблоне вывода (как показано на скриншоте).
В результате мы получим все картинки товара с желаемыми именами файлов.
К содержанию
9) Парсинг характеристик товаров
Смотрите подробную информацию по парсингу характеристик товаров в этом разделе системы помощи.
Там обратите внимание на:
[DYNAMICVALUES] — парсинг характеристик из любого HTML
[HORIZTABLE] и [VERTTABLE] — парсинг характеристик из HTML таблиц
Нужно правильно настроить эти макросы и они будут брать характеристики из HTML кода, автоматически создавать для них столбцы CSV и распределять по этим столбцам значения характеристик.
К содержанию
Если у вас будут вопросы, можете задавать их на форуме. Спасибо за внимание!