Published using Google Docs
парсер
Updated automatically every 5 minutes

Задача - подготовить парсер для обработки сайта www.razvitie-dv.ru

Парсер должен запускаться под windows. Рабочий модуль - *.exe файл.

Функционал:

1)  сканировать разделы:

Грузовики с краном - манипулятором

Спецпредложения

Свежие поступления

Техника в наличии

Автобусы и микроавтобусы

Бетононасосы

Грузовики с краном

Грузовые автомобили

Крановые установки 

Легковые автомобили

Прицепы и полуприцепы

Самосвалы 

Самоходные краны, автокраны

Седельные тягачи

Специальная техника

Экскаваторы                        

или дополнительные разделы, исходя из входящих настроек. Предусмотреть опцию выбора разделов для сканирования (Все \ Отдельный раздел).

2) На основе проведенного сканирования формировать Excel-файл, содержащий таблицу со следующими столбцами:

Название - Описание - Местоположение - Год выпуска - Цена - Тэги - Указание имени папки с фотографиями.

Примечание: Тэги на сайте сейчас видны под таблицей при выборе конкретной техники.

Сравнивать с результатами предыдущего сканирования, если таковое проводилось.

Новые позиции выделять жирным, или формировать отдельный .excel файл только с ними.

3) При сканировании скачивать фото к каждой позиции, и класть их в папку (отдельную по каждой позиции), имя и относительный путь к которой должен быть в указан эксель-файле в отдельном столбце.

В папках необходимо сохранять структуру, например:

“Крановые установки\Dewoo\Год выпуска\Идентификатор позиции”

Настройки структуры необходимо вывести в меню парсера, чтобы можно было составлять шаблон структуры (менять последовательность “Марка\Тип\Год\Идентификатор позиции”, или же просто оставлять один Идентификатор позиции).

По окончании работ предоставить исходный код и .exe