Категории заданий

Спарсить 250 000 страниц

Игорь Гаевой Исполнитель: Игорь Гаевой 
Оценка: +1
Отзыв: Отличная работа, высокое качество парсинга. Большой объем данных, в несколько потоков. Буду обращаться еще!
Стоимость: 2000
Категория: Помощь по сайту
Время выполнения: 5 дней
Поиск кандидата: 1 мин


Подробное описание:

Прочитайте внимательно! Необходимо спарсить информацию с большого сайта (почти 250 000 типовых страниц). 1) На странице bergab. ru/price/ (без пробела) есть меню слева. 2) Все пункты, содержащие текст "подшипник" нужно обойти (148 пунктов). На каждый пункт отдельная таблица ексель. 3) На странице каждого типа подшипников обойти все страницы (1, 2, 3 и т.д.). Зайти на страницу каждого подшипника. 4) Распарсить данные: Обозначение, Тип, Название, цена руб, цена евро, вес, d, D, h, Производитель, Дополнительная информация, Картинка (url изображения с доменом, если оно есть). Например: bergab. ru/price/14/305264__D.html Обозначение = 305264 D Тип = Двухрядные радиально-упорные шариковые подшипники Название = Подшипник 305264 D Цена Евро = 1968,04 Цена Руб = 137841,52 Вес, кг = 21,9 Размер d мм = 230 (разбиваем цепочку 230x329,5x80) Размер D мм = 329,5 (разбиваем цепочку 230x329,5x80) Размер h мм = 80 (разбиваем цепочку 230x329,5x80) Производитель = SKF (см. в тексте Производство SKF) Дополнительная информация = HTML код "<h2>Радиально-упорные шарикоподшипники skf 305264 D</h2>Шариковые подшипники радиально-упорные шарикоподшипники, двухрядные. Производство SKF - подшипник 305264 D skf" Картинка = bergab. ru/price/img/104/147251704.gif (это для примера со страницы bergab. ru/price/14/305704__C-2Z.html) Внимание! Нужны все перечисленные параметры отдельными столбцами. Если есть возможность - распарсить дополнительные характеристики из описания в отдельные колонки. Например для bergab. ru/price/14/305704__C-2Z.html: Динамическая грузоподъемность C Максимальная радиальная динамическая нагрузка Fr и др. Результат сдаете таблицами Эксель (148 файлов) Информацию буду проверять. Тщательно проверьте механизм сами. Чтобы ничего не потерялось и не отсеклось случайно. Подразумеваю, что поиск нужно делать по тексту в левой колонке таблицы и затем в правой снимать значение. И его дробить. Если парсим дополнительную информацию - по тексту и следующему за ним значению до точки, точки с запятой и запятой (иногда, но осторожно с дробями и предложениями с запятой). С картинками тоже осторожнее - пути условные и иногда содержат "../" - значит уровнем выше и простая склейка с доменом не получится. Убедитесь, что сможете справиться с задачей до соглашения на это задание! На все 16 часов. Если не уверены что уложитесь в срок - не заявляйте кандидатуру.

Рассказать друзьям

Подпишитесь на полезные статьи

Примеры заданий и практические советы по аутсорсингу задач

   



На дайджест уже подписалось 500015 читателей!

Присоединяйтесь к нам в соцсетях!