Самый быстрый парсер

Алёна

Newbie
09.05.2020
86
0
Доброго времени суток, подскажите самую быструю библиотеку на python для парсинга
Нужно парсить сайт и скачивать фотографии
 
Не думаю, что где-то есть "бенчмарк" для библиотек. Но как вариант можете использовать bs4. Примеров использования в интернете множество.
 
Не думаю, что где-то есть "бенчмарк" для библиотек. Но как вариант можете использовать bs4. Примеров использования в интернете множество.
Нет, уклон был на быстрый
Важна скорость!
Поэтому следует выбирать между urllib, httplib и scrapy (или может какие-то ещё библиотеки есть)
Но я не знаю, что из этого выбрать
 
Самый быстрый, мощный, гибкий это scrapy. Но и он же более сложный в освоении. Если брать BS4, то самый быстрый парсер к нему будет lxml.
Итого:
1. Scrapy
2. Beautiful Soup + lxml


Остальное на мой взгляд менее предпочтительно.
 
Самый быстрый, мощный, гибкий это scrapy. Но и он же более сложный в освоении. Если брать BS4, то самый быстрый парсер к нему будет lxml.
Итого:
1. Scrapy
2. Beautiful Soup + lxml


Остальное на мой взгляд менее предпочтительно.
Нужно парсить десятки тысяч фото, я так понимаю, выбор в пользу scrapy несколько часов точно сэкономит?
 
Нужно парсить десятки тысяч фото, я так понимаю, выбор в пользу scrapy несколько часов точно сэкономит?

Время невозможно сказать сколько сэкономит. Примерную разницу можно сосчитать исключительно тестированием, причём КОНКРЕТНОГО ресурса, ибо у серверов разный ап-тайм. То есть грубо говоря взять 2 парсера, на обоих спарсить (с таймером в коде) фиксированное количество, например 200 фото. Далее простой пропорцией пересчитать на проценты результат, тогда и будет значение приближённое к реальности.
 
Мы в соцсетях:

Взломай свой первый сервер и прокачай скилл — Начни игру на HackerLab

🚀 Первый раз на Codeby?
Гайд для новичков: что делать в первые 15 минут, ключевые разделы, правила
Начать здесь →

Популярный контент

🔴 Свежие CVE, 0-day и инциденты
То, о чём ChatGPT ещё не знает — обсуждаем в реальном времени
Threat Intel →
💼 Вакансии и заказы в ИБ
Pentest, SOC, DevSecOps, bug bounty — работа и проекты от проверенных компаний
Карьера в ИБ →

HackerLab