• B правой части каждого сообщения есть стрелки и . Не стесняйтесь оценивать ответы. Чтобы автору вопроса закрыть свой тикет, надо выбрать лучший ответ. Просто нажмите значок в правой части сообщения.

  • 🔥 Бесплатный курс от Академии Кодебай: «Анализ защищенности веб-приложений»

    🛡 Научитесь находить и использовать уязвимости веб-приложений.
    🧠 Изучите SQLi, XSS, CSRF, IDOR и другие типовые атаки на практике.
    🧪 Погрузитесь в реальные лаборатории и взломайте свой первый сайт!
    🚀 Подходит новичкам — никаких сложных предварительных знаний не требуется.

    Доступ открыт прямо сейчас Записаться бесплатно

Самый быстрый парсер

Алёна

Well-known member
09.05.2020
86
0
Доброго времени суток, подскажите самую быструю библиотеку на python для парсинга
Нужно парсить сайт и скачивать фотографии
 
Не думаю, что где-то есть "бенчмарк" для библиотек. Но как вариант можете использовать bs4. Примеров использования в интернете множество.
 
Не думаю, что где-то есть "бенчмарк" для библиотек. Но как вариант можете использовать bs4. Примеров использования в интернете множество.
Нет, уклон был на быстрый
Важна скорость!
Поэтому следует выбирать между urllib, httplib и scrapy (или может какие-то ещё библиотеки есть)
Но я не знаю, что из этого выбрать
 
Самый быстрый, мощный, гибкий это scrapy. Но и он же более сложный в освоении. Если брать BS4, то самый быстрый парсер к нему будет lxml.
Итого:
1. Scrapy
2. Beautiful Soup + lxml


Остальное на мой взгляд менее предпочтительно.
 
Самый быстрый, мощный, гибкий это scrapy. Но и он же более сложный в освоении. Если брать BS4, то самый быстрый парсер к нему будет lxml.
Итого:
1. Scrapy
2. Beautiful Soup + lxml


Остальное на мой взгляд менее предпочтительно.
Нужно парсить десятки тысяч фото, я так понимаю, выбор в пользу scrapy несколько часов точно сэкономит?
 
Нужно парсить десятки тысяч фото, я так понимаю, выбор в пользу scrapy несколько часов точно сэкономит?

Время невозможно сказать сколько сэкономит. Примерную разницу можно сосчитать исключительно тестированием, причём КОНКРЕТНОГО ресурса, ибо у серверов разный ап-тайм. То есть грубо говоря взять 2 парсера, на обоих спарсить (с таймером в коде) фиксированное количество, например 200 фото. Далее простой пропорцией пересчитать на проценты результат, тогда и будет значение приближённое к реальности.
 
Мы в соцсетях:

Взломай свой первый сервер и прокачай скилл — Начни игру на HackerLab

Курс AD