• B правой части каждого сообщения есть стрелки и . Не стесняйтесь оценивать ответы. Чтобы автору вопроса закрыть свой тикет, надо выбрать лучший ответ. Просто нажмите значок в правой части сообщения.

  • Курсы Академии Кодебай, стартующие в мае - июне, от команды The Codeby

    1. Цифровая криминалистика и реагирование на инциденты
    2. ОС Linux (DFIR) Старт: 16 мая
    3. Анализ фишинговых атак Старт: 16 мая Устройства для тестирования на проникновение Старт: 16 мая

    Скидки до 10%

    Полный список ближайших курсов ...

Самый быстрый парсер

Алёна

Well-known member
09.05.2020
86
0
BIT
0
Доброго времени суток, подскажите самую быструю библиотеку на python для парсинга
Нужно парсить сайт и скачивать фотографии
 

pp11

Green Team
16.09.2018
201
82
BIT
1
Не думаю, что где-то есть "бенчмарк" для библиотек. Но как вариант можете использовать bs4. Примеров использования в интернете множество.
 

Andrei_

Green Team
04.08.2020
67
2
BIT
0
Не думаю, что где-то есть "бенчмарк" для библиотек. Но как вариант можете использовать bs4. Примеров использования в интернете множество.
Нет, уклон был на быстрый
Важна скорость!
Поэтому следует выбирать между urllib, httplib и scrapy (или может какие-то ещё библиотеки есть)
Но я не знаю, что из этого выбрать
 

explorer

Platinum
05.08.2018
1 080
2 471
BIT
0
Самый быстрый, мощный, гибкий это scrapy. Но и он же более сложный в освоении. Если брать BS4, то самый быстрый парсер к нему будет lxml.
Итого:
1. Scrapy
2. Beautiful Soup + lxml


Остальное на мой взгляд менее предпочтительно.
 

Andrei_

Green Team
04.08.2020
67
2
BIT
0
Самый быстрый, мощный, гибкий это scrapy. Но и он же более сложный в освоении. Если брать BS4, то самый быстрый парсер к нему будет lxml.
Итого:
1. Scrapy
2. Beautiful Soup + lxml


Остальное на мой взгляд менее предпочтительно.
Нужно парсить десятки тысяч фото, я так понимаю, выбор в пользу scrapy несколько часов точно сэкономит?
 

explorer

Platinum
05.08.2018
1 080
2 471
BIT
0
Нужно парсить десятки тысяч фото, я так понимаю, выбор в пользу scrapy несколько часов точно сэкономит?

Время невозможно сказать сколько сэкономит. Примерную разницу можно сосчитать исключительно тестированием, причём КОНКРЕТНОГО ресурса, ибо у серверов разный ап-тайм. То есть грубо говоря взять 2 парсера, на обоих спарсить (с таймером в коде) фиксированное количество, например 200 фото. Далее простой пропорцией пересчитать на проценты результат, тогда и будет значение приближённое к реальности.
 
Мы в соцсетях:

Обучение наступательной кибербезопасности в игровой форме. Начать игру!