Введение
Наверняка вы слышали, что такое парсинг. С помощью него можно извлекать(или брать) данные с других источников, с сайта. Это очень полезно. Некоторые программисты даже извлекая данных, выводит результат в Телеграмме. Используя парсинг, вы можете творить чудо: извлекать полезную информацию, делать авторизации на сайтах и многое другое. И я вам покажу, как работает вообще парсинг.
Внимание!
Если вы никогда не пробовали парсить и вы начинаете уже изучать, то это статья будет сложна для вас, потому что инструмент Scrapy - это сложно для начинающих. Я бы вам советовал начать всё занового, а именно используя библиотеку Beatifulsoup. Если вы знаете, то можете спокойно читать статью и использоввать Scrapy.
Алгоритм работы
Извините если алгоритм кривой или неудобный. Целый час делал.
В общем, по алгоритму видно, как работает парсинг. Сначала мы подключаемся к сайту(например продукты. ru), Затем мы видем страницу, и в это время мы используем scrapy для парсинга данных. Например, хотим вывести название продукты, цена, весс и т. п. Мы можем получить доступ к любым элементам. Нужно воспользоваться Developer Tools (инструменты разработчика) и копировать. Все это я покажу во-втором часте.
О библиотеке Scrapy
Scrapy - это фреймворк для работы веб-краулинга, он может извлечать информацию используя API. В настоящее время фреймворк обслуживается компанией Scrapinghub Ltd., которая разрабатывает и предоставляет услуги в сфере веб-скрейпинга.
Архитектура проекта Scrapy построена вокруг «пауков», которые по сути являются автономными краулерами с заданными инструкциями. Следуя другим фреймворкам которые работают по принципу
Ссылка скрыта от гостей
, таких как
Ссылка скрыта от гостей
, это упрощает создание и масштабирование больших проектов обхода контента, позволяя разработчикам повторно использовать свой код. Scrapy также предоставляет командную
Ссылка скрыта от гостей
для веб-краулинга, которую разработчики могут использовать для проверки своих предположений о поведении сайта.
Ссылка скрыта от гостей
Помимо Scrapy существует много библиотетеков(bs4, autoscraper, selenium) ну в настоящее время самым быстрым и эффективным библиотекой считается Scrapy но он не подходит для начинающих программистов.
Итоги
Это была небольшая и скучная статья, но вы узнали:
1. Алгоритм работы Парсинга
2. Что такое Scrapy и для чего используется.
В следующей части я покажу как с ним вообще работать и парсить. Всем удачи!
Последнее редактирование модератором: