Заметка Scrapy - легендарный инструмент для парсинга. Введение. Часть 1.

Темы, которые НЕ подходят по объему под префикс "Статья"
Sozdanie-parserov.png

Введение
Наверняка вы слышали, что такое парсинг. С помощью него можно извлекать(или брать) данные с других источников, с сайта. Это очень полезно. Некоторые программисты даже извлекая данных, выводит результат в Телеграмме. Используя парсинг, вы можете творить чудо: извлекать полезную информацию, делать авторизации на сайтах и многое другое. И я вам покажу, как работает вообще парсинг.

Внимание!
Если вы никогда не пробовали парсить и вы начинаете уже изучать, то это статья будет сложна для вас, потому что инструмент Scrapy - это сложно для начинающих. Я бы вам советовал начать всё занового, а именно используя библиотеку Beatifulsoup. Если вы знаете, то можете спокойно читать статью и использоввать Scrapy.

Алгоритм работы

Снимок экрана от 2022-10-05 14-25-23.png

Извините если алгоритм кривой или неудобный. Целый час делал.

В общем, по алгоритму видно, как работает парсинг. Сначала мы подключаемся к сайту(например продукты. ru), Затем мы видем страницу, и в это время мы используем scrapy для парсинга данных. Например, хотим вывести название продукты, цена, весс и т. п. Мы можем получить доступ к любым элементам. Нужно воспользоваться Developer Tools (инструменты разработчика) и копировать. Все это я покажу во-втором часте.

О библиотеке Scrapy

Scrapy - это фреймворк для работы веб-краулинга, он может извлечать информацию используя API. В настоящее время фреймворк обслуживается компанией Scrapinghub Ltd., которая разрабатывает и предоставляет услуги в сфере веб-скрейпинга.

Архитектура проекта Scrapy построена вокруг «пауков», которые по сути являются автономными краулерами с заданными инструкциями. Следуя другим фреймворкам которые работают по принципу , таких как , это упрощает создание и масштабирование больших проектов обхода контента, позволяя разработчикам повторно использовать свой код. Scrapy также предоставляет командную для веб-краулинга, которую разработчики могут использовать для проверки своих предположений о поведении сайта.

Помимо Scrapy существует много библиотетеков(bs4, autoscraper, selenium) ну в настоящее время самым быстрым и эффективным библиотекой считается Scrapy но он не подходит для начинающих программистов.

Итоги

Это была небольшая и скучная статья, но вы узнали:
1. Алгоритм работы Парсинга
2. Что такое Scrapy и для чего используется.

В следующей части я покажу как с ним вообще работать и парсить. Всем удачи!
 
Последнее редактирование модератором:
Мы в соцсетях:

Обучение наступательной кибербезопасности в игровой форме. Начать игру!