Парсим ресурсы Codeby на языке Python

OldGuard · 13.06.2022

Использовать api не судьба?

sainless · 13.06.2022

OldGuard сказал(а):
Использовать api не судьба?

Даже не слыхал про это))) (в плане использовании)
прочитаю как нибудь про апи

OldGuard · 13.06.2022

I3ody_World сказал(а):
Даже не слыхал про это))) (в плане использовании)
прочитаю как нибудь про апи

Я так понял, что изучаешь тему и заодно документируешь, чтобы лучше отложилось в памяти. Молодец) Желаю успехов в дальнейшем развитии)

f22 · 14.06.2022

I3ody_World сказал(а):
Нам нужны User-agent и Accept, где их достать?

Гораздо проще воспользоваться готовым модулем)

Ссылка скрыта от гостей

Ну или выбрать любой другой похожий

Ссылка скрыта от гостей

I3ody_World сказал(а):
нная функция предназначена для запроса к сайту, использовании заголовков (HEADERS) и параметров, давайте напишем эту функцию:

А зачем нужна переменная r?

Раз уж вы стали изучать язык python, неплохо было бы ознакомиться со стандартами написания кода, в том числе и PEP8
Добавьте в своём редакторе кода настройку, которая будет подсвечивать недочёты. В том же pycharm она работает из коробки и выдаёт вот такое полотно)

Неплохо было бы добавить аннотирование переменных и функций, документ строки с описанием и точку входа для более понятного внешнего вида.

Попробуйте добавить к вашей программе какой-нибудь графический интерфейс и поддержку прокси - будет выглядеть ещё лучше)

Успехов!

sainless · 14.06.2022

Огромное спасибо вам! П

f22 сказал(а):
Гораздо проще воспользоваться готовым модулем)

Ссылка скрыта от гостей

Огромное спасибо за ваш теплый ответ. Про fake_useragent я вообще не знал, теперь буду знать спасибо

f22 сказал(а):
А зачем нужна переменная r?

Переменная r это сам рекуист который можно посмотреть статус состояние подключение, вывод, ну и многое другое

f22 сказал(а):
Раз уж вы стали изучать язык python, неплохо было бы ознакомиться со стандартами написания кода, в том числе и PEP8
Добавьте в своём редакторе кода настройку, которая будет подсвечивать недочёты. В том же pycharm она работает из коробки и выдаёт вот такое полотно)

очень много ворнингов согласен))) хм, наверное в 3.10 версии PEP изменился, надо сделать код свежим, в коментах оставлю

f22 сказал(а):
Попробуйте добавить к вашей программе какой-нибудь графический интерфейс и поддержку прокси - будет выглядеть ещё лучше)

сделать на GUI это было бы вообще кайф, что касается прокси, вот знаешь я очень много пытался получать их, бесплатные прокси найдешь в интернете но они как то не действует , питон говорит что они не правильные..((
а покупать прокси не так уж и хочется..

Спасибо тебе за ответ, для меня это ЧеСтЬ )))

sainless · 14.06.2022

Друзья, выше код из статьи я изменил, оказывается в нашем коде есть 20+- Warning'ов который показывает Pycharm, следуя по инструкции PEP8 я убрал эти ворнинги теперь нет никаких проблемов.

Python:

import requests  # нужен запросы, обращаться сайт, статус и т.п
from bs4 import BeautifulSoup  # парсинг, собирать данные и многое другое
import csv  # таблица данных

# CSV, HOST, URL & pages
CSV = 'resources.csv'
HOST = "https://codeby.net/"
URL = "https://codeby.net/resources/categories/brending-codeby.11/"
pages = requests.get(URL)

# Словарь с данными
HEADERS = {

    "accept": "ext/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8",
    "user-agent": "Mozilla/5.0 (X11; Linux x86_64; rv:100.0) Gecko/20100101 Firefox/100.0"
}


def get_html(url, params=""):

    r = requests.get(url, headers=HEADERS, params=params)
    return r


def get_content():
    soup = BeautifulSoup(pages.text, 'html.parser')
    items = soup.find_all("div", class_="structItem")
    resources = []

# цикл: перебираем все данные ресурса включая:(Название ресурса, автор, дата создание)
    for item in items:
        resources.append(
            {

                "title": item.find("div", class_="structItem-title").get_text(),  # название ресурса
                "author": item.find("a", class_="username").get_text(),  # автор ресурса
                "time": item.find("time", class_="u-dt").get_text(),  # дата создание ресурса
                "desc": item.find("div", class_="structItem-resourceTagLine").get_text()  # описание ресурса
            }

        )

    return resources


# функция который сохраняет данные в CSV
def save_documents_csv(items, path):
    with open(path, "w", newline='') as file:
        writer = csv.writer(file, delimiter=";")
        writer.writerow(['Название ресурсов', "Автор ресурсов", "Дата создание ресурсов", "Описание"])

        for item in items:
            writer.writerow([item['title'], item["author"], item["time"], item["desc"]])


# Run
def parser():
    html = get_html(URL)
    if html.status_code == 200:
        resource = []
        resource.extend(get_content())
        save_documents_csv(resource, CSV)
    parser()

если посмотреть на пайчарме то ворнинги и т.п отстутствует:

@f22 спасибо тебе)) обычно я не обращаю внимание на синтаксис PEP и этих ворнингов, мне главное чтобы код работал)) но теперь буду знать и как исправлять ворнингов)))

а и ещё, рекомендую пользоваться этой руководстве по PEP8

Ссылка скрыта от гостей

Про библиотеке fake_useragent я установил, вызываю его но получаю вот такой вот ошибку

видимо внутрення ошибка

f22 · 14.06.2022

I3ody_World сказал(а):
@f22 спасибо тебе)) обычно я не обращаю внимание на синтаксис PEP и этих ворнингов, мне главное чтобы код работал)) но теперь буду знать и как исправлять ворнингов)))

Пожалуйста)
Когда код выглядит опрятно, читать и воспринимать его гораздо проще)

I3ody_World сказал(а):
видимо внутрення ошибка

Нет, дело не в ошибке.
Вы читайте документацию по модулю - вот же на главной странице:

Сначала нужно создать экземпляр класса UserAgent(), а потом уже получить у него нужное поле
Или получить поле сразу:

А вы зачем-то обновлять его полезли)

f22 · 14.06.2022

I3ody_World сказал(а):
а и ещё, рекомендую пользоваться этой руководстве по PEP8

Обратите внимание на блок

Максимальная длина строки

sainless · 14.06.2022

f22 сказал(а):
Пожалуйста)
Когда код выглядит опрятно, читать и воспринимать его гораздо проще)

Нет, дело не в ошибке.
Вы читайте документацию по модулю - вот же на главной странице:
Посмотреть вложение 60487
Сначала нужно создать экземпляр класса UserAgent(), а потом уже получить у него нужное поле
Или получить поле сразу:
Посмотреть вложение 60488

А вы зачем-то обновлять его полезли)

Ах, да емае почему я такой не внимательный, кстати если написать my_ua.firefox он выводит файрвокс юзер агента?

f22 · 14.06.2022

I3ody_World сказал(а):
кстати если написать my_ua.firefox он выводит файрвокс юзер агента?

Да, вот все варианты на странице документации

sainless · 16.06.2022

Мб, сделаю парсер для просмотра ресурсов с приватных контент, хз, с моего акка надо кукисы впихать или же авторизацию сделать

Все сервисы Codeby

Поиск

Поиск

Парсим ресурсы Codeby на языке Python

OldGuard

sainless

OldGuard

f22

Codeby Academy

sainless

sainless

f22

Codeby Academy

f22

Codeby Academy

Максимальная длина строки

sainless

f22

Codeby Academy

sainless

Похожие темы

Парсим ресурсы Codeby на языке Python

Codeby Academy

Codeby Academy

Codeby Academy

Максимальная длина строки​

Codeby Academy

Похожие темы

Максимальная длина строки