Статья Парсим новости в бота с помощью почти забытой технологии. Использование RSS в Python

Архонт · 08.05.2022

очень хочется захэйтить за "почти забытую технологию", но не буду. на самом деле, многие мои знакомые никогда ее и не знали. А для тех, кто связан с вебом она очень актуальна до сих пор (и Atom как продолжение)
У самого бот долгое время работал на рсс. Позже, когда появилось апи с нужными новостями, переделал на получение с апи.
Для определения новых новостей в своем боте я не храню все заголовки опубликованных новостей, храню только время публикации последней новости. При получении списка новостей, бот выбирает те, что были опубликованы позже, чем сохраненное время
В новой версии бота, там где используется апи, хранится айди новости и публикуются новости с большим айди

Johan Van · 09.05.2022

Архонт сказал(а):
очень хочется захэйтить за "почти забытую технологию", но не буду. на самом деле, многие мои знакомые никогда ее и не знали. А для тех, кто связан с вебом она очень актуальна до сих пор (и Atom как продолжение)
У самого бот долгое время работал на рсс. Позже, когда появилось апи с нужными новостями, переделал на получение с апи.
Для определения новых новостей в своем боте я не храню все заголовки опубликованных новостей, храню только время публикации последней новости. При получении списка новостей, бот выбирает те, что были опубликованы позже, чем сохраненное время
В новой версии бота, там где используется апи, хранится айди новости и публикуются новости с большим айди

Позвольте немного пояснить. Вполне возможно, что мое суждение является сугубо субъективным. Я столкнулся с тем, что RSS, как и Atom стали пропадать с сайтов и заменятся соцсетями. А произошло это года два или три назад, когда у меня в браузере скопилась критическая масса ссылок на разные ресурсы и отслеживать все их физически я просто не мог. Тогда я решил поставить себе какой-нибудь RSS-ридер и получать обновления сайтов уже туда. И когда я не нашел RSS на большей их половине, вот примерно тогда начало формироваться мое суждение о том, что данная технология постепенно выходит из употребления. Конечно же, полностью она никуда не уйдет. Но, все больше и больше ее заменяют соцсети. Раньше, помню, можно было даже с помощью Feed Burner сделать себе ленту новостей. А теперь этот ресурс уже толком и не работает. Да и помню времена, когда наличие RSS на сайте было хорошим тоном. А теперь, даже если сайт на CMS и возможность включить RSS есть, она отключается уже намеренно. Ну или ее забывают включать. Тут уж не знаю. На Дзен, так на тот вообще приходилось делать RSS с помощью стороннего ресурса. Так как там вообще не предусмотрено подобное. Может быть поэтому мне на секунду показалось, что данная технология уже почти забыта, а там где она остается, она была и раньше.

А с ботом. Ну, поначалу я хотел тоже сохранять id новости где-нибудь в json, а при проверке его подгружать и просто проверять id на совпадение. Но, потом подумал, что это в данном контексте будет немного избыточно. Тем более, что не на всех новостных сайтах у новости id есть. Я когда первую версию бота для себя делал, то сохранял id и делал проверку. Для некоторых сайтов приходилось формировать его самостоятельно ) Тут же дело не только в Хабре. Хабр - как пример. Я знаю, что там можно и JSON получить.

Архонт · 09.05.2022

Johan Van сказал(а):

если копнуть чуть глубже, то есть куча таких сервисов

Ссылка скрыта от гостей

(tg2rss)
или еще на гитхабе я нашел пхп скрипт для генерации рсс ленты из пабликов вконтакте. и пользуюсь им + Manybot вместо парсинга для пересылки новостей из вк к тг
так что технология не забытая, удобная, но не для интернет маркетинга. новости обязательно должны читать на сайте, чтобы гугл посчитал посетителей и выше ранжировал сайт. и т.д. и т.п.

StripedBear · 10.05.2022

Спасибо за статью!

Для своего бота я использую feedparser
Тоже достаточно простой модуль

Johan Van · 10.05.2022

StripedBear сказал(а):
Спасибо за статью!

Для своего бота я использую feedparser
Тоже достаточно простой модуль

Добрый день. Вам спасибо за отзыв. Я просто на него не наткнулся ), но думаю, что и с ним было бы достаточно просто. Суть была в том, чтобы показать, что парсинг новостей с помощью BeautifulSoup не всегда оправдан. Конечно, он позволяет получить бесценный опыт, куда же без этого )), но в плане практичности RSS будет лучше )

Архонт · 11.05.2022

кстати, я выше писал про Manybot. Это конструктор ботов, которые умеют не только пересылать новости с рсс в личку или в канал, но еще некоторые фичи. Но в этом боте есть задержка (около часа), видимо, из-за большого количества инстансов бота или специальное ограничение. Но основной причиной, почему я решил написать своего, была не задержка, а то, что я хотел, чтобы новость полностью читали в телеге, но бот не может постить длинные тексты и читать в тг их неудобно. от новости до новости нужно долго проматывать. Поэтому я добавил парсинг новости и сначала пощу ее через апи в telegra.ph а потом ссылку уже в телеграм.
Так получаются коротенькие посты с превьюшкой и возможностью просмотра полного текста в инстант вью (в мобильном клиенте)

Johan Van · 11.05.2022

Архонт сказал(а):
кстати, я выше писал про Manybot. Это конструктор ботов, которые умеют не только пересылать новости с рсс в личку или в канал, но еще некоторые фичи. Но в этом боте есть задержка (около часа), видимо, из-за большого количества инстансов бота или специальное ограничение. Но основной причиной, почему я решил написать своего, была не задержка, а то, что я хотел, чтобы новость полностью читали в телеге, но бот не может постить длинные тексты и читать в тг их неудобно. от новости до новости нужно долго проматывать. Поэтому я добавил парсинг новости и сначала пощу ее через апи в telegra.ph а потом ссылку уже в телеграм.
Так получаются коротенькие посты с превьюшкой и возможностью просмотра полного текста в инстант вью (в мобильном клиенте)

Кстати да, на telegra.ph читать новости из телеги легче. Это замечательная идея. Так проще чем переходить на сайт с использованием стороннего браузера. Это если в телефоне, конечно.

Архонт · 11.05.2022

Johan Van сказал(а):
Кстати да, на telegra.ph читать новости из телеги легче. Это замечательная идея. Так проще чем переходить на сайт с использованием стороннего браузера. Это если в телефоне, конечно.

вот мой чутка корявый код для постинга в телеграф

Python:

import re
from bs4 import BeautifulSoup as bs
from telegraph import Telegraph
CHANNEL_PICTURE_URL = "url зображения для превью если в новости нет картинок"
CHANNELS_NAME = "Название канала или источника новости"


def __get_image_width(img_el):
    """Проверяет ширину HTML элемента img и возвращает ее числовое значение в пикселях"""
    try:
        width = img_el['width']
    except KeyError:
        try:
            width = img_el['style'].split('width:')[1]
        except Exception:
            return 0
    return int(width.split('px')[0])


def __get_main_image(soup) -> str:
    """Проверяет ширину всех изображений в новости и возвращает
    ссылку на первое подходящее, либо на заданное по умолчанию,
    если не нашлось подходящего. Нужно для вставки заглавной картинки в пост"""
    images = [i['src']
              for i in soup.find_all('img') if __get_image_width(i) >= 200]
    if images:
        return images[0]
    else:
        return CHANNEL_PICTURE_URL


def make_telegraph_post(title: str, url: str, html: str) -> dict:
    """Формирует телеграф пост из HTML и отправляет его. Возвращает результат отправки"""
    telegraph = Telegraph()
    telegraph.create_account(short_name='short_name')
    
    soup = bs(html, 'html.parser')
    html_spec = str(soup.body)

    # Обработка исходного HTML. Удаление неподходящих для телеграф тегов и замена
    html_spec = re.sub('<\/*body>', '', html_spec)
    html_spec = re.sub('<\/h\d>', '</h1><br />', html_spec, flags=re.IGNORECASE)
    html_spec = re.sub('h\d[^>]*>', 'strong>', html_spec, flags=re.IGNORECASE)
    html_spec = re.sub('<\/*table[^>]*>', '', html_spec, flags=re.IGNORECASE)
    html_spec = re.sub('<\/*tbody>', '', html_spec, flags=re.IGNORECASE)
    html_spec = re.sub('div[^>]*>', 'p>', html_spec, flags=re.IGNORECASE)
    html_spec = re.sub('<\/*span[^>]*>', '', html_spec, flags=re.IGNORECASE)
    html_spec = re.sub('<\/*td>', '', html_spec, flags=re.IGNORECASE)
    html_spec = re.sub('tr>', 'p>', html_spec, flags=re.IGNORECASE)
    html_spec = re.sub('<\/*font[^>]*>', '', html_spec, flags=re.IGNORECASE)

    # Вставка заглавного изображения в верх поста и удаление его копии из основного HTML
    main_image = f'<img src="{__get_main_image(soup)}" alt="{title}">'
    html_spec = re.sub(
        f'<\/*img[^>]*{__get_main_image(soup)}[^>]*\/*>', '', html_spec, flags=re.IGNORECASE)




    return telegraph.create_page(
        title,
        author_name=CHANNELS_NAME,
        author_url=url,
        html_content=html_spec
    )

Johan Van · 11.05.2022

Архонт сказал(а):

вот мой чутка корявый код для постинга в телеграф

Python:

import re
from bs4 import BeautifulSoup as bs
from telegraph import Telegraph
CHANNEL_PICTURE_URL = "url зображения для превью если в новости нет картинок"
CHANNELS_NAME = "Название канала или источника новости"


def __get_image_width(img_el):
    """Проверяет ширину HTML элемента img и возвращает ее числовое значение в пикселях"""
    try:
        width = img_el['width']
    except KeyError:
        try:
            width = img_el['style'].split('width:')[1]
        except Exception:
            return 0
    return int(width.split('px')[0])


def __get_main_image(soup) -> str:
    """Проверяет ширину всех изображений в новости и возвращает
    ссылку на первое подходящее, либо на заданное по умолчанию,
    если не нашлось подходящего. Нужно для вставки заглавной картинки в пост"""
    images = [i['src']
              for i in soup.find_all('img') if __get_image_width(i) >= 200]
    if images:
        return images[0]
    else:
        return CHANNEL_PICTURE_URL


def make_telegraph_post(title: str, url: str, html: str) -> dict:
    """Формирует телеграф пост из HTML и отправляет его. Возвращает результат отправки"""
    telegraph = Telegraph()
    telegraph.create_account(short_name='short_name')
   
    soup = bs(html, 'html.parser')
    html_spec = str(soup.body)

    # Обработка исходного HTML. Удаление неподходящих для телеграф тегов и замена
    html_spec = re.sub('<\/*body>', '', html_spec)
    html_spec = re.sub('<\/h\d>', '</h1><br />', html_spec, flags=re.IGNORECASE)
    html_spec = re.sub('h\d[^>]*>', 'strong>', html_spec, flags=re.IGNORECASE)
    html_spec = re.sub('<\/*table[^>]*>', '', html_spec, flags=re.IGNORECASE)
    html_spec = re.sub('<\/*tbody>', '', html_spec, flags=re.IGNORECASE)
    html_spec = re.sub('div[^>]*>', 'p>', html_spec, flags=re.IGNORECASE)
    html_spec = re.sub('<\/*span[^>]*>', '', html_spec, flags=re.IGNORECASE)
    html_spec = re.sub('<\/*td>', '', html_spec, flags=re.IGNORECASE)
    html_spec = re.sub('tr>', 'p>', html_spec, flags=re.IGNORECASE)
    html_spec = re.sub('<\/*font[^>]*>', '', html_spec, flags=re.IGNORECASE)

    # Вставка заглавного изображения в верх поста и удаление его копии из основного HTML
    main_image = f'<img src="{__get_main_image(soup)}" alt="{title}">'
    html_spec = re.sub(
        f'<\/*img[^>]*{__get_main_image(soup)}[^>]*\/*>', '', html_spec, flags=re.IGNORECASE)




    return telegraph.create_page(
        title,
        author_name=CHANNELS_NAME,
        author_url=url,
        html_content=html_spec
    )

Очень интересный код. Если позволите, я себе заберу )) Думаю, что пригодиться. Не обязательно для того, чтобы постить в Телеграф. Тут и по другому его можно использовать. Особенно ту часть, где код чиститься от тэгов.

Архонт · 11.05.2022

Johan Van сказал(а):
Очень интересный код. Если позволите, я себе заберу )) Думаю, что пригодиться. Не обязательно для того, чтобы постить в Телеграф. Тут и по другому его можно использовать. Особенно ту часть, где код чиститься от тэгов.

да, пожалуйста. этот код для моего специфического источника новостей. там у новости табличная верстка, потому что это почтовая рассылка. и поэтому, возможно не любой хтмл он запостит в телеграф. не на всех тестировал

StripedBear · 19.01.2023

Johan Van сказал(а):
Добрый день. Вам спасибо за отзыв. Я просто на него не наткнулся ), но думаю, что и с ним было бы достаточно просто. Суть была в том, чтобы показать, что парсинг новостей с помощью BeautifulSoup не всегда оправдан. Конечно, он позволяет получить бесценный опыт, куда же без этого )), но в плане практичности RSS будет лучше )

Кстати, в документации наткнулся, что rss-parser также основан на BeautifulSoup, так что далеко от него не ушли

Johan Van · 19.01.2023

StripedBear сказал(а):
Кстати, в документации наткнулся, что rss-parser также основан на BeautifulSoup, так что далеко от него не ушли

Ну в принципе, можно xml с помощью bs4 распарсить. В общем-то невелика задача. Но раз есть инструмент, почему нет ))

Все сервисы Codeby

Поиск

Поиск

Статья Парсим новости в бота с помощью почти забытой технологии. Использование RSS в Python

Вложения

Архонт

Johan Van

Архонт

StripedBear

Johan Van

Архонт

Johan Van

Архонт

Johan Van

Архонт

StripedBear

Johan Van