Пишем парсер на Python - грабим Proxy ч.1

Cop999 · 06.11.2020

Переписал парсер под этот сайт. Учите Python, 10 минут заняло. Работает в Windows и Linux.

Python:

import requests
from bs4 import BeautifulSoup


def get_html(site):
    r = requests.get(site)
    return r.text


def get_page_data(html):
    soup = BeautifulSoup(html, 'html.parser')
    line = soup.find('table', {'class': 'htable proxylist'}).find('tbody').find_all('tr')

    for tr in line:
        td = tr.find_all('td')
        proxy = td[0].text
        types = td[1].text
        country = td[2].text
        last_checked = td[3].text

        data = {'Proxy': proxy,
                'Type': types,
                'Country': country,
                'Last Checked': last_checked
                }

        print(str(data)[1:-1])


def main():
    url = 'https://www.ip-adress.com/proxy-list'
    get_page_data(get_html(url))


if __name__ == '__main__':
    main()

Благодарю вас! В файл он не сохраняет, сам допишу. Спасибо.

KDST · 13.11.2020

explorer сказал(а):
Переписал парсер под этот сайт. Учите Python, 10 минут заняло. Работает в Windows и Linux.

Python:

import requests from bs4 import BeautifulSoup .....

Спасибо за код!
А как правильно добавить условие, например чтоб считывать только если country = 'United States' ?

explorer · 13.11.2020

KDST сказал(а):
А как правильно добавить условие, например чтоб считывать только если country = 'United States' ?

Это легко:

Python:

import requests
from bs4 import BeautifulSoup


def get_html(site):
    r = requests.get(site)
    return r.text


def get_page_data(html):
    soup = BeautifulSoup(html, 'html.parser')
    line = soup.find('table', {'class': 'htable proxylist'}).find('tbody').find_all('tr')

    for tr in line:
        td = tr.find_all('td')
        proxy = td[0].text
        types = td[1].text
        country = td[2].text
        last_checked = td[3].text

        data = {'Proxy': proxy,
                'Type': types,
                'Country': country,
                'Last Checked': last_checked
                }
        if 'United States' in td[2].text:
            print(str(data)[1:-1])


def main():
    url = 'https://www.ip-adress.com/proxy-list'
    get_page_data(get_html(url))


if __name__ == '__main__':
    main()

gydman · 21.02.2021

Просьба к Explorer’y...
Ты не мог бы написать пример парсера, которые уже работает через прокси (через те что награбили) + автозамена user-agenta

explorer · 21.02.2021

gydman сказал(а):
Просьба к Explorer’y...
Ты не мог бы написать пример парсера, которые уже работает через прокси (через те что награбили) + автозамена user-agenta

Для смены юзерагентов есть уже готовая библиотека

Ссылка скрыта от гостей

И прежде чем использовать награбленные прокси, их нужно чекать на валидность, так как халявные прокси очень быстро имеют свойства умирать. Используете библиотеку

Ссылка скрыта от гостей

проверяете ответ сервера, если сервер ответил кодом 200, значит прокси работает. Если работает, то используем прокси, если нет, то пропускаем и проверяем следующий.

Использовать прокси в коде просто:
headers ={здесь постоянный или рандомный юзер-агент пишется}
proxies = {"https": "

Ссылка скрыта от гостей

"} здесь указывает протокол и адрес
page = requests.get(headers=headers, proxies=proxies) запрос через прокси и юзерагента

gydman · 21.02.2021

explorer сказал(а):
Для смены юзерагентов есть уже готовая библиотека
Ссылка скрыта от гостей

И прежде чем использовать награбленные прокси, их нужно чекать на валидность, так как халявные прокси очень быстро имеют свойства умирать. Используете библиотеку
Ссылка скрыта от гостей
проверяете ответ сервера, если сервер ответил кодом 200, значит прокси работает. Если работает, то используем прокси, если нет, то пропускаем и проверяем следующий.

Использовать прокси в коде просто:
headers ={здесь постоянный или рандомный юзер-агент пишется}
proxies = {"https": "
Ссылка скрыта от гостей
"} здесь указывает протокол и адрес
page = requests.get(headers=headers, proxies=proxies) запрос через прокси и юзерагента

Благодарю

thelegend · 25.11.2021

Спасибо, крутейший материал !

Je3mboo · 02.12.2021

Всем привет.
Получаю вот такое.

line 12, in get_page_data
line = soup.find('table', {'class': 'htable proxylist'}).find('tbody').find_all('tr')
AttributeError: 'NoneType' object has no attribute 'find'

explorer сказал(а):

Переписал парсер под этот сайт. Учите Python, 10 минут заняло. Работает в Windows и Linux.

Python:

import requests
from bs4 import BeautifulSoup


def get_html(site):
    r = requests.get(site)
    return r.text


def get_page_data(html):
    soup = BeautifulSoup(html, 'html.parser')
    line = soup.find('table', {'class': 'htable proxylist'}).find('tbody').find_all('tr')

    for tr in line:
        td = tr.find_all('td')
        proxy = td[0].text
        types = td[1].text
        country = td[2].text
        last_checked = td[3].text

        data = {'Proxy': proxy,
                'Type': types,
                'Country': country,
                'Last Checked': last_checked
                }

        print(str(data)[1:-1])


def main():
    url = 'https://www.ip-adress.com/proxy-list'
    get_page_data(get_html(url))


if __name__ == '__main__':
    main()

И ваш код не исправил эту ошибку.

Не бейте сильно, только учусь ))

explorer · 02.12.2021

Je3mboo сказал(а):
Всем привет.
Получаю вот такое.

И ваш код не исправил эту ошибку.

Не бейте сильно, только учусь ))

У вас написано 'htable proxylist' лишний символ, должно быть 'table proxylist'

Je3mboo · 02.12.2021

explorer сказал(а):
У вас написано 'htable proxylist' лишний символ, должно быть 'table proxylist'

Это ваш код

После правки к сожалению ошибка никуда не делась.
Я конечно не спец, но вроде как 'htable'

explorer · 03.12.2021

Названия тегов на сайте я вижу по вашему скрину сменились, значит код нужно править, старый не актуален.

Все сервисы Codeby

Поиск

Поиск

Пишем парсер на Python - грабим Proxy ч.1

Cop999

New member

KDST

New member

explorer

Well-known member

gydman

New member

explorer

Well-known member

gydman

New member

thelegend

Member

Je3mboo

explorer

Well-known member

Je3mboo

explorer

Well-known member

Похожие темы

Hacker Lab

Категории

Наши курсы

Статистика форума