• B правой части каждого сообщения есть стрелки и . Не стесняйтесь оценивать ответы. Чтобы автору вопроса закрыть свой тикет, надо выбрать лучший ответ. Просто нажмите значок в правой части сообщения.

  • Курсы Академии Кодебай, стартующие в мае - июне, от команды The Codeby

    1. Цифровая криминалистика и реагирование на инциденты
    2. ОС Linux (DFIR) Старт: 16 мая
    3. Анализ фишинговых атак Старт: 16 мая Устройства для тестирования на проникновение Старт: 16 мая

    Скидки до 10%

    Полный список ближайших курсов ...

bs4 неверно парсит страницу

Алёна

Well-known member
09.05.2020
86
0
BIT
0
Доброго времени суток, пытаюсь спарсить аватарку вконтакте, в качестве примера взяла Павла Дурова, часть кода следующая:
1593562598052.png

Проблема состоит в том, что страница по адресу Павел Дуров | ВКонтакте содержит около 2500 строк, среди которых как раз-таки нужный тег <a> с требуемым id = profile_photo_link, а результат парсинга этой страницы содержит строк 100 от силы
Не понимаю, почему страница парсится не полностью
Очень прошу помочь!
 

evi_gweapin

New member
24.06.2020
2
0
BIT
0
потому что ты не залогинен в вк когда скрапишь страницу и дуровский профиль может быть приватен и закрыт - соответственно отдается мелкий html
 

Алёна

Well-known member
09.05.2020
86
0
BIT
0
потому что ты не залогинен в вк когда скрапишь страницу и дуровский профиль может быть приватен и закрыт - соответственно отдается мелкий html
А возможно как-то обойти авторизацию без vk_api?

потому что ты не залогинен в вк когда скрапишь страницу и дуровский профиль может быть приватен и закрыт - соответственно отдается мелкий html
Дуровский профиль кстати открыт, когда открываю в Гугле вручную и смотрю код, все показывает правильно
А парсится не так
 

evi_gweapin

New member
24.06.2020
2
0
BIT
0
А возможно как-то обойти авторизацию без vk_api?

да, можно в request.get передать словарь из значений куков. значения куков можно посмотреть в браузере в storage inspector (в том же firefox)
тогда вк будет считать тебя авторизованным при запросе из скрипта

так же надо в реквест.гет передать user-agent, какой нибудь наиболее растространенный - тоже не лишнее

в доке по реквест модулю там можешь примеры глянуть как эти параметры передаются
 
Мы в соцсетях:

Обучение наступательной кибербезопасности в игровой форме. Начать игру!