• 15 апреля стартует «Курс «SQL-injection Master» ©» от команды The Codeby

    За 3 месяца вы пройдете путь от начальных навыков работы с SQL-запросами к базам данных до продвинутых техник. Научитесь находить уязвимости связанные с базами данных, и внедрять произвольный SQL-код в уязвимые приложения.

    На последнюю неделю приходится экзамен, где нужно будет показать свои навыки, взломав ряд уязвимых учебных сайтов, и добыть флаги. Успешно сдавшие экзамен получат сертификат.

    Запись на курс до 25 апреля. Получить промодоступ ...

парсер гугла

  • Автор темы typak
  • Дата начала
T

typak

Здарова!!!
Вообщем 2 дня парсил google функцией file_get_contents()
вроде все нормально было все работало, а сегодня тока что выдало ошибку
(сегодня 2 часа всего парсил)

Warning: file_get_contents(http://www.google.ru/search?q=%E6%E8%E2%EE%F2%ED%FB%E5&num=10&hl=ru&start=0&sa=N) [function.file-get-contents]: failed to open stream: HTTP request failed! HTTP/1.0 503 Service Unavailable in D:\web\html\generator\generator_gs_google\function.php on line 24

я просто в шоке
пробовал curl использовать выдал следую ошибку:

302 Moved
The document has moved here.


Типо с вашей сети был замечен подозрительный траф :(

Шож терь делать пипец?
На yndex или на yhoo переходить?
Даже curl непомог
А еслиб я сразу curlom пользовался то не выдал бы такую ошибку?
И вообще как замаскироваться шоб гугл ничо не заподозрил типа это не скрипт качает страницу ?
када адрес вводиш в адресную строку браузера то все грузится а када через curl или file_get_contents то нихочет как зделать шоб грузилось нормально ?
Сокеты еще не пробовал щас попробую но сомневаюсь шо поможет :(
хотя если нормально подделать заголовки . . .
 
T

typak

Тока шо опять гугл забанил 302 выдал пипец.
Чо зделать шоб он не банил как замаскироваться посоветуйте знатаки?
Ничо непомогает пробовал прокси бесплатный ставить а толку то никаково тока тормозит, а через браузер же запрос даже и при блокировке нормално обробатывает, значит всетоки можно к нему подключится и через скрипт посоветуйте как подключится шоб не банил может заголовки какие правельные отослать ? Низнаю чо и делать переадресация не втему. Подскожите шо может помоч !!!
 
T

typak

google опять забанил подскажите шо делать? Какие варианты или нет ?

Вообщем еще раз повторюсь при парсе выдает страничку на которой написано

302 Moved
The document has moved here.


где here ссылка которая ведет на страницу где просят ввести пароль вводиш пароль вручную и попадаеш на страницу которую я хотел считать короче нужно эту фигню обойти токо как кто знает отзовитесь жильци форума !!! :(
 
1

1ive

А помедленней парсить не пробовал?
 

EmptyR

Веб мастер
06.10.2010
153
0
BIT
0
Попробуй посмотреть на работу проги Goolag Scanner, которая парсит результаты поиска для нахождения на сайте дырок. В ней есть настройка количества обращений, что делает сканирование медленным, но зато результативным. :(
 
T

typak

Нужно всего лишь
HTML
sleep(2);

Попробую но у меня задержка перед каждым парсом страници стоит больше 2 секунд в самом скрипте в цикле парса гугла идет внутренний цикл в котором сразу же парсятся страници по спарсеным ссылкам. Там в парсе страниц очень много рег выражений к томуже они еще и крыво написаны (не оптемизированы).Наверно гдето штук 50 да еще и добавлять предется потому шо на некоторых страницах проскакивают теги непонятные которые первый раз я вижу даже незнаю чо они делают(флеш наверно или еще какая нибуть фигня) вообще ужас:(. Если я за раз спарсиваю 1 страницу это 50 ссылок то до следующего парса проходит времени наверно минут 15 а то и больше.

Я так понял шо вы хотите сказать шо гугл смотрит определяет шо это робот загружает по количеству страниц загруженых за раз (можнож ведь за раз и 1000 ссылок загрузить тоесть 1000/50 страниц)
Может быть вы и правы просто вспоминаю моменты када меня банил гугл я в это время всегда скрипт отлаживал в средине останавливал и выводил чо там получалось вообщем чаще парсились страници, а то и вообще подряд загружались много.

Ок поставлю sleep(10); шоб наверняка(10 секунд роли не сыграют если поможет)
Есть еще скрипт который генерирует менюшку сайта и ключевики к каждому разделу там да там быстро гугл парсится и по многу стрнаниц. Если поможет тоб было хорошо впадло структуру генератора менять. :(

А так вообще вычитал шо динамический ip помогает у меня 3ж модем есть пополню счет проверю
Ладно спасибо за совет поэксперементирую наднях, отпишусь щас некада эксперементировать.

Делов навалилось как назло на неделю наверно.
 
T

typak

[color="#FF000"]Ура !!! Никто не банит все работае. Задержка времени помогла.
Спасибо за совет.
Ха-ха. Ураааааааааааааааааа ![/color]
:newconfus:
Терь можно парсить скока хочеш хоть сутки на пролет. B)
 
Мы в соцсетях:

Обучение наступательной кибербезопасности в игровой форме. Начать игру!