парсер гугла

Тема в разделе "PHP программирование", создана пользователем typak, 20 авг 2011.

  1. typak

    typak Гость

    Здарова!!!
    Вообщем 2 дня парсил google функцией file_get_contents()
    вроде все нормально было все работало, а сегодня тока что выдало ошибку
    (сегодня 2 часа всего парсил)

    Warning: file_get_contents(http://www.google.ru/search?q=%E6%E8%E2%EE%F2%ED%FB%E5&num=10&hl=ru&start=0&sa=N) [function.file-get-contents]: failed to open stream: HTTP request failed! HTTP/1.0 503 Service Unavailable in D:\web\html\generator\generator_gs_google\function.php on line 24

    я просто в шоке
    пробовал curl использовать выдал следую ошибку:

    302 Moved
    The document has moved here.


    Типо с вашей сети был замечен подозрительный траф :(

    Шож терь делать пипец?
    На yndex или на yhoo переходить?
    Даже curl непомог
    А еслиб я сразу curlom пользовался то не выдал бы такую ошибку?
    И вообще как замаскироваться шоб гугл ничо не заподозрил типа это не скрипт качает страницу ?
    када адрес вводиш в адресную строку браузера то все грузится а када через curl или file_get_contents то нихочет как зделать шоб грузилось нормально ?
    Сокеты еще не пробовал щас попробую но сомневаюсь шо поможет :(
    хотя если нормально подделать заголовки . . .
     
  2. typak

    typak Гость

    Тока шо опять гугл забанил 302 выдал пипец.
    Чо зделать шоб он не банил как замаскироваться посоветуйте знатаки?
    Ничо непомогает пробовал прокси бесплатный ставить а толку то никаково тока тормозит, а через браузер же запрос даже и при блокировке нормално обробатывает, значит всетоки можно к нему подключится и через скрипт посоветуйте как подключится шоб не банил может заголовки какие правельные отослать ? Низнаю чо и делать переадресация не втему. Подскожите шо может помоч !!!
     
  3. typak

    typak Гость

    google опять забанил подскажите шо делать? Какие варианты или нет ?

    Вообщем еще раз повторюсь при парсе выдает страничку на которой написано

    302 Moved
    The document has moved here.


    где here ссылка которая ведет на страницу где просят ввести пароль вводиш пароль вручную и попадаеш на страницу которую я хотел считать короче нужно эту фигню обойти токо как кто знает отзовитесь жильци форума !!! :(
     
  4. 1ive

    1ive Well-Known Member
    Web Team

    Регистрация:
    12 сен 2010
    Сообщения:
    694
    Симпатии:
    0
    А помедленней парсить не пробовал?
     
  5. EmptyR

    EmptyR Веб мастер

    Регистрация:
    6 окт 2010
    Сообщения:
    221
    Симпатии:
    0
    Попробуй посмотреть на работу проги Goolag Scanner, которая парсит результаты поиска для нахождения на сайте дырок. В ней есть настройка количества обращений, что делает сканирование медленным, но зато результативным. :(
     
  6. 1ive

    1ive Well-Known Member
    Web Team

    Регистрация:
    12 сен 2010
    Сообщения:
    694
    Симпатии:
    0
    :(
    Нужно всего лишь

    HTML:
    sleep(2);
     
  7. typak

    typak Гость

    Попробую но у меня задержка перед каждым парсом страници стоит больше 2 секунд в самом скрипте в цикле парса гугла идет внутренний цикл в котором сразу же парсятся страници по спарсеным ссылкам. Там в парсе страниц очень много рег выражений к томуже они еще и крыво написаны (не оптемизированы).Наверно гдето штук 50 да еще и добавлять предется потому шо на некоторых страницах проскакивают теги непонятные которые первый раз я вижу даже незнаю чо они делают(флеш наверно или еще какая нибуть фигня) вообще ужас:(. Если я за раз спарсиваю 1 страницу это 50 ссылок то до следующего парса проходит времени наверно минут 15 а то и больше.

    Я так понял шо вы хотите сказать шо гугл смотрит определяет шо это робот загружает по количеству страниц загруженых за раз (можнож ведь за раз и 1000 ссылок загрузить тоесть 1000/50 страниц)
    Может быть вы и правы просто вспоминаю моменты када меня банил гугл я в это время всегда скрипт отлаживал в средине останавливал и выводил чо там получалось вообщем чаще парсились страници, а то и вообще подряд загружались много.

    Ок поставлю sleep(10); шоб наверняка(10 секунд роли не сыграют если поможет)
    Есть еще скрипт который генерирует менюшку сайта и ключевики к каждому разделу там да там быстро гугл парсится и по многу стрнаниц. Если поможет тоб было хорошо впадло структуру генератора менять. :(

    А так вообще вычитал шо динамический ip помогает у меня 3ж модем есть пополню счет проверю
    Ладно спасибо за совет поэксперементирую наднях, отпишусь щас некада эксперементировать.

    Делов навалилось как назло на неделю наверно.
     
  8. typak

    typak Гость

    [color="#FF000"]Ура !!! Никто не банит все работае. Задержка времени помогла.
    Спасибо за совет.
    Ха-ха. Ураааааааааааааааааа ![/color]
    :newconfus:
    Терь можно парсить скока хочеш хоть сутки на пролет. B)
     
Загрузка...

Поделиться этой страницей